Successful low-level policies training except Wait maneuver.

Each low level policy was retrained with better LTL conditions and rewards, some parts of which are also designed to encourage exploration (to prevent the vehicle from being stopped all the time).

Successful low-level policies training except Wait maneuver.
70ad9bf5 · Jae Young Lee · f2171d2c · 70ad9bf5 · f2171d2c · f2171d2c
Commit 70ad9bf5 authored 6 years ago by Jae Young Lee
--- a/backends/controller_base.py
+++ b/backends/controller_base.py
@@ -56,8 +56,7 @@ class ControllerBase(PolicyBase):
        total_reward = 0
        self.node_terminal_state_reached = False
        while not self.node_terminal_state_reached:
-            observation, reward, terminal, info = self.low_level_step_current_node(
+            observation, reward, terminal, info = self.low_level_step_current_node()
-            )
            if visualize_low_level_steps:
                self.env.render()
            total_reward += reward

--- a/backends/trained_policies/0.1mil_weights/changelane_weights_actor.h5f
+++ b/backends/trained_policies/0.1mil_weights/changelane_weights_actor.h5f
--- a/backends/trained_policies/0.1mil_weights/changelane_weights_critic.h5f
+++ b/backends/trained_policies/0.1mil_weights/changelane_weights_critic.h5f
--- a/backends/trained_policies/0.1mil_weights/follow_weights_actor.h5f
+++ b/backends/trained_policies/0.1mil_weights/follow_weights_actor.h5f
--- a/backends/trained_policies/0.1mil_weights/follow_weights_critic.h5f
+++ b/backends/trained_policies/0.1mil_weights/follow_weights_critic.h5f
--- a/backends/trained_policies/0.1mil_weights/keeplane_weights_actor.h5f
+++ b/backends/trained_policies/0.1mil_weights/keeplane_weights_actor.h5f
--- a/backends/trained_policies/0.1mil_weights/keeplane_weights_critic.h5f
+++ b/backends/trained_policies/0.1mil_weights/keeplane_weights_critic.h5f
--- a/backends/trained_policies/0.1mil_weights/stop_weights_actor.h5f
+++ b/backends/trained_policies/0.1mil_weights/stop_weights_actor.h5f
--- a/backends/trained_policies/0.1mil_weights/stop_weights_critic.h5f
+++ b/backends/trained_policies/0.1mil_weights/stop_weights_critic.h5f
--- a/backends/trained_policies/0.1mil_weights/wait_weights_actor.h5f
+++ b/backends/trained_policies/0.1mil_weights/wait_weights_actor.h5f
--- a/backends/trained_policies/0.1mil_weights/wait_weights_critic.h5f
+++ b/backends/trained_policies/0.1mil_weights/wait_weights_critic.h5f
--- a/backends/trained_policies/changelane/changelane_weights_actor.h5f
+++ b/backends/trained_policies/changelane/changelane_weights_actor.h5f
--- a/backends/trained_policies/changelane/changelane_weights_critic.h5f
+++ b/backends/trained_policies/changelane/changelane_weights_critic.h5f
--- a/backends/trained_policies/follow/follow_weights_actor.h5f
+++ b/backends/trained_policies/follow/follow_weights_actor.h5f
--- a/backends/trained_policies/follow/follow_weights_critic.h5f
+++ b/backends/trained_policies/follow/follow_weights_critic.h5f
--- a/backends/trained_policies/keeplane/keeplane_weights_actor.h5f
+++ b/backends/trained_policies/keeplane/keeplane_weights_actor.h5f
--- a/backends/trained_policies/keeplane/keeplane_weights_critic.h5f
+++ b/backends/trained_policies/keeplane/keeplane_weights_critic.h5f
--- a/backends/trained_policies/stop/stop_weights_actor.h5f
+++ b/backends/trained_policies/stop/stop_weights_actor.h5f
--- a/backends/trained_policies/stop/stop_weights_critic.h5f
+++ b/backends/trained_policies/stop/stop_weights_critic.h5f
--- a/options/simple_intersection/maneuver_base.py
+++ b/options/simple_intersection/maneuver_base.py
@@ -29,7 +29,7 @@ class ManeuverBase(EpisodicEnvBase):
    # _extra_action_weights_flag = True); note that a cost is defined
    # as a negative reward, so a cost will be summed up to the reward
    # with subtraction.
-    _cost_weights = (1.0 * 1e-3, 1.0 * 1e-3, 0.25 * 1e-3, 1.0 * 1e-3,
+    _cost_weights = (10.0 * 1e-3, 10.0 * 1e-3, 0.25 * 1e-3, 1.0 * 1e-3,
                     100.0 * 1e-3, 0.1 * 1e-3, 0.25 * 1e-3, 0.1 * 1e-3)
    _extra_r_terminal = None
@@ -292,9 +292,8 @@ class ManeuverBase(EpisodicEnvBase):
        raise NotImplemented(self.__class__.__name__ +
                             ".generate_learning_scenario is not implemented.")
-    def generate_validation_scenario(
+    # Override this method in the subclass if some customization is needed.
-            self
+    def generate_validation_scenario(self):
-    ):  # Override this method in the subclass if some customization is needed.
        self.generate_learning_scenario()
        self._enable_low_level_training_properties = False