Jae Young Lee
--- a/high_level_policy_main.py
+++ b/high_level_policy_main.py
    print("Termination reason(s):")
    for reason, count_list in termination_reason_list.items():
        count_list = np.array(count_list)
+        while count_list.size != nb_trials:
+            count_list = np.append(count_list,0)
+
--- a/mcts.py
+++ b/mcts.py
        debug=debug)

    # Evaluate
-    print("\nConducting {} trials of {} episodes each".format(
-        nb_trials, nb_episodes))
+    print("\nConducting {} trials of {} episodes each".format(nb_trials, nb_episodes))
+    timeout = 40  # 40 sec. timeout for each episode
--- a/mcts.py
+++ b/mcts.py
-                        step_current_node(visualize_low_level_steps=visualize)
-                    episode_reward += R
-                    # print('Intermediate Reward: %f (ego x = %f)' %
-                    #       (R, options.env.vehs[0].x))
-                    # print('')
-                    if terminal:
-                        if 'episode_termination_reason' in info:
-                            termination_reason = info['episode_termination_reason']
-                            if termination_reason in trial_termination_reason_counter:
-                                trial_termination_reason_counter[termination_reason] += 1
-                            else:
-                                trial_termination_reason_counter[termination_reason] = 1
-                if options.controller.can_transition():
-                    options.controller.do_transition()
+            t = 0
+            while True:
--- a/mcts.py
+++ b/mcts.py
-                            else:
-                                trial_termination_reason_counter[termination_reason] = 1
-                if options.controller.can_transition():
-                    options.controller.do_transition()
+            t = 0
+            while True:
+                options.controller.do_transition()
+
+                features, R, terminal, info = options.controller.step_current_node(visualize_low_level_steps=visualize)
+                episode_reward += R
+                t += DT
+                # print('Intermediate Reward: %f (ego x = %f)' %
+                #       (R, options.env.vehs[0].x))
+                # print('')
+
+                if terminal or t > timeout:
--- a/mcts.py
+++ b/mcts.py
        print("Trial {} Termination reason(s):".format(num_tr))
-        for reason, count_list in trial_termination_reason_counter.items():
-            count_list = np.array(count_list)
-            print("{}: Avg: {}, Std: {}".format(reason, np.mean(count_list),
-                                                np.std(count_list)))
+        for reason, count in trial_termination_reason_counter.items():
+            print("{}: {}".format(reason, count))
        print("\n")

        overall_reward_list += reward_list
-        overall_success_accuracy += [num_successes * 1.0 / nb_episodes]
+        overall_success_percent_list += [num_successes * 100.0 / nb_episodes]

    print("===========================")
-    print('Overall: Reward = (Avg: {}, Std: {}), Success = (Avg: {}, Std: {})\n'.\
+    print('Overall: Reward = (Avg: {:.2f}, Std: {:.2f}), Success = (Avg: {:.2f}, Std: {:.2f})\n'.\
--- a/mcts.py
+++ b/mcts.py
-    print('Overall: Reward = (Avg: {}, Std: {}), Success = (Avg: {}, Std: {})\n'.\
+    print('Overall: Reward = (Avg: {:.2f}, Std: {:.2f}), Success = (Avg: {:.2f}, Std: {:.2f})\n'.\
        format(np.mean(overall_reward_list), np.std(overall_reward_list),
-            np.mean(overall_success_accuracy), np.std(overall_success_accuracy)))
+            np.mean(overall_success_percent_list), np.std(overall_success_percent_list)))

    print("Termination reason(s):")
    for reason, count_list in overall_termination_reason_list.items():
        count_list = np.array(count_list)
-        print("{}: Avg: {}, Std: {}".format(reason, np.mean(count_list),
-                                            np.std(count_list)))
+        while count_list.size != nb_trials:
+            count_list = np.append(count_list, 0)
+
+        print("{}: Avg: {:.2f}, Std: {:.2f}".format(reason, np.mean(count_list), np.std(count_list)))
+