Implement SimulatedEnvProblem

koz4k · copybara-github · commit 2c761783a7aa · 2019-07-17T12:00:07.000-07:00
PiperOrigin-RevId: 258613974
diff --git a/tensor2tensor/envs/env_problem.py b/tensor2tensor/envs/env_problem.py
@@ -54,6 +54,9 @@ class EnvProblem(Env, problem.Problem):
 
   Subclasses *should* override the following functions:
   - initialize_environments
+  - observation_space
+  - action_space
+  - reward_range
   - _reset
   - _step
   - _render
@@ -95,7 +98,6 @@ class EnvProblem(Env, problem.Problem):
 
   def __init__(self,
                batch_size=None,
-               reward_range=(-np.inf, np.inf),
                discrete_rewards=True,
                parallelism=1,
                **env_kwargs):
@@ -104,9 +106,6 @@ def __init__(self,
     Args:
       batch_size: (int or None) How many envs to make in the non natively
         batched mode.
-      reward_range: (tuple(number, number)) the first element is the minimum
-        reward and the second is the maximum reward, used to clip and process
-        the raw reward in `process_rewards`.
       discrete_rewards: (bool) whether to round the rewards to the nearest
         integer.
       parallelism: (int) If this is greater than one then we run the envs in
@@ -124,18 +123,11 @@ def __init__(self,
     # to an appropriate directory.
     self._agent_id = "default"
 
-    # We clip rewards to this range before processing them further, as described
-    # in `process_rewards`.
-    self._reward_range = reward_range
-
     # If set, we discretize the rewards and treat them as integers.
     self._discrete_rewards = discrete_rewards
 
     self._parallelism = None
 
-    self._observation_space = None
-    self._action_space = None
-
     # A data structure to hold the `batch_size` currently active trajectories
     # and also the ones that are completed, i.e. done.
     self._trajectories = None
@@ -168,10 +160,10 @@ def initialize(self, batch_size=1, **kwargs):
 
     # Assert that *all* the above are now set, we should do this since
     # subclasses can override `initialize_environments`.
-    assert self._envs is not None
-    assert self._observation_space is not None
-    assert self._action_space is not None
-    assert self._reward_range is not None
+    self.assert_common_preconditions()
+    assert self.observation_space is not None
+    assert self.action_space is not None
+    assert self.reward_range is not None
 
   def initialize_environments(self, batch_size=1, parallelism=1, **kwargs):
     """Initializes the environments.
@@ -189,7 +181,7 @@ def assert_common_preconditions(self):
 
   @property
   def observation_space(self):
-    return self._observation_space
+    raise NotImplementedError
 
   @property
   def observation_spec(self):
@@ -210,7 +202,7 @@ def process_observations(self, observations):
 
   @property
   def action_space(self):
-    return self._action_space
+    raise NotImplementedError
 
   @property
   def action_spec(self):
@@ -228,7 +220,9 @@ def num_actions(self):
 
   @property
   def reward_range(self):
-    return self._reward_range
+    # We clip rewards to this range before processing them further, as described
+    # in `process_rewards`.
+    raise NotImplementedError
 
   @property
   def is_reward_range_finite(self):
diff --git a/tensor2tensor/envs/gym_env_problem.py b/tensor2tensor/envs/gym_env_problem.py
@@ -75,14 +75,19 @@ class GymEnvProblem(env_problem.EnvProblem):
   the following properties: observation_space, action_space, reward_range.
   """
 
-  def __init__(self, base_env_name=None, env_wrapper_fn=None, **kwargs):
+  def __init__(self, base_env_name=None, env_wrapper_fn=None, reward_range=None,
+               **kwargs):
     """Initializes this class by creating the envs and managing trajectories.
 
     Args:
       base_env_name: (string) passed to `gym.make` to make the underlying
         environment.
       env_wrapper_fn: (callable(env): env) Applies gym wrappers to the base
         environment.
+      reward_range: (tuple(number, number) or None) the first element is the
+        minimum reward and the second is the maximum reward, used to clip and
+        process the raw reward in `process_rewards`. If None, this is inferred
+        from the inner environments.
       **kwargs: (dict) Arguments passed to the base class.
     """
     # Name for the base environment, will be used in `gym.make` in
@@ -96,6 +101,10 @@ def __init__(self, base_env_name=None, env_wrapper_fn=None, **kwargs):
     # to an appropriate directory.
     self._agent_id = "default"
 
+    # We clip rewards to this range before processing them further, as described
+    # in `process_rewards`.
+    self._reward_range = reward_range
+
     # Initialize the environment(s).
 
     # This can either be a list of environments of len `batch_size` or this can
@@ -171,25 +180,6 @@ def initialize_environments(self, batch_size=1, parallelism=1, **kwargs):
     if self._env_wrapper_fn is not None:
       self._envs = list(map(self._env_wrapper_fn, self._envs))
 
-    # If self.observation_space and self.action_space aren't None, then it means
-    # that this is a re-initialization of this class, in that case make sure
-    # that this matches our previous behaviour.
-    if self._observation_space:
-      assert str(self._observation_space) == str(
-          self._envs[0].observation_space)
-    else:
-      # This means that we are initializing this class for the first time.
-      #
-      # We set this equal to the first env's observation space, later on we'll
-      # verify that all envs have the same observation space.
-      self._observation_space = self._envs[0].observation_space
-
-    # Similarly for action_space
-    if self._action_space:
-      assert str(self._action_space) == str(self._envs[0].action_space)
-    else:
-      self._action_space = self._envs[0].action_space
-
     self._verify_same_spaces()
 
     # If self.reward_range is None, i.e. this means that we should take the
@@ -203,6 +193,25 @@ def initialize_environments(self, batch_size=1, parallelism=1, **kwargs):
     # is still valuable to store the trajectories separately.
     self._trajectories = trajectory.BatchTrajectory(batch_size=batch_size)
 
+  def assert_common_preconditions(self):
+    # Asserts on the common pre-conditions of:
+    #  - self._envs is initialized.
+    #  - self._envs is a list.
+    assert self._envs
+    assert isinstance(self._envs, list)
+
+  @property
+  def observation_space(self):
+    return self._envs[0].observation_space
+
+  @property
+  def action_space(self):
+    return self._envs[0].action_space
+
+  @property
+  def reward_range(self):
+    return self._reward_range
+
   def seed(self, seed=None):
     if not self._envs:
       tf.logging.info("`seed` called on non-existent envs, doing nothing.")
diff --git a/tensor2tensor/trax/backend.py b/tensor2tensor/trax/backend.py
@@ -118,6 +118,8 @@ def jax_avg_pool(x, pool_size, strides, padding):
     "name": "numpy",
     "np": onp,
     "jit": (lambda f: f),
+    "random_get_prng": lambda seed: None,
+    "random_split": lambda prng, num=2: (None,) * num,
 }
 
 
diff --git a/tensor2tensor/trax/rlax/ppo_training_loop_test.py b/tensor2tensor/trax/rlax/ppo_training_loop_test.py
@@ -21,19 +21,25 @@
 
 import contextlib
 import functools
+import itertools
 import os
 import tempfile
 
 import gin
+import gym
 import numpy as np
 
 from tensor2tensor.envs import gym_env_problem
 from tensor2tensor.rl import gym_utils
 from tensor2tensor.trax import inputs as trax_inputs
 from tensor2tensor.trax import layers
+from tensor2tensor.trax import learning_rate as lr
 from tensor2tensor.trax import models
+from tensor2tensor.trax import optimizers as trax_opt
+from tensor2tensor.trax import trax
 from tensor2tensor.trax.rlax import envs  # pylint: disable=unused-import
 from tensor2tensor.trax.rlax import ppo
+from tensor2tensor.trax.rlax import simulated_env_problem
 from tensorflow import test
 from tensorflow.io import gfile
 
@@ -55,7 +61,6 @@ def get_wrapped_env(self, name="CartPole-v0", max_episode_steps=2):
     return gym_env_problem.GymEnvProblem(base_env_name=name,
                                          batch_size=1,
                                          env_wrapper_fn=wrapper_fn,
-                                         reward_range=(-1, 1),
                                          discrete_rewards=False)
 
   @contextlib.contextmanager
@@ -64,9 +69,7 @@ def tmp_dir(self):
     yield tmp
     gfile.rmtree(tmp)
 
-  def _run_training_loop(self, env_name, output_dir):
-    env = self.get_wrapped_env(env_name, 2)
-    eval_env = self.get_wrapped_env(env_name, 2)
+  def _run_training_loop(self, env, eval_env, output_dir):
     n_epochs = 2
     # Run the training loop.
     ppo.training_loop(
@@ -79,28 +82,117 @@ def _run_training_loop(self, env_name, output_dir):
         policy_and_value_optimizer_fn=ppo.optimizer_fn,
         n_optimizer_steps=1,
         output_dir=output_dir,
-        env_name=env_name,
+        env_name="SomeEnv",
         random_seed=0)
 
   def test_training_loop_cartpole(self):
     with self.tmp_dir() as output_dir:
-      self._run_training_loop("CartPole-v0", output_dir)
+      self._run_training_loop(
+          env=self.get_wrapped_env("CartPole-v0", 2),
+          eval_env=self.get_wrapped_env("CartPole-v0", 2),
+          output_dir=output_dir,
+      )
 
   def test_training_loop_onlinetune(self):
     with self.tmp_dir() as output_dir:
       gin.bind_parameter("OnlineTuneEnv.model", functools.partial(
-          models.MLP, n_hidden_layers=0, n_output_classes=1))
+          models.MLP,
+          n_hidden_layers=0,
+          n_output_classes=1,
+      ))
       gin.bind_parameter("OnlineTuneEnv.inputs", functools.partial(
           trax_inputs.random_inputs,
           input_shape=(1, 1),
           input_dtype=np.float32,
           output_shape=(1, 1),
-          output_dtype=np.float32))
+          output_dtype=np.float32,
+      ))
       gin.bind_parameter("OnlineTuneEnv.train_steps", 2)
       gin.bind_parameter("OnlineTuneEnv.eval_steps", 2)
       gin.bind_parameter(
           "OnlineTuneEnv.output_dir", os.path.join(output_dir, "envs"))
-      self._run_training_loop("OnlineTuneEnv-v0", output_dir)
+      self._run_training_loop(
+          env=self.get_wrapped_env("OnlineTuneEnv-v0", 2),
+          eval_env=self.get_wrapped_env("OnlineTuneEnv-v0", 2),
+          output_dir=output_dir,
+      )
+
+  def test_training_loop_simulated(self):
+    n_actions = 5
+    history_shape = (3, 2, 3)
+    action_shape = (3,)
+    obs_shape = (3, 3)
+    reward_shape = (3, 1)
+
+    def model(mode):
+      del mode
+      return layers.Serial(
+          layers.Parallel(
+              layers.Flatten(),  # Observation stack.
+              layers.Embedding(d_feature=1, vocab_size=n_actions),  # Action.
+          ),
+          layers.Concatenate(),
+          layers.Dense(n_units=1),
+          layers.Dup(),
+          layers.Parallel(
+              layers.Dense(n_units=obs_shape[1]),  # New observation.
+              None,  # Reward.
+          )
+      )
+
+    def inputs(n_devices):
+      del n_devices
+      stream = itertools.repeat((
+          (np.zeros(history_shape), np.zeros(action_shape, dtype=np.int32)),
+          (np.zeros(obs_shape), np.zeros(reward_shape)),
+      ))
+      return trax_inputs.Inputs(
+          train_stream=lambda: stream,
+          train_eval_stream=lambda: stream,
+          eval_stream=lambda: stream,
+          input_shape=(history_shape[1:], action_shape[1:]),
+          input_dtype=(np.float32, np.int32),
+      )
+
+    def loss(*args, **kwargs):
+      del args
+      del kwargs
+      return 0.0
+
+    with self.tmp_dir() as output_dir:
+      # Run fake training just to save the parameters.
+      trainer = trax.Trainer(
+          model=model,
+          loss_fn=loss,
+          inputs=inputs,
+          optimizer=trax_opt.SM3,
+          lr_schedule=lr.MultifactorSchedule,
+          output_dir=output_dir,
+      )
+      trainer.train_epoch(epoch_steps=1, eval_steps=1)
+
+      # Repeat the initial observations over and over again.
+      stream = itertools.repeat(np.zeros(history_shape))
+      env_fn = functools.partial(
+          simulated_env_problem.SimulatedEnvProblem,
+          model=model,
+          history_length=history_shape[1],
+          trajectory_length=3,
+          batch_size=history_shape[0],
+          observation_space=gym.spaces.Box(
+              low=-np.inf, high=np.inf, shape=(obs_shape[1],)),
+          action_space=gym.spaces.Discrete(n=n_actions),
+          reward_range=(-1, 1),
+          discrete_rewards=False,
+          initial_observation_stream=stream,
+          output_dir=output_dir,
+      )
+
+      self._run_training_loop(
+          env=env_fn(),
+          eval_env=env_fn(),
+          output_dir=output_dir,
+      )
 
 
 if __name__ == "__main__":
diff --git a/tensor2tensor/trax/rlax/simulated_env_problem.py b/tensor2tensor/trax/rlax/simulated_env_problem.py
diff --git a/tensor2tensor/trax/rlax/simulated_env_problem_test.py b/tensor2tensor/trax/rlax/simulated_env_problem_test.py

Original file line number	Diff line number	Diff line change
`@@ -118,6 +118,8 @@ def jax_avg_pool(x, pool_size, strides, padding):`
`118`	`118`	`"name": "numpy",`
`119`	`119`	`"np": onp,`
`120`	`120`	`"jit": (lambda f: f),`
	`121`	`+ "random_get_prng": lambda seed: None,`
	`122`	`+ "random_split": lambda prng, num=2: (None,) * num,`
`121`	`123`	`}`
`122`	`124`
`123`	`125`