Breaking change in TF RNN python api: Return the final state instead of the

ebrevdo · Vijay Vasudevan · commit fea55e1e05ff · 2016-01-27T23:06:38.000-08:00
list of states when calling tf.nn.rnn() and tf.nn.state_saving_rnn()

This is necessary for further cleanup of RNN state propagation code
(currently dynamic RNN calculations when passing sequence_length do not return
the proper final state, this is a necessary fix to make that fix efficient).
Change: 113203893
diff --git a/RELEASE.md b/RELEASE.md
@@ -31,6 +31,9 @@
 * ASSERT_OK / EXPECT_OK macros conflicted with external projects, so they were
   renamed TF_ASSERT_OK, TF_EXPECT_OK.  The existing macros are currently
   maintained for short-term compatibility but will be removed.
+* The non-public `nn.rnn` and the various `nn.seq2seq` methods now return
+  just the final state instead of the list of all states.
+
 
 ## Bug fixes
 
diff --git a/tensorflow/models/rnn/ptb/ptb_word_lm.py b/tensorflow/models/rnn/ptb/ptb_word_lm.py
@@ -117,16 +117,14 @@ def __init__(self, is_training, config):
     # from tensorflow.models.rnn import rnn
     # inputs = [tf.squeeze(input_, [1])
     #           for input_ in tf.split(1, num_steps, inputs)]
-    # outputs, states = rnn.rnn(cell, inputs, initial_state=self._initial_state)
+    # outputs, state = rnn.rnn(cell, inputs, initial_state=self._initial_state)
     outputs = []
-    states = []
     state = self._initial_state
     with tf.variable_scope("RNN"):
       for time_step in range(num_steps):
         if time_step > 0: tf.get_variable_scope().reuse_variables()
         (cell_output, state) = cell(inputs[:, time_step, :], state)
         outputs.append(cell_output)
-        states.append(state)
 
     output = tf.reshape(tf.concat(1, outputs), [-1, size])
     softmax_w = tf.get_variable("softmax_w", [size, vocab_size])
@@ -137,7 +135,7 @@ def __init__(self, is_training, config):
                                             [tf.ones([batch_size * num_steps])],
                                             vocab_size)
     self._cost = cost = tf.reduce_sum(loss) / batch_size
-    self._final_state = states[-1]
+    self._final_state = state
 
     if not is_training:
       return
diff --git a/tensorflow/python/kernel_tests/rnn_test.py b/tensorflow/python/kernel_tests/rnn_test.py
@@ -68,15 +68,15 @@ def testRNN(self):
     max_length = 8  # unrolled up to this length
     inputs = max_length * [
         tf.placeholder(tf.float32, shape=(batch_size, input_size))]
-    outputs, states = tf.nn.rnn(cell, inputs, dtype=tf.float32)
+    outputs, state = tf.nn.rnn(cell, inputs, dtype=tf.float32)
     self.assertEqual(len(outputs), len(inputs))
     for out, inp in zip(outputs, inputs):
       self.assertEqual(out.get_shape(), inp.get_shape())
       self.assertEqual(out.dtype, inp.dtype)
 
     with self.test_session(use_gpu=False) as sess:
       input_value = np.random.randn(batch_size, input_size)
-      values = sess.run(outputs + [states[-1]],
+      values = sess.run(outputs + [state],
                         feed_dict={inputs[0]: input_value})
 
       # Outputs
@@ -98,7 +98,7 @@ def testDropout(self):
     inputs = max_length * [
         tf.placeholder(tf.float32, shape=(batch_size, input_size))]
     with tf.variable_scope("share_scope"):
-      outputs, states = tf.nn.rnn(cell, inputs, dtype=tf.float32)
+      outputs, state = tf.nn.rnn(cell, inputs, dtype=tf.float32)
     with tf.variable_scope("drop_scope"):
       dropped_outputs, _ = tf.nn.rnn(
           full_dropout_cell, inputs, dtype=tf.float32)
@@ -109,7 +109,7 @@ def testDropout(self):
 
     with self.test_session(use_gpu=False) as sess:
       input_value = np.random.randn(batch_size, input_size)
-      values = sess.run(outputs + [states[-1]],
+      values = sess.run(outputs + [state],
                         feed_dict={inputs[0]: input_value})
       full_dropout_values = sess.run(dropped_outputs,
                                      feed_dict={inputs[0]: input_value})
@@ -128,31 +128,29 @@ def testDynamicCalculation(self):
     inputs = max_length * [
         tf.placeholder(tf.float32, shape=(batch_size, input_size))]
     with tf.variable_scope("drop_scope"):
-      dynamic_outputs, dynamic_states = tf.nn.rnn(
+      dynamic_outputs, dynamic_state = tf.nn.rnn(
           cell, inputs, sequence_length=sequence_length, dtype=tf.float32)
     self.assertEqual(len(dynamic_outputs), len(inputs))
-    self.assertEqual(len(dynamic_states), len(inputs))
 
     with self.test_session(use_gpu=False) as sess:
       input_value = np.random.randn(batch_size, input_size)
       dynamic_values = sess.run(dynamic_outputs,
                                 feed_dict={inputs[0]: input_value,
                                            sequence_length: [2, 3]})
-      dynamic_state_values = sess.run(dynamic_states,
+      dynamic_state_values = sess.run([dynamic_state],
                                       feed_dict={inputs[0]: input_value,
                                                  sequence_length: [2, 3]})
 
       # fully calculated for t = 0, 1, 2
       for v in dynamic_values[:3]:
         self.assertAllClose(v, input_value + 1.0)
-      for vi, v in enumerate(dynamic_state_values[:3]):
-        self.assertAllEqual(v, 1.0 * (vi + 1) *
-                            np.ones((batch_size, input_size)))
       # zeros for t = 3+
       for v in dynamic_values[3:]:
         self.assertAllEqual(v, np.zeros_like(input_value))
-      for v in dynamic_state_values[3:]:
-        self.assertAllEqual(v, np.zeros_like(input_value))
+      # final state is frozen from state at max(sequence_lengths) == 2
+      self.assertAllEqual(
+          dynamic_state_values[0],
+          1.0 * (2 + 1) * np.ones((batch_size, input_size)))
 
 
 class LSTMTest(tf.test.TestCase):
@@ -219,7 +217,7 @@ def _testNoProjNoShardingSimpleStateSaver(self, use_gpu):
       inputs = max_length * [
           tf.placeholder(tf.float32, shape=(batch_size, input_size))]
       with tf.variable_scope("share_scope"):
-        outputs, states = tf.nn.state_saving_rnn(
+        outputs, state = tf.nn.state_saving_rnn(
             cell, inputs, state_saver=state_saver, state_name="save_lstm")
       self.assertEqual(len(outputs), len(inputs))
       for out in outputs:
@@ -228,7 +226,7 @@ def _testNoProjNoShardingSimpleStateSaver(self, use_gpu):
       tf.initialize_all_variables().run()
       input_value = np.random.randn(batch_size, input_size)
       (last_state_value, saved_state_value) = sess.run(
-          [states[-1], state_saver.saved_state],
+          [state, state_saver.saved_state],
           feed_dict={inputs[0]: input_value})
       self.assertAllEqual(last_state_value, saved_state_value)
 
@@ -340,10 +338,10 @@ def _testShardNoShardEquivalentOutput(self, use_gpu):
           initializer=initializer, num_proj=num_proj)
 
       with tf.variable_scope("noshard_scope"):
-        outputs_noshard, states_noshard = tf.nn.rnn(
+        outputs_noshard, state_noshard = tf.nn.rnn(
             cell_noshard, inputs, dtype=tf.float32)
       with tf.variable_scope("shard_scope"):
-        outputs_shard, states_shard = tf.nn.rnn(
+        outputs_shard, state_shard = tf.nn.rnn(
             cell_shard, inputs, dtype=tf.float32)
 
       self.assertEqual(len(outputs_noshard), len(inputs))
@@ -354,8 +352,8 @@ def _testShardNoShardEquivalentOutput(self, use_gpu):
       feeds = dict((x, input_value) for x in inputs)
       values_noshard = sess.run(outputs_noshard, feed_dict=feeds)
       values_shard = sess.run(outputs_shard, feed_dict=feeds)
-      state_values_noshard = sess.run(states_noshard, feed_dict=feeds)
-      state_values_shard = sess.run(states_shard, feed_dict=feeds)
+      state_values_noshard = sess.run([state_noshard], feed_dict=feeds)
+      state_values_shard = sess.run([state_shard], feed_dict=feeds)
       self.assertEqual(len(values_noshard), len(values_shard))
       self.assertEqual(len(state_values_noshard), len(state_values_shard))
       for (v_noshard, v_shard) in zip(values_noshard, values_shard):
@@ -389,22 +387,21 @@ def _testDoubleInputWithDropoutAndDynamicCalculation(
           initializer=initializer)
       dropout_cell = tf.nn.rnn_cell.DropoutWrapper(cell, 0.5, seed=0)
 
-      outputs, states = tf.nn.rnn(
+      outputs, state = tf.nn.rnn(
           dropout_cell, inputs, sequence_length=sequence_length,
           initial_state=cell.zero_state(batch_size, tf.float64))
 
       self.assertEqual(len(outputs), len(inputs))
-      self.assertEqual(len(outputs), len(states))
 
       tf.initialize_all_variables().run(feed_dict={sequence_length: [2, 3]})
       input_value = np.asarray(np.random.randn(batch_size, input_size),
                                dtype=np.float64)
       values = sess.run(outputs, feed_dict={inputs[0]: input_value,
                                             sequence_length: [2, 3]})
-      state_values = sess.run(states, feed_dict={inputs[0]: input_value,
+      state_value = sess.run([state], feed_dict={inputs[0]: input_value,
                                                  sequence_length: [2, 3]})
       self.assertEqual(values[0].dtype, input_value.dtype)
-      self.assertEqual(state_values[0].dtype, input_value.dtype)
+      self.assertEqual(state_value[0].dtype, input_value.dtype)
 
   def testSharingWeightsWithReuse(self):
     num_units = 3
diff --git a/tensorflow/python/kernel_tests/seq2seq_test.py b/tensorflow/python/kernel_tests/seq2seq_test.py
@@ -35,19 +35,18 @@ def testRNNDecoder(self):
     with self.test_session() as sess:
       with tf.variable_scope("root", initializer=tf.constant_initializer(0.5)):
         inp = [tf.constant(0.5, shape=[2, 2]) for _ in xrange(2)]
-        _, enc_states = tf.nn.rnn(
+        _, enc_state = tf.nn.rnn(
             tf.nn.rnn_cell.GRUCell(2), inp, dtype=tf.float32)
         dec_inp = [tf.constant(0.4, shape=[2, 2]) for _ in xrange(3)]
         cell = tf.nn.rnn_cell.OutputProjectionWrapper(
             tf.nn.rnn_cell.GRUCell(2), 4)
-        dec, mem = tf.nn.seq2seq.rnn_decoder(dec_inp, enc_states[-1], cell)
+        dec, mem = tf.nn.seq2seq.rnn_decoder(dec_inp, enc_state, cell)
         sess.run([tf.initialize_all_variables()])
         res = sess.run(dec)
         self.assertEqual(len(res), 3)
         self.assertEqual(res[0].shape, (2, 4))
 
-        res = sess.run(mem)
-        self.assertEqual(len(res), 4)
+        res = sess.run([mem])
         self.assertEqual(res[0].shape, (2, 2))
 
   def testBasicRNNSeq2Seq(self):
@@ -63,8 +62,7 @@ def testBasicRNNSeq2Seq(self):
         self.assertEqual(len(res), 3)
         self.assertEqual(res[0].shape, (2, 4))
 
-        res = sess.run(mem)
-        self.assertEqual(len(res), 4)
+        res = sess.run([mem])
         self.assertEqual(res[0].shape, (2, 2))
 
   def testTiedRNNSeq2Seq(self):
@@ -80,26 +78,26 @@ def testTiedRNNSeq2Seq(self):
         self.assertEqual(len(res), 3)
         self.assertEqual(res[0].shape, (2, 4))
 
-        res = sess.run(mem)
-        self.assertEqual(len(res), 4)
+        res = sess.run([mem])
+        self.assertEqual(len(res), 1)
         self.assertEqual(res[0].shape, (2, 2))
 
   def testEmbeddingRNNDecoder(self):
     with self.test_session() as sess:
       with tf.variable_scope("root", initializer=tf.constant_initializer(0.5)):
         inp = [tf.constant(0.5, shape=[2, 2]) for _ in xrange(2)]
         cell = tf.nn.rnn_cell.BasicLSTMCell(2)
-        _, enc_states = tf.nn.rnn(cell, inp, dtype=tf.float32)
+        _, enc_state = tf.nn.rnn(cell, inp, dtype=tf.float32)
         dec_inp = [tf.constant(i, tf.int32, shape=[2]) for i in xrange(3)]
-        dec, mem = tf.nn.seq2seq.embedding_rnn_decoder(dec_inp, enc_states[-1],
+        dec, mem = tf.nn.seq2seq.embedding_rnn_decoder(dec_inp, enc_state,
                                                        cell, 4)
         sess.run([tf.initialize_all_variables()])
         res = sess.run(dec)
         self.assertEqual(len(res), 3)
         self.assertEqual(res[0].shape, (2, 2))
 
-        res = sess.run(mem)
-        self.assertEqual(len(res), 4)
+        res = sess.run([mem])
+        self.assertEqual(len(res), 1)
         self.assertEqual(res[0].shape, (2, 4))
 
   def testEmbeddingRNNSeq2Seq(self):
@@ -115,8 +113,7 @@ def testEmbeddingRNNSeq2Seq(self):
         self.assertEqual(len(res), 3)
         self.assertEqual(res[0].shape, (2, 5))
 
-        res = sess.run(mem)
-        self.assertEqual(len(res), 4)
+        res = sess.run([mem])
         self.assertEqual(res[0].shape, (2, 4))
 
         # Test externally provided output projection.
@@ -161,8 +158,7 @@ def testEmbeddingTiedRNNSeq2Seq(self):
         self.assertEqual(len(res), 3)
         self.assertEqual(res[0].shape, (2, 5))
 
-        res = sess.run(mem)
-        self.assertEqual(len(res), 4)
+        res = sess.run([mem])
         self.assertEqual(res[0].shape, (2, 4))
 
         # Test externally provided output projection.
@@ -198,64 +194,61 @@ def testAttentionDecoder1(self):
       with tf.variable_scope("root", initializer=tf.constant_initializer(0.5)):
         cell = tf.nn.rnn_cell.GRUCell(2)
         inp = [tf.constant(0.5, shape=[2, 2]) for _ in xrange(2)]
-        enc_outputs, enc_states = tf.nn.rnn(cell, inp, dtype=tf.float32)
+        enc_outputs, enc_state = tf.nn.rnn(cell, inp, dtype=tf.float32)
         attn_states = tf.concat(1, [tf.reshape(e, [-1, 1, cell.output_size])
                                     for e in enc_outputs])
         dec_inp = [tf.constant(0.4, shape=[2, 2]) for _ in xrange(3)]
         dec, mem = tf.nn.seq2seq.attention_decoder(
-            dec_inp, enc_states[-1],
+            dec_inp, enc_state,
             attn_states, cell, output_size=4)
         sess.run([tf.initialize_all_variables()])
         res = sess.run(dec)
         self.assertEqual(len(res), 3)
         self.assertEqual(res[0].shape, (2, 4))
 
-        res = sess.run(mem)
-        self.assertEqual(len(res), 4)
+        res = sess.run([mem])
         self.assertEqual(res[0].shape, (2, 2))
 
   def testAttentionDecoder2(self):
     with self.test_session() as sess:
       with tf.variable_scope("root", initializer=tf.constant_initializer(0.5)):
         cell = tf.nn.rnn_cell.GRUCell(2)
         inp = [tf.constant(0.5, shape=[2, 2]) for _ in xrange(2)]
-        enc_outputs, enc_states = tf.nn.rnn(cell, inp, dtype=tf.float32)
+        enc_outputs, enc_state = tf.nn.rnn(cell, inp, dtype=tf.float32)
         attn_states = tf.concat(1, [tf.reshape(e, [-1, 1, cell.output_size])
                                     for e in enc_outputs])
         dec_inp = [tf.constant(0.4, shape=[2, 2]) for _ in xrange(3)]
         dec, mem = tf.nn.seq2seq.attention_decoder(
-            dec_inp, enc_states[-1],
+            dec_inp, enc_state,
             attn_states, cell, output_size=4,
             num_heads=2)
         sess.run([tf.initialize_all_variables()])
         res = sess.run(dec)
         self.assertEqual(len(res), 3)
         self.assertEqual(res[0].shape, (2, 4))
 
-        res = sess.run(mem)
-        self.assertEqual(len(res), 4)
+        res = sess.run([mem])
         self.assertEqual(res[0].shape, (2, 2))
 
   def testEmbeddingAttentionDecoder(self):
     with self.test_session() as sess:
       with tf.variable_scope("root", initializer=tf.constant_initializer(0.5)):
         inp = [tf.constant(0.5, shape=[2, 2]) for _ in xrange(2)]
         cell = tf.nn.rnn_cell.GRUCell(2)
-        enc_outputs, enc_states = tf.nn.rnn(cell, inp, dtype=tf.float32)
+        enc_outputs, enc_state = tf.nn.rnn(cell, inp, dtype=tf.float32)
         attn_states = tf.concat(1, [tf.reshape(e, [-1, 1, cell.output_size])
                                     for e in enc_outputs])
         dec_inp = [tf.constant(i, tf.int32, shape=[2]) for i in xrange(3)]
         dec, mem = tf.nn.seq2seq.embedding_attention_decoder(
-            dec_inp, enc_states[-1],
+            dec_inp, enc_state,
             attn_states, cell, 4,
             output_size=3)
         sess.run([tf.initialize_all_variables()])
         res = sess.run(dec)
         self.assertEqual(len(res), 3)
         self.assertEqual(res[0].shape, (2, 3))
 
-        res = sess.run(mem)
-        self.assertEqual(len(res), 4)
+        res = sess.run([mem])
         self.assertEqual(res[0].shape, (2, 2))
 
   def testEmbeddingAttentionSeq2Seq(self):
@@ -271,8 +264,7 @@ def testEmbeddingAttentionSeq2Seq(self):
         self.assertEqual(len(res), 3)
         self.assertEqual(res[0].shape, (2, 5))
 
-        res = sess.run(mem)
-        self.assertEqual(len(res), 4)
+        res = sess.run([mem])
         self.assertEqual(res[0].shape, (2, 4))
 
         # Test externally provided output projection.
diff --git a/tensorflow/python/ops/rnn.py b/tensorflow/python/ops/rnn.py
diff --git a/tensorflow/python/ops/seq2seq.py b/tensorflow/python/ops/seq2seq.py