pytorch
diff --git a/‎test/run_test.py‎
Lines changed: 0 additions & 1 deletion b/‎test/run_test.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎test/test_legacy_nn.py‎
Lines changed: 0 additions & 1378 deletions b/‎test/test_legacy_nn.py‎
Lines changed: 0 additions & 1378 deletions
diff --git a/‎test/test_nn.py‎
Lines changed: 0 additions & 37 deletions b/‎test/test_nn.py‎
Lines changed: 0 additions & 37 deletions
diff --git a/‎test/test_optim.py‎
Lines changed: 0 additions & 136 deletions b/‎test/test_optim.py‎
Lines changed: 0 additions & 136 deletions
diff --git a/‎test/test_utils.py‎
Lines changed: 0 additions & 94 deletions b/‎test/test_utils.py‎
Lines changed: 0 additions & 94 deletions
diff --git a/‎torch/legacy/README.md‎
Lines changed: 1 addition & 0 deletions b/‎torch/legacy/README.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎torch/legacy/__init__.py‎
Lines changed: 0 additions & 7 deletions b/‎torch/legacy/__init__.py‎
Lines changed: 0 additions & 7 deletions
@@ -27,7 +27,6 @@
     'distributions',
     'indexing',
     'jit',
-    'legacy_nn',
     'multiprocessing',
     'nccl',
     'nn',
 
@@ -22,7 +22,6 @@
 import torch.nn.parallel as dp
 import torch.nn.init as init
 import torch.nn.utils.rnn as rnn_utils
-import torch.legacy.nn as legacy
 from torch.nn.utils import clip_grad_norm_, clip_grad_value_
 from torch.nn.utils import parameters_to_vector, vector_to_parameters
 from torch.autograd import Variable, gradcheck
@@ -5821,42 +5820,6 @@ def test_linear_broadcasting(self):
         expected = m(inp.view(6, 5)).view(2, 3, 8)
         self.assertEqual(expected, m(inp))
 
-    def test_bilinear(self):
-        module = nn.Bilinear(10, 10, 8)
-        module_legacy = legacy.Bilinear(10, 10, 8)
-
-        module_legacy.weight.copy_(module.weight.data)
-        module_legacy.bias.copy_(module.bias.data)
-
-        input1 = torch.randn(4, 10)
-        input2 = torch.randn(4, 10)
-
-        output = module(Variable(input1), Variable(input2))
-        output_legacy = module_legacy.forward([input1, input2])
-
-        self.assertEqual(output.data, output_legacy)
-
-        input1_1 = torch.tensor(input1, requires_grad=True)
-        input2_1 = torch.tensor(input2, requires_grad=True)
-
-        module.zero_grad()
-        module_legacy.zeroGradParameters()
-
-        output = module(input1_1, input2_1)
-        grad_output = torch.randn(*output.size())
-        gi1_legacy, gi2_legacy = module_legacy.backward([input1, input2], grad_output)
-        output.backward(grad_output)
-        gi1 = input1_1.grad.data.clone()
-        gi2 = input2_1.grad.data.clone()
-
-        self.assertEqual(gi1, gi1_legacy)
-        self.assertEqual(gi2, gi2_legacy)
-        self.assertEqual(module.weight.grad.data, module_legacy.gradWeight)
-        self.assertEqual(module.bias.grad.data, module_legacy.gradBias)
-
-        _assertGradAndGradgradChecks(self, lambda x1, x2: F.bilinear(x1, x2, module.weight, module.bias),
-                                     (input1_1, input2_1))
-
     def test_bilinear_no_bias(self):
         module = nn.Bilinear(10, 10, 8)
         module_no_bias = nn.Bilinear(10, 10, 8, False)
 
@@ -5,7 +5,6 @@
 import torch
 from torch._six import inf
 import torch.optim as optim
-import torch.legacy.optim as old_optim
 import torch.nn.functional as F
 from torch.optim import SGD
 from torch.autograd import Variable
@@ -24,44 +23,7 @@ def drosenbrock(tensor):
     return torch.DoubleTensor((-400 * x * (y - x ** 2) - 2 * (1 - x), 200 * (y - x ** 2)))
 
 
-def wrap_old_fn(old_fn, **config):
-    def wrapper(closure, params, state):
-        return old_fn(closure, params, config, state)
-    return wrapper
-
-
 class TestOptim(TestCase):
-    def _test_rosenbrock(self, constructor, old_fn):
-        params_t = torch.Tensor([1.5, 1.5])
-        state = {}
-
-        params = Variable(torch.Tensor([1.5, 1.5]), requires_grad=True)
-        optimizer = constructor([params])
-
-        solution = torch.Tensor([1, 1])
-        initial_dist = params.data.dist(solution)
-
-        def eval():
-            optimizer.zero_grad()
-            loss = rosenbrock(params)
-            loss.backward()
-            # loss.backward() will give **slightly** different
-            # gradients, than drosenbtock, because of a different ordering
-            # of floating point operations. In most cases it doesn't matter,
-            # but some optimizers are so sensitive that they can temporarily
-            # diverge up to 1e-4, just to converge again. This makes the
-            # comparison more stable.
-            params.grad.data.copy_(drosenbrock(params.data))
-            return loss
-
-        for i in range(2000):
-            optimizer.step(eval)
-            old_fn(lambda _: (rosenbrock(params_t), drosenbrock(params_t)),
-                   params_t, state)
-            self.assertEqual(params.data, params_t)
-
-        self.assertLessEqual(params.data.dist(solution), initial_dist)
-
     def _test_rosenbrock_sparse(self, constructor, sparse_only=False):
         params_t = torch.Tensor([1.5, 1.5])
 
@@ -237,16 +199,6 @@ def _build_params_dict_single(self, weight, bias, **kwargs):
         return [dict(params=bias, **kwargs)]
 
     def test_sgd(self):
-        self._test_rosenbrock(
-            lambda params: optim.SGD(params, lr=1e-3),
-            wrap_old_fn(old_optim.sgd, learningRate=1e-3)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.SGD(params, lr=1e-3, momentum=0.9,
-                                     dampening=0, weight_decay=1e-4),
-            wrap_old_fn(old_optim.sgd, learningRate=1e-3, momentum=0.9,
-                        dampening=0, weightDecay=1e-4)
-        )
         self._test_basic_cases(
             lambda weight, bias: optim.SGD([weight, bias], lr=1e-3)
         )
@@ -273,14 +225,6 @@ def test_sgd_sparse(self):
         )
 
     def test_adam(self):
-        self._test_rosenbrock(
-            lambda params: optim.Adam(params, lr=1e-2),
-            wrap_old_fn(old_optim.adam, learningRate=1e-2)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.Adam(params, lr=1e-2, weight_decay=1e-2),
-            wrap_old_fn(old_optim.adam, learningRate=1e-2, weightDecay=1e-2)
-        )
         self._test_basic_cases(
             lambda weight, bias: optim.Adam([weight, bias], lr=1e-3)
         )
@@ -310,18 +254,6 @@ def test_sparse_adam(self):
             optim.SparseAdam(None, lr=1e-2, betas=(1.0, 0.0))
 
     def test_adadelta(self):
-        self._test_rosenbrock(
-            lambda params: optim.Adadelta(params),
-            wrap_old_fn(old_optim.adadelta)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.Adadelta(params, rho=0.95),
-            wrap_old_fn(old_optim.adadelta, rho=0.95)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.Adadelta(params, weight_decay=1e-2),
-            wrap_old_fn(old_optim.adadelta, weightDecay=1e-2)
-        )
         self._test_basic_cases(
             lambda weight, bias: optim.Adadelta([weight, bias])
         )
@@ -333,18 +265,6 @@ def test_adadelta(self):
             optim.Adadelta(None, lr=1e-2, rho=1.1)
 
     def test_adagrad(self):
-        self._test_rosenbrock(
-            lambda params: optim.Adagrad(params, lr=1e-1),
-            wrap_old_fn(old_optim.adagrad, learningRate=1e-1)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.Adagrad(params, lr=1e-1, lr_decay=1e-3),
-            wrap_old_fn(old_optim.adagrad, learningRate=1e-1, learningRateDecay=1e-3)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.Adagrad(params, lr=1e-1, weight_decay=1e-2),
-            wrap_old_fn(old_optim.adagrad, learningRate=1e-1, weightDecay=1e-2)
-        )
         self._test_basic_cases(
             lambda weight, bias: optim.Adagrad([weight, bias], lr=1e-1)
         )
@@ -367,18 +287,6 @@ def test_adagrad_sparse(self):
 
     @skipIfRocm
     def test_adamax(self):
-        self._test_rosenbrock(
-            lambda params: optim.Adamax(params, lr=1e-1),
-            wrap_old_fn(old_optim.adamax, learningRate=1e-1)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.Adamax(params, lr=1e-1, weight_decay=1e-2),
-            wrap_old_fn(old_optim.adamax, learningRate=1e-1, weightDecay=1e-2)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.Adamax(params, lr=1e-1, betas=(0.95, 0.998)),
-            wrap_old_fn(old_optim.adamax, learningRate=1e-1, beta1=0.95, beta2=0.998)
-        )
         self._test_basic_cases(
             lambda weight, bias: optim.Adamax([weight, bias], lr=1e-1)
         )
@@ -391,18 +299,6 @@ def test_adamax(self):
             optim.Adamax(None, lr=1e-2, betas=(0.0, 1.0))
 
     def test_rmsprop(self):
-        self._test_rosenbrock(
-            lambda params: optim.RMSprop(params, lr=1e-2),
-            wrap_old_fn(old_optim.rmsprop, learningRate=1e-2)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.RMSprop(params, lr=1e-2, weight_decay=1e-2),
-            wrap_old_fn(old_optim.rmsprop, learningRate=1e-2, weightDecay=1e-2)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.RMSprop(params, lr=1e-2, alpha=0.95),
-            wrap_old_fn(old_optim.rmsprop, learningRate=1e-2, alpha=0.95)
-        )
         self._test_basic_cases(
             lambda weight, bias: optim.RMSprop([weight, bias], lr=1e-2)
         )
@@ -415,18 +311,6 @@ def test_rmsprop(self):
             optim.RMSprop(None, lr=1e-2, momentum=-1.0)
 
     def test_asgd(self):
-        self._test_rosenbrock(
-            lambda params: optim.ASGD(params, lr=1e-3),
-            wrap_old_fn(old_optim.asgd, eta0=1e-3)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.ASGD(params, lr=1e-3, alpha=0.8),
-            wrap_old_fn(old_optim.asgd, eta0=1e-3, alpha=0.8)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.ASGD(params, lr=1e-3, t0=1e3),
-            wrap_old_fn(old_optim.asgd, eta0=1e-3, t0=1e3)
-        )
         self._test_basic_cases(
             lambda weight, bias: optim.ASGD([weight, bias], lr=1e-3, t0=100)
         )
@@ -440,18 +324,6 @@ def test_asgd(self):
 
     @skipIfRocm
     def test_rprop(self):
-        self._test_rosenbrock(
-            lambda params: optim.Rprop(params, lr=1e-3),
-            wrap_old_fn(old_optim.rprop, stepsize=1e-3)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.Rprop(params, lr=1e-3, etas=(0.6, 1.1)),
-            wrap_old_fn(old_optim.rprop, stepsize=1e-3, etaminus=0.6, etaplus=1.1)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.Rprop(params, lr=1e-3, step_sizes=(1e-4, 3)),
-            wrap_old_fn(old_optim.rprop, stepsize=1e-3, stepsizemin=1e-4, stepsizemax=3)
-        )
         self._test_basic_cases(
             lambda weight, bias: optim.Rprop([weight, bias], lr=1e-3)
         )
@@ -464,14 +336,6 @@ def test_rprop(self):
             optim.Rprop(None, lr=1e-2, etas=(1.0, 0.5))
 
     def test_lbfgs(self):
-        self._test_rosenbrock(
-            lambda params: optim.LBFGS(params),
-            wrap_old_fn(old_optim.lbfgs)
-        )
-        self._test_rosenbrock(
-            lambda params: optim.LBFGS(params, lr=5e-2, max_iter=5),
-            wrap_old_fn(old_optim.lbfgs, learningRate=5e-2, maxIter=5)
-        )
         self._test_basic_cases(
             lambda weight, bias: optim.LBFGS([weight, bias]),
             ignore_multidevice=True
 
@@ -441,98 +441,6 @@ def test_gpu(self):
                           lambda: gpulib.cuda_func(ctensor.storage(), 2, 1.5))
 
 
-class TestLuaReader(TestCase):
-
-    @staticmethod
-    def _module_test(name, test):
-        def do_test(self):
-            module = test['module']
-            input = test['input']
-            grad_output = test['grad_output']
-            if hasattr(self, '_transform_' + name):
-                input = getattr(self, '_transform_' + name)(input)
-            output = module.forward(input)
-            module.zeroGradParameters()
-            grad_input = module.backward(input, grad_output)
-            self.assertEqual(output, test['output'])
-            self.assertEqual(grad_input, test['grad_input'])
-            if module.parameters() is not None:
-                params, d_params = module.parameters()
-                self.assertEqual(params, test['params'])
-                self.assertEqual(d_params, test['d_params'])
-            else:
-                self.assertFalse('params' in test and test['params'])
-                self.assertFalse('params' in test and test['d_params'])
-        return do_test
-
-    @staticmethod
-    def _criterion_test(name, test):
-        def do_test(self):
-            module = test['module']
-            input = test['input']
-            if name == 'L1Cost':
-                target = None
-            else:
-                target = test['target']
-            if hasattr(self, '_transform_' + name):
-                input, target = getattr(self, '_transform_' + name)(input, target)
-
-            output = module.forward(input, target)
-            grad_input = module.backward(input, target)
-            self.assertEqual(output, test['loss'])
-            self.assertEqual(grad_input, test['grad_input'])
-        return do_test
-
-    @classmethod
-    def init(cls):
-        try:
-            path = download_file('https://download.pytorch.org/test_data/legacy_modules.t7')
-        except unittest.SkipTest:
-            return
-        long_size = 8 if sys.platform == 'win32' else None
-        tests = load_lua(path, long_size=long_size)
-        for name, test in tests['modules'].items():
-            if name == "HardShrink":
-                continue
-            test_name = 'test_' + name.replace('nn.', '')
-            setattr(cls, test_name, cls._module_test(name, test))
-        for name, test in tests['criterions'].items():
-            if name == "HardShrink":
-                continue
-            test_name = 'test_' + name.replace('nn.', '')
-            setattr(cls, test_name, cls._criterion_test(name, test))
-
-    def _transform_Index(self, input):
-        return [input[0], input[1].sub(1)]
-
-    def _transform_LookupTable(self, input):
-        return input.sub(1)
-
-    def _transform_MultiLabelMarginCriterion(self, input, target):
-        return input, target.sub(1)
-
-    def _transform_ClassNLLCriterion(self, input, target):
-        return input, target.sub(1)
-
-    def _transform_SpatialClassNLLCriterion(self, input, target):
-        return input, target.sub(1)
-
-    def _transform_ClassSimplexCriterion(self, input, target):
-        return input, target.sub(1)
-
-    def _transform_CrossEntropyCriterion(self, input, target):
-        return input, target.sub(1)
-
-    def _transform_ParallelCriterion(self, input, target):
-        return input, [target[0].sub(1), target[1]]
-
-    def _transform_MultiCriterion(self, input, target):
-        return input, target.sub(1)
-
-    def _transform_MultiMarginCriterion(self, input, target):
-        return input, target.sub(1)
-
-
 @unittest.skipIf('SKIP_TEST_BOTTLENECK' in os.environ.keys(), 'SKIP_TEST_BOTTLENECK is set')
 class TestBottleneck(TestCase):
     def _run(self, command):
@@ -700,6 +608,4 @@ def try_check_onnx_broadcast(dims1, dims2, expect_broadcast, expect_fail):
 
 
 if __name__ == '__main__':
-    from torch.utils.serialization import load_lua
-    TestLuaReader.init()
     run_tests()
@@ -0,0 +1 @@
+If you're looking for this legacy code please consider versions of PyTorch before 0.5
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+If you're looking for this legacy code please consider versions of PyTorch before 0.5`