pytorch
diff --git a/‎aten/src/ATen/functorch/Interpreter.cpp‎
Lines changed: 4 additions & 3 deletions b/‎aten/src/ATen/functorch/Interpreter.cpp‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎test/functorch/test_eager_transforms.py‎
Lines changed: 28 additions & 1 deletion b/‎test/functorch/test_eager_transforms.py‎
Lines changed: 28 additions & 1 deletion
diff --git a/‎test/functorch/test_ops.py‎
Lines changed: 9 additions & 3 deletions b/‎test/functorch/test_ops.py‎
Lines changed: 9 additions & 3 deletions
diff --git a/‎torch/_C/_functorch.pyi‎
Lines changed: 1 addition & 0 deletions b/‎torch/_C/_functorch.pyi‎
Lines changed: 1 addition & 0 deletions
@@ -4,6 +4,7 @@
 #include <ATen/functorch/VmapInterpreter.h>
 #include <ATen/functorch/FunctionalizeInterpreter.h>
 #include <ATen/functorch/ADInterpreters.h>
+#include <ATen/functorch/DynamicLayer.h>
 
 namespace at { namespace functorch {
 
@@ -88,10 +89,10 @@ void sanityCheckStack(const c10::OperatorHandle& op, torch::jit::Stack* stack) {
   auto num_args = op.schema().arguments().size();
   foreachTensorInplace(*stack, stack->size() - num_args, stack->size(),
       [](const Tensor& tensor) {
-
-        auto* wrapper = maybeGetTensorWrapper(tensor);
+        auto result = unwrapIfDead(tensor);
+        auto* wrapper = maybeGetTensorWrapper(result);
         TORCH_INTERNAL_ASSERT(wrapper == nullptr);
-        auto* batched = maybeGetBatchedImpl(tensor);
+        auto* batched = maybeGetBatchedImpl(result);
         TORCH_INTERNAL_ASSERT(batched == nullptr);
         return tensor;
       });
 
@@ -1116,7 +1116,7 @@ def f(x):
 
 class TestAutogradFunctionVmapAPI(TestCase):
     @_set_autograd_function_extension_enabled()
-    def test_no_vmap_staticmethod(self, device):
+    def test_no_vmap_staticmethod_and_no_generate_vmap_rule(self, device):
         class NumpyCube(torch.autograd.Function):
             @staticmethod
             def forward(input):
@@ -1136,6 +1136,33 @@ def backward(ctx, grad_output, grad_saved):
         with self.assertRaisesRegex(RuntimeError, 'does not have a vmap rule defined'):
             vmap(NumpyCube.apply)(x)
 
+    @_set_autograd_function_extension_enabled()
+    def test_has_vmap_staticmethod_and_has_generate_vmap_rule(self, device):
+        class NumpyCube(torch.autograd.Function):
+            generate_vmap_rule = True
+
+            @staticmethod
+            def forward(input):
+                input_np = to_numpy(input)
+                dinput = torch.tensor(3 * input_np ** 2, device=input.device)
+                return torch.tensor(input_np ** 3, device=input.device), dinput
+
+            @staticmethod
+            def setup_context(ctx, outputs, input):
+                ctx.save_for_backward(input, outputs[1])
+
+            @staticmethod
+            def backward(ctx, grad_output, grad_saved):
+                raise RuntimeError("foobar")
+
+            @staticmethod
+            def vmap(infos, in_dims, x):
+                raise RuntimeError("foobar")
+
+        x = torch.randn(3, device=device)
+        with self.assertRaisesRegex(RuntimeError, 'generate_vmap_rule=True and a vmap staticmethod'):
+            vmap(NumpyCube.apply)(x)
+
     @_set_autograd_function_extension_enabled()
     def test_info_object(self, device):
         batch_size = 10
 
@@ -1349,6 +1349,8 @@ def get_vjp(cotangents, *primals):
         xfail('index_reduce', ''),  # NYI: forward-AD for index_reduce
         xfail('segment_reduce', 'lengths'),  # NYI: forward-AD for segment_reduce
         xfail('native_dropout_backward'),  # NYI
+        xfail('CubeGenVmapAutogradFunction'),  # NYI
+        xfail('SortGenVmapAutogradFunction'),  # https://github.com/pytorch/pytorch/issues/90067
 
     }))
     @opsToleranceOverride('TestOperators', 'test_jvpvjp', (
@@ -1517,6 +1519,9 @@ def reference(primals, cotangents, primals_tangents, cotangents_tangents):
         xfail("_native_batch_norm_legit"),
         xfail('native_dropout_backward'),
         xfail('nn.functional.prelu'),
+
+        xfail('CubeGenVmapAutogradFunction'),  # NYI
+        xfail('SortGenVmapAutogradFunction'),  # https://github.com/pytorch/pytorch/issues/90067
     }))
     @ops(op_db + additional_op_db + autograd_function_db, allowed_dtypes=(torch.float,))
     @toleranceOverride({torch.float32: tol(atol=1e-04, rtol=1e-04)})
@@ -1962,9 +1967,9 @@ def test_vjpvmapvmap(self, device, dtype, op):
             args = [sample.input] + list(sample.args)
             kwargs = sample.kwargs
             generator = generate_vmap_inputs(args, kwargs, batch_size=B)
-            for batched_args, in_dims, kwargs in generator:
-                inner_vmapped_op = vmap(op, in_dims)
-                inner_mapped_op = functools.partial(loop, op, in_dims, 0, B)
+            for batched_args, inner_in_dims, kwargs in generator:
+                inner_vmapped_op = vmap(op, inner_in_dims)
+                inner_mapped_op = functools.partial(loop, op, inner_in_dims, 0, B)
                 generator = generate_vmap_inputs(batched_args, kwargs)
                 for batched_args, in_dims, kwargs in generator:
                     # strategy: compare vjp(vmap(vmap(op)) vs vjp(map(map(op))
@@ -1982,6 +1987,7 @@ def test_vjpvmapvmap(self, device, dtype, op):
                     _, vjp_fn = vjp(mapped_fn, *primals)
                     expected_vjps = vjp_fn(cotangents)
 
+                    print(inner_in_dims, in_dims)
                     _, vjp_fn = vjp(vmapped_fn, *primals)
                     result_vjps = vjp_fn(cotangents)
 
 
@@ -16,6 +16,7 @@ def unwrap_if_dead(tensor: Tensor) -> Tensor: ...
 def _unwrap_for_grad(tensor: Tensor, level: int) -> Tensor: ...
 def _wrap_for_grad(tensor: Tensor, level: int) -> Tensor: ...
 def _unwrap_batched(tensor: Tensor, level: int) -> Tuple[Tensor, Optional[int]]: ...
+def current_level() -> int: ...
 
 def set_autograd_function_allowed(allowed: bool) -> None: ...
 def get_autograd_function_allowed() -> bool: ...