Revert D24941350: [pytorch][PR] Reopen PR for 0 dim batch size for AvgPool2d.

Natalia Gimelshein · facebook-github-bot · commit 982ae987d357 · 2020-11-13T22:33:37.000-08:00
Test Plan: revert-hammer Differential Revision: D24941350 (ceeab70) Original commit changeset: b7e50346d86e fbshipit-source-id: 2e42e4418476658dc1afb905184841bf61688cfd
diff --git a/aten/src/ATen/native/AveragePool2d.cpp b/aten/src/ATen/native/AveragePool2d.cpp
@@ -119,6 +119,9 @@ void avg_pool2d_out_cpu_template(
   const int padH = safe_downcast<int, int64_t>(padding[0]);
   const int padW = padding.size() == 1 ? padH : safe_downcast<int, int64_t>(padding[1]);
 
+  TORCH_CHECK((input_.ndimension() == 3 || input_.ndimension() == 4),
+    "non-empty 2D or 3D (batch mode) tensor expected for input");
+
   TORCH_CHECK(!divisor_override.has_value() || divisor_override.value() != 0,
     "divisor must be not zero");
 
@@ -136,7 +139,7 @@ void avg_pool2d_out_cpu_template(
     kH, kW, dH, dW, padH, padW, 1, 1,
     nInputPlane,
     inputHeight, inputWidth,
-    outputHeight, outputWidth, input_.suggest_memory_format());
+    outputHeight, outputWidth);
 
   if (input_.ndimension() == 3) {
     output.resize_({nInputPlane, outputHeight, outputWidth});
@@ -273,8 +276,12 @@ Tensor& avg_pool2d_backward_out_cpu_template(
     "avg_pool2d: padding must either be a single int, or a tuple of two ints");
   const int padH = safe_downcast<int, int64_t>(padding[0]);
   const int padW = padding.size() == 1 ? padH : safe_downcast<int, int64_t>(padding[1]);
+
   const int64_t ndim = input.ndimension();
 
+  TORCH_CHECK((ndim == 3 || ndim == 4),
+    "non-empty 3D or 4D (batch mode) tensor expected for input");
+
   TORCH_CHECK(!divisor_override.has_value() || divisor_override.value() != 0, "divisor must be not zero");
 
   /* sizes */
@@ -292,8 +299,7 @@ Tensor& avg_pool2d_backward_out_cpu_template(
     kH, kW, dH, dW, padH, padW,
     nInputPlane,
     inputHeight, inputWidth,
-    outputHeight, outputWidth,
-    input.suggest_memory_format());
+    outputHeight, outputWidth);
 
   /* get contiguous gradOutput */
   const Tensor gradOutput = gradOutput_.contiguous();
diff --git a/aten/src/ATen/native/DilatedMaxPool2d.cpp b/aten/src/ATen/native/DilatedMaxPool2d.cpp
@@ -169,7 +169,7 @@ void max_pool2d_with_indices_out_cpu_template(
     kH, kW, dH, dW, padH, padW, dilationH, dilationW,
     nInputPlane,
     inputHeight, inputWidth,
-    outputHeight, outputWidth, input_.suggest_memory_format());
+    outputHeight, outputWidth);
 
   /* get contiguous input */
   Tensor input = input_.contiguous();
@@ -360,8 +360,7 @@ Tensor& max_pool2d_with_indices_backward_out_cpu_template(
     kH, kW, dH, dW, padH, padW, dilationH, dilationW,
     nInputPlane,
     inputHeight, inputWidth,
-    outputHeight_for_shape_check, outputWidth_for_shape_check,
-    input.suggest_memory_format());
+    outputHeight_for_shape_check, outputWidth_for_shape_check);
 
   /* backprop */
   if (input.ndimension() == 3)
diff --git a/aten/src/ATen/native/Pool.h b/aten/src/ATen/native/Pool.h
@@ -54,8 +54,9 @@ pool2d_shape_check(
   int kH, int kW, int dH, int dW, int padH, int padW, int dilationH, int dilationW,
   int64_t nInputPlane,
   int64_t inputHeight, int64_t inputWidth,
-  int64_t outputHeight, int64_t outputWidth, MemoryFormat memory_format)
+  int64_t outputHeight, int64_t outputWidth)
 {
+  const int64_t ndim = input.ndimension();
   const int64_t nOutputPlane = nInputPlane;
 
   TORCH_CHECK(kW > 0 && kH > 0,
@@ -68,19 +69,8 @@ pool2d_shape_check(
               "dilation should be greater than zero, but got ",
               "dilationH: ", dilationH, " dilationW: ", dilationW);
 
-  bool valid_dims = input.size(1) != 0 && input.size(2) != 0;
-  if (memory_format == at::MemoryFormat::ChannelsLast){
-    // Expect tensor in NHWC format and allow 0-dim only for N.
-    TORCH_CHECK((input.ndimension() == 4 && valid_dims && input.size(3) != 0),
-      "Expected 4D (batch mode) tensor expected for input with channels_last layout"
-      " with optional 0 dim batch size for input, but got: ", input.sizes());
-  } else {
-    TORCH_CHECK((input.ndimension() == 3 && input.size(0) != 0 && valid_dims) ||
-      (input.ndimension() == 4 && valid_dims && input.size(3) != 0),
-      "Expected 3D or 4D (batch mode) tensor with optional 0 dim batch size for input, but got:",
-      input.sizes());
-  }
-
+  TORCH_CHECK(input.numel() > 0 && (ndim == 3 || ndim == 4),
+              "non-empty 3D or 4D input tensor expected but got ndim: ", ndim);
   TORCH_CHECK(kW/2 >= padW && kH/2 >= padH,
               "pad should be smaller than half of kernel size, but got ",
               "padW = ", padW, ", padH = ", padH, ", kW = ", kW, ", kH = ", kH);
@@ -103,13 +93,13 @@ max_pool2d_backward_shape_check(
   int kH, int kW, int dH, int dW, int padH, int padW, int dilationH, int dilationW,
   int64_t nInputPlane,
   int64_t inputHeight, int64_t inputWidth,
-  int64_t outputHeight, int64_t outputWidth, MemoryFormat memory_format,
+  int64_t outputHeight, int64_t outputWidth,
   bool cuda=false)
 {
   pool2d_shape_check(
     input,
     kH, kW, dH, dW, padH, padW, dilationH, dilationW,
-    nInputPlane, inputHeight, inputWidth, outputHeight, outputWidth, memory_format);
+    nInputPlane, inputHeight, inputWidth, outputHeight, outputWidth);
 
   const int64_t ndim = input.ndimension();
   const int64_t nOutputPlane = nInputPlane;
@@ -132,14 +122,12 @@ avg_pool2d_backward_shape_check(
   int kH, int kW, int dH, int dW, int padH, int padW,
   int64_t nInputPlane,
   int64_t inputHeight, int64_t inputWidth,
-  int64_t outputHeight, int64_t outputWidth,
-  MemoryFormat memory_format)
+  int64_t outputHeight, int64_t outputWidth)
 {
   pool2d_shape_check(
     input,
     kH, kW, dH, dW, padH, padW, 1, 1,
-    nInputPlane, inputHeight, inputWidth, outputHeight, outputWidth,
-    memory_format);
+    nInputPlane, inputHeight, inputWidth, outputHeight, outputWidth);
 
   const int64_t ndim = input.ndimension();
   const int64_t nOutputPlane = nInputPlane;
diff --git a/aten/src/ATen/native/cuda/AveragePool2d.cu b/aten/src/ATen/native/cuda/AveragePool2d.cu
@@ -262,6 +262,14 @@ void avg_pool2d_out_cuda_template(
   const int padH = safe_downcast<int, int64_t>(padding[0]);
   const int padW = padding.size() == 1 ? padH : safe_downcast<int, int64_t>(padding[1]);
 
+  const auto memory_format = input_.suggest_memory_format();
+  if (memory_format == at::MemoryFormat::ChannelsLast){
+    TORCH_CHECK(input_.ndimension() == 4,
+      "non-empty 4D (batch mode) tensor expected for input with channels_last layout");
+  } else {
+    TORCH_CHECK((input_.ndimension() == 3 || input_.ndimension() == 4),
+      "non-empty 3D or 4D (batch mode) tensor expected for input");
+  }
 
   TORCH_CHECK(!divisor_override.has_value() || divisor_override.value() != 0,
     "divisor must be not zero");
@@ -273,14 +281,13 @@ void avg_pool2d_out_cuda_template(
 
   const int64_t outputWidth = pooling_output_shape<int64_t>(inputWidth, kW, padW, dW, 1, ceil_mode);
   const int64_t outputHeight = pooling_output_shape<int64_t>(inputHeight, kH, padH, dH, 1, ceil_mode);
-  const auto memory_format = input_.suggest_memory_format();
 
   pool2d_shape_check(
     input_,
     kH, kW, dH, dW, padH, padW, 1, 1,
     nInputPlane,
     inputHeight, inputWidth,
-    outputHeight, outputWidth, memory_format);
+    outputHeight, outputWidth);
 
   Tensor input = input_.contiguous(memory_format);
 
@@ -293,36 +300,18 @@ void avg_pool2d_out_cuda_template(
   bool use_divisor = divisor_override.has_value();
   const auto divisor_override_value = use_divisor ? divisor_override.value() : 0;
 
-  if (count != 0) {  
-    AT_DISPATCH_FLOATING_TYPES_AND2(kHalf, kBFloat16, input.scalar_type(),
-      "avg_pool2d_out_cuda_frame",
-      [&] {
-        using accscalar_t = acc_type<scalar_t, true>;
-
-        scalar_t *output_data = output.data_ptr<scalar_t>();
-        scalar_t *input_data = input.data_ptr<scalar_t>();
-
-        switch (memory_format){
-          case MemoryFormat::ChannelsLast: {
-            output.unsafeGetTensorImpl()->empty_tensor_restride(MemoryFormat::ChannelsLast);
-            avg_pool2d_out_cuda_frame_nhwc<scalar_t, accscalar_t>
-                <<<num_blocks, num_threads, 0, at::cuda::getCurrentCUDAStream()>>>(
-                  count,
-                  input_data,
-                  nbatch,
-                  nInputPlane,
-                  inputHeight, inputWidth,
-                  outputHeight, outputWidth,
-                  kH, kW,
-                  dH, dW,
-                  padH, padW,
-                  output_data,
-                  divisor_override_value,
-                  count_include_pad, use_divisor);
-            break;
-          }
-          case MemoryFormat::Contiguous: {
-            avg_pool2d_out_cuda_frame<scalar_t, accscalar_t>
+  AT_DISPATCH_FLOATING_TYPES_AND2(kHalf, kBFloat16, input.scalar_type(),
+    "avg_pool2d_out_cuda_frame",
+    [&] {
+      using accscalar_t = acc_type<scalar_t, true>;
+
+      scalar_t *output_data = output.data_ptr<scalar_t>();
+      scalar_t *input_data = input.data_ptr<scalar_t>();
+
+      switch (memory_format){
+        case MemoryFormat::ChannelsLast: {
+          output.unsafeGetTensorImpl()->empty_tensor_restride(MemoryFormat::ChannelsLast);
+          avg_pool2d_out_cuda_frame_nhwc<scalar_t, accscalar_t>
               <<<num_blocks, num_threads, 0, at::cuda::getCurrentCUDAStream()>>>(
                 count,
                 input_data,
@@ -336,13 +325,31 @@ void avg_pool2d_out_cuda_template(
                 output_data,
                 divisor_override_value,
                 count_include_pad, use_divisor);
-            break; 
-          }
-          default: TORCH_CHECK(false, "Unsupported memory format. Supports only ChannelsLast, Contiguous");
+          TORCH_CUDA_KERNEL_LAUNCH_CHECK();
+          break;
+        }
+        case MemoryFormat::Contiguous: {
+          avg_pool2d_out_cuda_frame<scalar_t, accscalar_t>
+            <<<num_blocks, num_threads, 0, at::cuda::getCurrentCUDAStream()>>>(
+              count,
+              input_data,
+              nbatch,
+              nInputPlane,
+              inputHeight, inputWidth,
+              outputHeight, outputWidth,
+              kH, kW,
+              dH, dW,
+              padH, padW,
+              output_data,
+              divisor_override_value,
+              count_include_pad, use_divisor);
+          TORCH_CUDA_KERNEL_LAUNCH_CHECK();
+          break;
         }
+        default: TORCH_CHECK(false, "Unsupported memory format. Supports only ChannelsLast, Contiguous");
       }
-    );
-  }
+    }
+  );
 
   if (input.ndimension() == 3) {
     output.resize_({nInputPlane, outputHeight, outputWidth});
@@ -388,6 +395,14 @@ Tensor& avg_pool2d_backward_out_cuda_template(
     "divisor must be not zero");
 
   const auto memory_format = input_.suggest_memory_format();
+  if (memory_format == at::MemoryFormat::ChannelsLast) {
+    TORCH_CHECK(input_.ndimension() == 4,
+      "non-empty 4D (batch mode) tensor expected for input with channels_last layout");
+  } else {
+    TORCH_CHECK((input_.ndimension() == 3 || input_.ndimension() == 4),
+      "non-empty 3D or 4D (batch mode) tensor expected for input");
+  }
+
   const Tensor input = input_.contiguous(memory_format);
   const Tensor gradOutput = gradOutput_.contiguous(memory_format);
 
@@ -406,14 +421,11 @@ Tensor& avg_pool2d_backward_out_cuda_template(
     kH, kW, dH, dW, padH, padW,
     nInputPlane,
     inputHeight, inputWidth,
-    outputHeight, outputWidth, memory_format);
+    outputHeight, outputWidth);
 
   gradInput.resize_as_(input);
+
   const int32_t count = safe_downcast<int32_t, int64_t>(input.numel());
-  if (count == 0) {
-    return gradInput;
-  }
-  
   const uint32_t num_threads = std::min(at::cuda::getCurrentDeviceProperties()->maxThreadsPerBlock, 1024);
   const uint32_t num_blocks = cuda::ATenCeilDiv<uint32_t>(count, num_threads);
 
diff --git a/aten/src/ATen/native/cuda/DilatedMaxPool2d.cu b/aten/src/ATen/native/cuda/DilatedMaxPool2d.cu
@@ -346,7 +346,7 @@ void max_pool2d_with_indices_out_cuda_template(
     kH, kW, dH, dW, padH, padW, dilationH, dilationW,
     nInputPlane,
     inputHeight, inputWidth,
-    outputHeight, outputWidth, memory_format);
+    outputHeight, outputWidth);
 
   Tensor input = input_.contiguous(memory_format);
 
@@ -513,7 +513,7 @@ void max_pool2d_with_indices_backward_out_cuda_template(
     kH, kW, dH, dW, padH, padW, dilationH, dilationW,
     nInputPlane,
     inputHeight, inputWidth,
-    outputHeight, outputWidth, memory_format,
+    outputHeight, outputWidth,
     /*cuda=*/ true);
 
   const Tensor gradOutput = gradOutput_.contiguous(memory_format);
diff --git a/aten/src/ATen/native/vulkan/VulkanAten.cpp b/aten/src/ATen/native/vulkan/VulkanAten.cpp
@@ -164,7 +164,7 @@ Tensor avg_pool2d(
       pooling_output_shape<int64_t>(iW, kW, padW, dW, 1, ceil_mode);
 
   pool2d_shape_check(
-      self, kH, kW, dH, dW, padH, padW, 1, 1, iC, iH, iW, oH, oW, self.suggest_memory_format());
+      self, kH, kW, dH, dW, padH, padW, 1, 1, iC, iH, iW, oH, oW);
 
   VulkanTensor y{{iN, iC, oH, oW}};
   vulkan::detail::avg_pool2d(
@@ -234,8 +234,7 @@ Tensor max_pool2d(
       iH,
       iW,
       oH,
-      oW,
-      self.suggest_memory_format());
+      oW);
 
   VulkanTensor y{{iN, iC, oH, oW}};
   vulkan::detail::max_pool2d(
diff --git a/test/test_nn.py b/test/test_nn.py
@@ -10463,19 +10463,6 @@ def test_convTranspose_empty(self, device):
             with torch.backends.cudnn.flags(enabled=False):
                 self._test_module_empty_input(mod, inp, check_size=False)
 
-    def test_AvgPool2d_empty(self, device):
-        avgpool = torch.nn.AvgPool2d(3, stride=2).to(device)
-        inp = torch.randn(0, 16, 20, 32, device=device)
-        self._test_module_empty_input(avgpool, inp, check_size=False)
-
-        clast_inp = torch.randn(0, 16, 20, 32, device=device).contiguous(memory_format=torch.channels_last)
-        self._test_module_empty_input(avgpool, clast_inp, check_size=False)
-
-        # test with empty non-batch input
-        with self.assertRaisesRegex(RuntimeError, '3D or 4D'):
-            inp = torch.randn(16, 0, 20, 32, device=device)
-            avgpool(inp)
-
     @onlyCUDA
     @largeTensorTest('16GB')
     def test_prelu_backward_32bit_indexing(self, device):