[quant] Prep for conv_transpose packing

Zafar · Zafar · commit de14d4a34d8d · 2020-06-19T17:38:08.000-07:00
ghstack-source-id: 939b91c Pull Request resolved: #39714
diff --git a/aten/src/ATen/native/quantized/cpu/conv_packed_params.h b/aten/src/ATen/native/quantized/cpu/conv_packed_params.h
@@ -18,6 +18,8 @@ struct ConvPackedParamsBase : public torch::jit::CustomClassHolder {
 
   virtual torch::List<int64_t> stride() const = 0;
   virtual torch::List<int64_t> padding() const = 0;
+  virtual torch::List<int64_t> output_padding() const = 0;
   virtual torch::List<int64_t> dilation() const = 0;
   virtual int64_t groups() const = 0;
+  virtual bool transpose() const = 0;
 };
diff --git a/aten/src/ATen/native/quantized/cpu/fbgemm_utils.cpp b/aten/src/ATen/native/quantized/cpu/fbgemm_utils.cpp
@@ -296,7 +296,7 @@ CAFFE2_API torch::jit::class_<ConvPackedParamsBase<kSpatialDim>> register_conv_p
             }
             groups = scalars_tensor[1].item<int64_t>();
             switch (version) {
-              case 2: break;
+              case 2: break;  // V2 is already covered, skipping output_padding
               case 3: {
                 for (; idx < 4 * kSpatialDim; ++idx) {
                   at::Tensor p = params1_tensor[idx];
@@ -319,8 +319,10 @@ CAFFE2_API torch::jit::class_<ConvPackedParamsBase<kSpatialDim>> register_conv_p
                 bias,
                 stride,
                 padding,
+                /*output_padding=*/padding,
                 dilation,
-                groups);
+                groups,
+                /*transpose=*/false);
           }
 #endif // USE_FBGEMM
 #ifdef USE_PYTORCH_QNNPACK
@@ -334,8 +336,10 @@ CAFFE2_API torch::jit::class_<ConvPackedParamsBase<kSpatialDim>> register_conv_p
                 bias,
                 stride,
                 padding,
+                /*output_padding=*/padding,
                 dilation,
-                groups);
+                groups,
+                /*transpose=*/false);
           }
 #endif // USE_PYTORCH_QNNPACK
           TORCH_CHECK(
diff --git a/aten/src/ATen/native/quantized/cpu/fbgemm_utils.h b/aten/src/ATen/native/quantized/cpu/fbgemm_utils.h
@@ -123,8 +123,10 @@ struct CAFFE2_API PackedConvWeight : public ConvPackedParamsBase<kSpatialDim> {
       c10::optional<at::Tensor> bias,
       torch::List<int64_t> stride,
       torch::List<int64_t> padding,
+      torch::List<int64_t> output_padding,
       torch::List<int64_t> dilation,
       int64_t groups,
+      uint8_t transpose,
       std::vector<int32_t> col_offsets,
       std::vector<int64_t> kernel,
       std::vector<float> w_scale,
@@ -134,8 +136,10 @@ struct CAFFE2_API PackedConvWeight : public ConvPackedParamsBase<kSpatialDim> {
     bias(std::move(bias)),
     stride_(std::move(stride)),
     padding_(std::move(padding)),
+    output_padding_(std::move(output_padding)),
     dilation_(std::move(dilation)),
     groups_(groups),
+    transpose_(transpose),
     col_offsets(std::move(col_offsets)),
     kernel(std::move(kernel)),
     w_scale(std::move(w_scale)),
@@ -146,8 +150,10 @@ struct CAFFE2_API PackedConvWeight : public ConvPackedParamsBase<kSpatialDim> {
   c10::optional<at::Tensor> bias;
   torch::List<int64_t> stride_;
   torch::List<int64_t> padding_;
+  torch::List<int64_t> output_padding_;
   torch::List<int64_t> dilation_;
   int64_t groups_;
+  uint8_t transpose_;
   std::vector<int32_t> col_offsets;
   std::vector<int64_t> kernel;
   std::vector<float> w_scale;
@@ -171,8 +177,10 @@ struct CAFFE2_API PackedConvWeight : public ConvPackedParamsBase<kSpatialDim> {
       c10::optional<at::Tensor> bias,
       torch::List<int64_t> stride,
       torch::List<int64_t> padding,
+      torch::List<int64_t> output_padding,
       torch::List<int64_t> dilation,
-      int64_t groups);
+      int64_t groups,
+      bool transpose);
 
   const float* GetBiasData(at::Tensor* bias);
 
@@ -190,6 +198,10 @@ struct CAFFE2_API PackedConvWeight : public ConvPackedParamsBase<kSpatialDim> {
     return padding_;
   }
 
+  torch::List<int64_t> output_padding() const override {
+    return output_padding_;
+  }
+
   torch::List<int64_t> dilation() const override {
     return dilation_;
   }
@@ -198,6 +210,10 @@ struct CAFFE2_API PackedConvWeight : public ConvPackedParamsBase<kSpatialDim> {
     return groups_;
   }
 
+  bool transpose() const override {
+    return (bool)transpose_;
+  }
+
  private:
   template <bool ReluFused>
   at::Tensor apply_impl(
diff --git a/aten/src/ATen/native/quantized/cpu/qconv_prepack.cpp b/aten/src/ATen/native/quantized/cpu/qconv_prepack.cpp
@@ -19,14 +19,16 @@ c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>> PackedConvWeight<
         c10::optional<at::Tensor> bias,
         torch::List<int64_t> stride,
         torch::List<int64_t> padding,
+        torch::List<int64_t> output_padding,
         torch::List<int64_t> dilation,
-        int64_t groups) {
+        int64_t groups,
+        bool transpose) {
+  TORCH_CHECK(!transpose, "FBGEMM doesn't supprort conv_transpose yet.")
   TORCH_CHECK(
       weight.ndimension() == kSpatialDim + 2,
       "Weights are expected to have ",
       kSpatialDim + 2,
       " dimensions");
-
   TORCH_CHECK(
       stride.size() == kSpatialDim,
       "stride should contain ",
@@ -45,7 +47,8 @@ c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>> PackedConvWeight<
       " elements for ",
       kSpatialDim,
       "D convolution.");
-  const int output_channels = weight.size(0);
+  const int output_channels_idx = transpose ? 1 : 0;
+  const int output_channels = weight.size(output_channels_idx);
   const int input_channels_per_group = weight.size(1);
   const int kernel_d = kSpatialDim == 2 ? 1 : weight.size(2);
   const int kernel_h = weight.size(kSpatialDim);
@@ -143,8 +146,10 @@ c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>> PackedConvWeight<
           bias_contig,
           stride,
           padding,
+          output_padding,
           dilation,
           groups,
+          transpose,
           col_offsets,
           kSpatialDim == 2 ? std::vector<int64_t>{kernel_h, kernel_w}
                            : std::vector<int64_t>{kernel_d, kernel_h, kernel_w},
@@ -166,28 +171,42 @@ c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>> PackedConvWeightsQnnp<
         c10::optional<at::Tensor> bias_in,
         torch::List<int64_t> stride,
         torch::List<int64_t> padding,
+        torch::List<int64_t> output_padding,
         torch::List<int64_t> dilation,
-        int64_t groups) {
+        int64_t groups,
+        bool transpose) {
+  TORCH_CHECK(kSpatialDim == 2, "QNNPACK packing only supports 2D ",
+              "convolution.");
+  TORCH_CHECK(
+      weight.ndimension() == kSpatialDim + 2,
+      "quantized::conv_prepack (qnnpack): Weights are expected to have ",
+      kSpatialDim + 2, "dimensions");
   TORCH_CHECK(
-      weight.ndimension() == 4,
-      "quantized::conv2d_prepack (qnnpack): Weights are expected to have 4 "
-      "dimensions");
+      stride.size() == kSpatialDim,
+      "quantized::conv_prepack (qnnpack): ",
+      kSpatialDim, "D convolution expects stride to have ",
+      kSpatialDim, " elements.");
   TORCH_CHECK(
-      stride.size() == 2,
-      "quantized::conv2d_prepack (qnnpack): 2D convolution only");
+      padding.size() == kSpatialDim,
+      "quantized::conv_prepack (qnnpack): Specify top/left input padding "
+      "only. bottom/right padding assumed to be equal to top/left");
   TORCH_CHECK(
-      padding.size() == 2,
-      "quantized::conv2d_prepack (qnnpack): Specify top/left padding only. "
-      "bottom/right padding assumed to be equal to top/left");
+      output_padding.size() == kSpatialDim,
+      "quantized::conv_prepack (qnnpack): Specify top/left output padding "
+      "only. bottom/right padding assumed to be equal to top/left");
   TORCH_CHECK(
-      dilation.size() == 2,
-      " quantized::conv2d_prepack (qnnpack): 2D convolution only");
+      dilation.size() == kSpatialDim,
+      "quantized::conv_prepack (qnnpack): ",
+      kSpatialDim, "D convolution expects dilation to have ",
+      kSpatialDim, " elements.");
 
   at::native::initQNNPACK();
 
   // QNNPACK expects weights to be of the format {out_c, kH, kW, in_c/groups},
   // but PyTorch lays them out as {out_c, in_c/groups, kH, kW}
-  const size_t out_ch = weight.size(0);
+  // (or for ConvTranspose {in_c, out_c/groups, kH, kW})
+  const size_t out_ch_idx = transpose ? 1 : 0;
+  const size_t out_ch = weight.size(out_ch_idx);
   const uint32_t kernel_h = weight.size(2);
   const uint32_t kernel_w = weight.size(3);
 
@@ -228,8 +247,10 @@ c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>> PackedConvWeightsQnnp<
               bias_fp32.contiguous(), /* fp32 bias */
               stride,
               padding,
+              output_padding,
               dilation,
               groups,
+              transpose,
               c10::nullopt, /* input_scale */
               {kernel_h, kernel_w},
               w_scales,
@@ -248,18 +269,38 @@ namespace {
 template <int kSpatialDim = 2>
 class QConvPackWeightInt8 final {
  public:
-  static c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>> run(
+  static c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>> run_conv(
       Tensor weight,
       c10::optional<Tensor> bias,
       torch::List<int64_t> stride,
       torch::List<int64_t> padding,
       torch::List<int64_t> dilation,
       int64_t groups) {
+    torch::List<int64_t> output_padding;
+    output_padding.reserve(kSpatialDim);
+    for (int idx = 0; idx < kSpatialDim; ++idx) {
+      output_padding.push_back((int64_t)0);
+    }
+    return _run(weight, bias, stride, padding, output_padding, dilation, groups,
+                false);
+  }
+
+ private:
+  static c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>> _run(
+      Tensor weight,
+      c10::optional<Tensor> bias,
+      torch::List<int64_t> stride,
+      torch::List<int64_t> padding,
+      torch::List<int64_t> output_padding,
+      torch::List<int64_t> dilation,
+      int64_t groups,
+      bool transpose) {
     auto& ctx = at::globalContext();
 #ifdef USE_FBGEMM
     if (ctx.qEngine() == at::QEngine::FBGEMM) {
       return PackedConvWeight<kSpatialDim>::prepack(
-          weight, bias, stride, padding, dilation, groups);
+          weight, bias, stride, padding, output_padding, dilation, groups,
+          transpose);
     }
 #endif
 
@@ -270,7 +311,8 @@ class QConvPackWeightInt8 final {
           "quantized::conv_prepack (qnnpack): QNNPACK only supports Conv1d "
           "and Conv2d now.");
       return PackedConvWeightsQnnp<kSpatialDim>::prepack(
-          weight, bias, stride, padding, dilation, groups);
+          weight, bias, stride, padding, output_padding, dilation, groups,
+          transpose);
     }
 #endif
 
@@ -283,31 +325,49 @@ class QConvPackWeightInt8 final {
 
 class QConv1dPackWeightInt8 final {
  public:
-  static c10::intrusive_ptr<ConvPackedParamsBase<2>> run(
+  static c10::intrusive_ptr<ConvPackedParamsBase<2>> run_conv(
       Tensor weight,
       c10::optional<Tensor> bias,
       torch::List<int64_t> stride,
       torch::List<int64_t> padding,
       torch::List<int64_t> dilation,
       int64_t groups) {
+    const torch::List<int64_t> output_padding({0});
+    return _run(weight, bias, stride, padding, output_padding, dilation, groups,
+                false);
+  }
+
+ private:
+  static c10::intrusive_ptr<ConvPackedParamsBase<2>> _run(
+      Tensor weight,
+      c10::optional<Tensor> bias,
+      torch::List<int64_t> stride,
+      torch::List<int64_t> padding,
+      torch::List<int64_t> output_padding,
+      torch::List<int64_t> dilation,
+      int64_t groups,
+      bool transpose) {
     auto& ctx = at::globalContext();
     if (weight.dim() == 3) {
       weight = weight.unsqueeze(quant_utils::kConv1dSqueezeDim + 2);
     }
     stride = quant_utils::MakeArgForConv1d(stride, 1);
     padding = quant_utils::MakeArgForConv1d(padding, 0);
+    output_padding = quant_utils::MakeArgForConv1d(output_padding, 0);
     dilation = quant_utils::MakeArgForConv1d(dilation, 1);
 #ifdef USE_FBGEMM
     if (ctx.qEngine() == at::QEngine::FBGEMM) {
       return PackedConvWeight<2>::prepack(
-          weight, bias, stride, padding, dilation, groups);
+          weight, bias, stride, padding, output_padding, dilation, groups,
+          transpose);
     }
 #endif
 
 #ifdef USE_PYTORCH_QNNPACK
     if (ctx.qEngine() == at::QEngine::QNNPACK) {
       return PackedConvWeightsQnnp<2>::prepack(
-          weight, bias, stride, padding, dilation, groups);
+          weight, bias, stride, padding, output_padding, dilation, groups,
+          transpose);
     }
 #endif
     TORCH_CHECK(
@@ -319,14 +379,14 @@ class QConv1dPackWeightInt8 final {
 
 TORCH_LIBRARY_IMPL(quantized, QuantizedCPU, m) {
   // conv_prepack is deprecated, please use conv2d_prepack for 2D conv.
-  m.impl("conv_prepack", TORCH_FN(QConvPackWeightInt8<2>::run));
-  m.impl("conv1d_prepack", TORCH_FN(QConv1dPackWeightInt8::run));
-  m.impl("conv2d_prepack", TORCH_FN(QConvPackWeightInt8<2>::run));
-  m.impl("conv3d_prepack", TORCH_FN(QConvPackWeightInt8<3>::run));
+  m.impl("conv_prepack", TORCH_FN(QConvPackWeightInt8<2>::run_conv));
+  m.impl("conv1d_prepack", TORCH_FN(QConv1dPackWeightInt8::run_conv));
+  m.impl("conv2d_prepack", TORCH_FN(QConvPackWeightInt8<2>::run_conv));
+  m.impl("conv3d_prepack", TORCH_FN(QConvPackWeightInt8<3>::run_conv));
 }
 
 TORCH_LIBRARY_IMPL(_quantized, QuantizedCPU, m) {
-  m.impl("conv2d_prepack", TORCH_FN(QConvPackWeightInt8<2>::run));
+  m.impl("conv2d_prepack", TORCH_FN(QConvPackWeightInt8<2>::run_conv));
 }
 
 } // namespace
diff --git a/aten/src/ATen/native/quantized/cpu/qnnpack_utils.h b/aten/src/ATen/native/quantized/cpu/qnnpack_utils.h