pytorch
diff --git a/‎CMakeLists.txt‎
Lines changed: 13 additions & 0 deletions b/‎CMakeLists.txt‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎aten/CMakeLists.txt‎
Lines changed: 2 additions & 0 deletions b/‎aten/CMakeLists.txt‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎aten/src/ATen/CMakeLists.txt‎
Lines changed: 8 additions & 2 deletions b/‎aten/src/ATen/CMakeLists.txt‎
Lines changed: 8 additions & 2 deletions
diff --git a/‎aten/src/ATen/detail/VULKANGuardImpl.cpp‎
Lines changed: 9 additions & 0 deletions b/‎aten/src/ATen/detail/VULKANGuardImpl.cpp‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎aten/src/ATen/detail/VULKANGuardImpl.h‎
Lines changed: 64 additions & 0 deletions b/‎aten/src/ATen/detail/VULKANGuardImpl.h‎
Lines changed: 64 additions & 0 deletions
diff --git a/‎aten/src/ATen/function_wrapper.py‎
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/function_wrapper.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/gen.py‎
Lines changed: 4 additions & 1 deletion b/‎aten/src/ATen/gen.py‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎aten/src/ATen/native/Convolution.cpp‎
Lines changed: 14 additions & 0 deletions b/‎aten/src/ATen/native/Convolution.cpp‎
Lines changed: 14 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/native_functions.yaml‎
Lines changed: 14 additions & 0 deletions b/‎aten/src/ATen/native/native_functions.yaml‎
Lines changed: 14 additions & 0 deletions
@@ -187,6 +187,9 @@ option(USE_SNPE "Use Qualcomm's SNPE library" OFF)
 option(USE_SYSTEM_EIGEN_INSTALL
     "Use system Eigen instead of the one under third_party" OFF)
 option(USE_TENSORRT "Using Nvidia TensorRT library" OFF)
+option(USE_VULKAN "Use Vulkan GPU backend" ON)
+option(USE_VULKANGL "Use VulkanGL GPU backend" OFF)
+option(USE_VULKAN_SHADERC_RUNTIME "Use Vulkan Shader compilation runtime(Needs shaderc lib)" OFF)
 option(USE_XNNPACK "Use XNNPACK" ON)
 option(USE_ZMQ "Use ZMQ" OFF)
 option(USE_ZSTD "Use ZSTD" OFF)
@@ -436,6 +439,16 @@ if(USE_XNNPACK)
   set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -DUSE_XNNPACK -DUSE_INTERNAL_THREADPOOL_IMPL")
 endif()
 
+if(USE_VULKAN)
+  set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -DUSE_VULKAN")
+endif()
+if(USE_VULKANGL)
+  set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -DUSE_VULKANGL")
+endif()
+if(USE_VULKAN_SHADERC_RUNTIME)
+  set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -DUSE_VULKAN_SHADERC_RUNTIME")
+endif()
+
 # ---[ Whitelist file if whitelist is specified
 include(cmake/Whitelist.cmake)
 
 
@@ -33,6 +33,7 @@ set(ATen_HIP_INCLUDE)
 set(ATen_CPU_DEPENDENCY_LIBS)
 set(ATen_CUDA_DEPENDENCY_LIBS)
 set(ATen_HIP_DEPENDENCY_LIBS)
+set(ATen_VULKANGL_DEPENDENCY_LIBS)
 set(ATen_PUBLIC_CUDA_DEPENDENCY_LIBS)
 set(ATen_PUBLIC_HIP_DEPENDENCY_LIBS)
 set(ATEN_INSTALL_BIN_SUBDIR "bin" CACHE PATH "ATen install binary subdirectory")
@@ -120,4 +121,5 @@ set(ATen_THIRD_PARTY_INCLUDE ${ATen_THIRD_PARTY_INCLUDE} PARENT_SCOPE)
 set(ATen_CPU_DEPENDENCY_LIBS ${ATen_CPU_DEPENDENCY_LIBS} PARENT_SCOPE)
 set(ATen_CUDA_DEPENDENCY_LIBS ${ATen_CUDA_DEPENDENCY_LIBS} PARENT_SCOPE)
 set(ATen_HIP_DEPENDENCY_LIBS ${ATen_HIP_DEPENDENCY_LIBS} PARENT_SCOPE)
+set(ATen_VULKANGL_DEPENDENCY_LIBS ${ATen_VULKANGL_DEPENDENCY_LIBS} PARENT_SCOPE)
 set(ATen_CORE_TEST_SRCS ${ATen_CORE_TEST_SRCS} PARENT_SCOPE)
@@ -59,6 +59,7 @@ file(GLOB mkldnn_cpp "mkldnn/*.cpp")
 file(GLOB native_cpp "native/*.cpp")
 file(GLOB native_mkl_cpp "native/mkl/*.cpp")
 file(GLOB native_mkldnn_cpp "native/mkldnn/*.cpp")
+file(GLOB native_vulkan_cpp "native/vulkan/*.cpp")
 file(GLOB native_sparse_cpp "native/sparse/*.cpp")
 file(GLOB native_quantized_cpp
             "native/quantized/*.cpp"
@@ -90,7 +91,7 @@ file(GLOB native_quantized_hip_cpp "native/quantized/hip/*.cpp")
 file(GLOB native_xnnpack "native/xnnpack/*.cpp")
 
 add_subdirectory(quantized)
-set(all_cpu_cpp ${base_cpp} ${ATen_CORE_SRCS} ${native_cpp} ${native_sparse_cpp} ${native_quantized_cpp} ${native_mkl_cpp} ${native_mkldnn_cpp} ${native_xnnpack} ${generated_cpp} ${core_generated_cpp} ${ATen_CPU_SRCS} ${ATen_QUANTIZED_SRCS} ${cpu_kernel_cpp})
+set(all_cpu_cpp ${base_cpp} ${ATen_CORE_SRCS} ${native_cpp} ${native_sparse_cpp} ${native_quantized_cpp} ${native_mkl_cpp} ${native_mkldnn_cpp} ${native_xnnpack} ${native_vulkan_cpp} ${generated_cpp} ${core_generated_cpp} ${ATen_CPU_SRCS} ${ATen_QUANTIZED_SRCS} ${cpu_kernel_cpp})
 if(AT_MKL_ENABLED)
   set(all_cpu_cpp ${all_cpu_cpp} ${mkl_cpp})
 endif()
@@ -163,7 +164,11 @@ if(LAPACK_FOUND)
   endif()
 endif(LAPACK_FOUND)
 
-if(UNIX AND NOT APPLE)
+IF (USE_VULKANGL) 
+  list(APPEND ATen_VULKANGL_DEPENDENCY_LIBS EGL GLESv3)
+ENDIF()
+
+IF (UNIX AND NOT APPLE)
    include(CheckLibraryExists)
    # https://github.com/libgit2/libgit2/issues/2128#issuecomment-35649830
    CHECK_LIBRARY_EXISTS(rt clock_gettime "time.h" NEED_LIBRT)
@@ -392,3 +397,4 @@ set(ATen_HIP_INCLUDE ${ATen_HIP_INCLUDE} PARENT_SCOPE)
 set(ATen_CPU_DEPENDENCY_LIBS ${ATen_CPU_DEPENDENCY_LIBS} PARENT_SCOPE)
 set(ATen_CUDA_DEPENDENCY_LIBS ${ATen_CUDA_DEPENDENCY_LIBS} PARENT_SCOPE)
 set(ATen_HIP_DEPENDENCY_LIBS ${ATen_HIP_DEPENDENCY_LIBS} PARENT_SCOPE)
+set(ATen_VULKANGL_DEPENDENCY_LIBS ${ATen_VULKANGL_DEPENDENCY_LIBS} PARENT_SCOPE)
@@ -0,0 +1,9 @@
+#include <ATen/detail/VULKANGuardImpl.h>
+
+namespace at {
+namespace detail {
+
+C10_REGISTER_GUARD_IMPL(VULKAN, VULKANGuardImpl);
+
+}
+} // namespace at
@@ -0,0 +1,64 @@
+#pragma once
+
+#include <c10/core/impl/DeviceGuardImplInterface.h>
+#include <c10/macros/Macros.h>
+
+namespace at {
+namespace detail {
+
+struct VULKANGuardImpl final : public c10::impl::DeviceGuardImplInterface {
+  VULKANGuardImpl() {}
+
+  explicit VULKANGuardImpl(DeviceType t) {
+    TORCH_INTERNAL_ASSERT(t == DeviceType::VULKAN);
+  }
+
+  DeviceType type() const override {
+    return DeviceType::VULKAN;
+  }
+  Device exchangeDevice(Device) const override {
+    // no-op
+    return Device(DeviceType::VULKAN, -1);
+  }
+  Device getDevice() const override {
+    return Device(DeviceType::VULKAN, -1);
+  }
+  void setDevice(Device) const override {
+    // no-op
+  }
+  void uncheckedSetDevice(Device d) const noexcept override {
+    // no-op
+  }
+  Stream getStream(Device d) const noexcept override {
+    // no-op
+    return Stream(Stream::DEFAULT, Device(DeviceType::VULKAN, -1));
+  }
+  // NB: These do NOT set the current device
+  Stream exchangeStream(Stream s) const noexcept override {
+    // no-op
+    return Stream(Stream::DEFAULT, Device(DeviceType::VULKAN, -1));
+  }
+  DeviceIndex deviceCount() const noexcept override {
+    return 1;
+  }
+
+  // Event-related functions
+  void record(
+      void** event,
+      const Stream& stream,
+      const DeviceIndex device_index,
+      const EventFlag flag) const override {
+    TORCH_CHECK(false, "VULKAN backend doesn't support events.");
+  }
+  void block(void* event, const Stream& stream) const override {
+    TORCH_CHECK(false, "VULKAN backend doesn't support events.")
+  }
+  bool queryEvent(void* event) const override {
+    TORCH_CHECK(false, "VULKAN backend doesn't support events.")
+  }
+  void destroyEvent(void* event, const DeviceIndex device_index) const
+      noexcept override {}
+};
+
+} // namespace detail
+} // namespace at
@@ -242,7 +242,7 @@ def TypedDict(name, attrs, total=True):  # type: ignore
     ('BFloat16', 'BFloat16', 'BFloat16AccrealNotDefined', True),
 ]
 
-static_dispatch_backends = ['CPU', 'QuantizedCPU']
+static_dispatch_backends = ['CPU', 'QuantizedCPU', 'Vulkan']
 
 
 class NYIError(Exception):
 
@@ -171,6 +171,8 @@ def check_all_files_written(self):
 def backend_to_devicetype(backend):
     if backend == 'QuantizedCPU':
         return 'CPU'
+    if backend == 'Vulkan':
+        return 'VULKAN'
     return backend
 
 backends = ['CPU', 'CUDA']
@@ -362,7 +364,7 @@ def generate_storage_type_and_tensor(backend, density, declarations, per_op_regi
         fm.write(env['Type'] + ".cpp", SPARSE_TYPE_DERIVED_CPP, env)
     fm.write(env['Type'] + ".h", TYPE_DERIVED_H, env)
 
-    if env['DeviceType'] == 'CPU':
+    if env['DeviceType'] == 'CPU' or env['DeviceType'] == 'VULKAN':
         top_env['cpu_type_headers'].append(
             '#include "ATen/{}.h"'.format(env['Type']))
     else:
@@ -381,6 +383,7 @@ def iterate_types():
                 yield (backend, density)
     for backend in quantized_backends:
         yield (backend, 'Dense')
+    yield('Vulkan', 'Dense')
 
 
 def gen_per_op_registration_filename(opname):
 
@@ -42,6 +42,7 @@ struct ConvParams {
   bool use_miopen(const at::Tensor& input, bool bias_defined) const;
   bool use_mkldnn(const at::Tensor& input) const;
   bool use_nnpack(const at::Tensor& input) const;
+  bool use_vulkan(const at::Tensor& input) const;
   bool is_depthwise(const at::Tensor& input, const at::Tensor& weight) const;
 };
 
@@ -239,6 +240,15 @@ auto ConvParams::use_nnpack(const at::Tensor& input) const -> bool {
   return false;
 }
 
+auto ConvParams::use_vulkan(const at::Tensor& input) const -> bool {
+  return input.is_vulkan() &&
+         input.scalar_type() == kFloat &&
+         groups == 1 &&
+         !is_dilated() &&
+         !transposed &&
+         input.ndimension() == 4;
+}
+
 // We currently only have depthwise support for the case where groups ==
 // nInputPlane and nInputPlane == nOutputPlane (the latter due to the lack of
 // a depthwise multiplier)
@@ -695,6 +705,10 @@ at::Tensor _convolution(
                                       params.padding, params.stride, params.dilation, params.groups);
     }
 #endif
+  } else if (params.use_vulkan(input)) {
+    output = at::vulkan_convolution(
+        input, weight, bias,
+        params.padding, params.stride, params.dilation, params.groups);
   } else if (input.device().type() == c10::DeviceType::CPU || input.device().type() == c10::DeviceType::CUDA) {
     if (params.use_cpu_depthwise3x3_winograd(input, weight)) {
       output = convolution_depthwise3x3_winograd_stub(
 
@@ -306,6 +306,7 @@
     SparseCPU: add_sparse
     SparseCUDA: add_sparse
     MkldnnCPU: mkldnn_add
+    Vulkan: vulkan_add
   supports_named_tensor: True
 
 - func: add_.Tensor(Tensor(a!) self, Tensor other, *, Scalar alpha=1) -> Tensor(a!)
@@ -1158,6 +1159,7 @@
     MkldnnCPU: empty_mkldnn
     SparseCPU: empty_sparse
     SparseCUDA: empty_sparse
+    Vulkan: empty_vulkan
 
 - func: new_empty(Tensor self, int[] size, *, ScalarType? dtype=None, Layout? layout=None, Device? device=None, bool? pin_memory=None) -> Tensor
   use_c10_dispatcher: unboxed_only
@@ -1931,6 +1933,8 @@
 
 - func: mkldnn_convolution_backward(Tensor self, Tensor grad_output, Tensor weight, int[] padding, int[] stride, int[] dilation, int groups, bool[3] output_mask) -> (Tensor, Tensor, Tensor)
 
+- func: vulkan_convolution(Tensor self, Tensor weight, Tensor? bias, int[] padding, int[] stride, int[] dilation, int groups) -> Tensor
+
 - func: miopen_batch_norm(Tensor input, Tensor weight, Tensor? bias, Tensor? running_mean, Tensor? running_var, bool training, float exponential_average_factor, float epsilon) -> (Tensor, Tensor, Tensor)
   dispatch:
     CUDA: miopen_batch_norm
@@ -3536,6 +3540,7 @@
     SparseCPU: sparse_to_dense
     SparseCUDA: sparse_to_dense
     MkldnnCPU: mkldnn_to_dense
+    Vulkan: vulkan_to_dense
   requires_tensor: True
 
 - func: to_dense_backward(Tensor grad, Tensor input) -> Tensor
@@ -3703,6 +3708,12 @@
   dispatch:
     CPU: dense_to_mkldnn
 
+- func: to_vulkan(Tensor self) -> Tensor
+  use_c10_dispatcher: full
+  variants: method
+  dispatch:
+    CPU: dense_to_vulkan
+
 - func: mkldnn_reorder_conv2d_weight(Tensor self, int[2] padding=0, int[2] stride=1, int[2] dilation=1, int groups=1) -> Tensor
   variants: function
   python_module: nn
@@ -6443,10 +6454,13 @@
 
 - func: upsample_nearest2d(Tensor self, int[2] output_size, float? scales_h=None, float? scales_w=None) -> Tensor
   python_module: nn
+  use_c10_dispatcher: unboxed_only
+  variants: function
   dispatch:
     CPU: upsample_nearest2d_cpu
     CUDA: upsample_nearest2d_cuda
     QuantizedCPU: quantized_upsample_nearest2d_cpu
+    Vulkan: upsample_nearest2d_vulkan
 
 - func: upsample_nearest2d_backward.grad_input(Tensor grad_output, int[2] output_size, int[4] input_size, float? scales_h=None, float? scales_w=None, *, Tensor(a!) grad_input) -> Tensor(a!)
   python_module: nn
Original file line number	Diff line number	Diff line change
`@@ -242,7 +242,7 @@ def TypedDict(name, attrs, total=True): # type: ignore`
`242`	`242`	`('BFloat16', 'BFloat16', 'BFloat16AccrealNotDefined', True),`
`243`	`243`	`]`
`244`	`244`
`245`		`-static_dispatch_backends = ['CPU', 'QuantizedCPU']`
	`245`	`+static_dispatch_backends = ['CPU', 'QuantizedCPU', 'Vulkan']`
`246`	`246`
`247`	`247`
`248`	`248`	`class NYIError(Exception):`