pytorch
diff --git a/‎.github/ci_commit_pins/vision.txt‎
Lines changed: 1 addition & 1 deletion b/‎.github/ci_commit_pins/vision.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.github/labeler.yml‎
Lines changed: 2 additions & 1 deletion b/‎.github/labeler.yml‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎.jenkins/pytorch/test.sh‎
Lines changed: 2 additions & 0 deletions b/‎.jenkins/pytorch/test.sh‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎.lintrunner.toml‎
Lines changed: 2 additions & 0 deletions b/‎.lintrunner.toml‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎CODEOWNERS‎
Lines changed: 1 addition & 1 deletion b/‎CODEOWNERS‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎MANIFEST.in‎
Lines changed: 1 addition & 1 deletion b/‎MANIFEST.in‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/Context.cpp‎
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/Context.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/cuda/CUDABlas.cpp‎
Lines changed: 28 additions & 2 deletions b/‎aten/src/ATen/cuda/CUDABlas.cpp‎
Lines changed: 28 additions & 2 deletions
diff --git a/‎aten/src/ATen/native/cpu/batch_norm_kernel.cpp‎
Lines changed: 0 additions & 9 deletions b/‎aten/src/ATen/native/cpu/batch_norm_kernel.cpp‎
Lines changed: 0 additions & 9 deletions
diff --git a/‎aten/src/ATen/native/cpu/group_norm_kernel.cpp‎
Lines changed: 7 additions & 5 deletions b/‎aten/src/ATen/native/cpu/group_norm_kernel.cpp‎
Lines changed: 7 additions & 5 deletions
@@ -1 +1 @@
-72686211e2a8b78e5a5dc8c28be34eb9cfcdad4c
+a718345a8d60c73a441f6254d6eae456c8a6d787
@@ -47,8 +47,9 @@
 "NNC":
 - torch/csrc/jit/tensorexpr/**
 
-"oncall: quantization":
+"release notes: quantization":
 - torch/ao/quantization/**
 - torch/quantization/**
 - aten/src/ATen/quantized/**
 - aten/src/ATen/native/quantized/cpu/**
+- test/quantization/**
@@ -215,6 +215,7 @@ test_dynamo_shard() {
     echo "NUM_TEST_SHARDS must be defined to run a Python test shard"
     exit 1
   fi
+  python tools/dynamo/verify_dynamo.py
   # Temporarily disable test_fx for dynamo pending the investigation on TTS
   # regression in https://github.com/pytorch/torchdynamo/issues/784
   time python test/run_test.py \
@@ -249,6 +250,7 @@ test_inductor_distributed() {
 }
 
 test_inductor() {
+  python tools/dynamo/verify_dynamo.py
   python test/run_test.py --include test_modules test_ops --verbose
   PYTORCH_TEST_WITH_INDUCTOR=0 python test/run_test.py --include inductor/test_torchinductor --include inductor/test_torchinductor_opinfo --verbose
   # TODO: investigate "RuntimeError: CUDA driver API confirmed a leak"
 
@@ -148,6 +148,7 @@ include_patterns = [
     'torch/_dynamo/convert_frame.py',
     'torch/_dynamo/types.py',
     'torch/_dynamo/output_graph.py',
+    'torch/_dynamo/guards.py',
     'torch/_dynamo/optimizations/__init__.py',
     'torch/_dynamo/optimizations/backends.py',
     'torch/_dynamo/optimizations/training.py',
@@ -779,6 +780,7 @@ include_patterns = [
     'torchgen/**/*.py',
     'functorch/functorch/_src/aot_autograd.py',
     'functorch/functorch/_src/compilers.py',
+    'torch/testing/*.py',
 ]
 command = [
     'python3',
 
@@ -15,7 +15,7 @@
 /torch/autograd/ @albanD @soulitzer
 /tools/autograd/ @albanD @soulitzer
 /torch/nn/ @albanD @jbschlosser
-/torch/optim/ @albanD
+/torch/optim/ @albanD @janeyx99
 /test/test_public_bindings.py @albanD
 /test/allowlist_for_publicAPI.json @albanD @anjali411
 /docs/source/conf.py @albanD
 
@@ -1,6 +1,6 @@
 include MANIFEST.in
 include CMakeLists.txt
-include CITATION
+include CITATION.cff
 include LICENSE
 include NOTICE
 include .gitmodules
 
@@ -332,8 +332,8 @@ const std::vector<at::QEngine>& Context::supportedQEngines() {
 
 #ifdef USE_FBGEMM
     if (fbgemm::fbgemmSupportedCPU()) {
-      // The X86 qengine is available if and only if FBGEMM is available
       engines.push_back(at::kX86);
+      // The X86 qengine is available if and only if FBGEMM is available
       engines.push_back(at::kFBGEMM);
     }
 #endif
 
@@ -741,7 +741,7 @@ void gemm_and_bias(
     TORCH_CUDABLAS_CHECK(CUBLAS_STATUS_NOT_SUPPORTED);
   }
 
-  TORCH_CUDABLAS_CHECK(cublasLtMatmul(
+  cublasStatus_t cublasStatus = cublasLtMatmul(
       ltHandle,
       computeDesc.descriptor(),
       &alpha_val,
@@ -757,7 +757,33 @@ void gemm_and_bias(
       &heuristicResult.algo,
       workspace.data_ptr(),
       workspaceSize,
-      at::cuda::getCurrentCUDAStream()));
+      at::cuda::getCurrentCUDAStream());
+  TORCH_CHECK(
+      cublasStatus == CUBLAS_STATUS_SUCCESS,
+      "CUDA error: ",
+      at::cuda::blas::_cublasGetErrorEnum(cublasStatus),
+      " when calling cublasLtMatmul with transpose_mat1 ",
+      transpose_mat1,
+      " transpose_mat2 ",
+      transpose_mat2,
+      " m ",
+      m,
+      " n ",
+      n,
+      " k ",
+      k,
+      " mat1_ld ",
+      mat1_ld,
+      " mat2_ld ",
+      mat2_ld,
+      " result_ld ",
+      result_ld,
+      " abcType ",
+      abcType,
+      " computeType ",
+      computeType,
+      " scaleType ",
+      scaleType);
 }
 
 template void gemm_and_bias(
 
@@ -789,15 +789,6 @@ void batch_norm_cpu_collect_stats_contiguous_impl<BFloat16>(
   }
 }
 
-static inline std::tuple<Vectorized<float>, Vectorized<float>> load2f(const BFloat16* ptr) {
-  return convert_bfloat16_float(Vectorized<BFloat16>::loadu(ptr));
-}
-
-static inline std::tuple<Vectorized<float>, Vectorized<float>> load2f(const float* ptr) {
-  using Vec = Vectorized<float>;
-  return std::make_tuple(Vec::loadu(ptr), Vec::loadu(ptr + Vec::size()));
-}
-
 template <typename param_t>
 inline void batch_norm_cpu_collect_stats_channels_last_internal(
     Tensor& mean, Tensor& var_sum, const Tensor& input) {
 
@@ -52,13 +52,15 @@ void GroupNormKernelImplInternal(
   const bool beta_null = beta_data == nullptr;
   const int64_t inner_size = D * HxW;
 
+  using T_ACC = vec::vec_scalar_t<T>;
+
   at::parallel_for(0, N * G, 1, [&](int64_t start, int64_t end) {
     for (const auto i : c10::irange(start, end)) {
       const T* X_ptr = X_data + i * inner_size;
-      T mean_val;
-      T rstd_val;
+      T_ACC mean_val;
+      T_ACC rstd_val;
       std::tie(mean_val, rstd_val) = RowwiseMoments(X_ptr, inner_size);
-      rstd_val = T(1) / std::sqrt(std::max(rstd_val, T(0)) + eps);
+      rstd_val = T_ACC(1) / std::sqrt(std::max(rstd_val, T_ACC(0)) + eps);
       if (gamma_null && beta_null) {
         T* Y_ptr = Y_data + i * inner_size;
         for (const auto j : c10::irange(inner_size)) {
@@ -68,8 +70,8 @@ void GroupNormKernelImplInternal(
         const int64_t g = i % G;
         for (const auto j : c10::irange(D)) {
           const int64_t c = g * D + j;
-          const T scale = rstd_val * (gamma_null ? T(1) : gamma_data[c]);
-          const T bias = -scale * mean_val + (beta_null ? T(0) : beta_data[c]);
+          const T_ACC scale = rstd_val * (gamma_null ? T(1) : gamma_data[c]);
+          const T_ACC bias = -scale * mean_val + (beta_null ? T(0) : beta_data[c]);
           X_ptr = X_data + (i * D + j) * HxW;
           T* Y_ptr = Y_data + (i * D + j) * HxW;
           for (const auto k : c10::irange(HxW)) {
Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-72686211e2a8b78e5a5dc8c28be34eb9cfcdad4c`
	`1`	`+a718345a8d60c73a441f6254d6eae456c8a6d787`
Original file line number	Diff line number	Diff line change
`@@ -332,8 +332,8 @@ const std::vector<at::QEngine>& Context::supportedQEngines() {`
`332`	`332`
`333`	`333`	`#ifdef USE_FBGEMM`
`334`	`334`	`if (fbgemm::fbgemmSupportedCPU()) {`
`335`		`- // The X86 qengine is available if and only if FBGEMM is available`
`336`	`335`	`engines.push_back(at::kX86);`
	`336`	`+ // The X86 qengine is available if and only if FBGEMM is available`
`337`	`337`	`engines.push_back(at::kFBGEMM);`
`338`	`338`	`}`
`339`	`339`	`#endif`