pytorch
diff --git a/‎.github/merge_rules.yaml‎
Lines changed: 4 additions & 4 deletions b/‎.github/merge_rules.yaml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎.github/scripts/install_nvidia_utils_linux.sh‎
Lines changed: 21 additions & 1 deletion b/‎.github/scripts/install_nvidia_utils_linux.sh‎
Lines changed: 21 additions & 1 deletion
diff --git a/‎.jenkins/pytorch/test.sh‎
Lines changed: 1 addition & 0 deletions b/‎.jenkins/pytorch/test.sh‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions b/‎CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎Makefile‎
Lines changed: 4 additions & 0 deletions b/‎Makefile‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/mkldnn/TensorShape.cpp‎
Lines changed: 5 additions & 1 deletion b/‎aten/src/ATen/native/mkldnn/TensorShape.cpp‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎aten/src/ATen/native/mps/operations/UnaryOps.mm‎
Lines changed: 45 additions & 1 deletion b/‎aten/src/ATen/native/mps/operations/UnaryOps.mm‎
Lines changed: 45 additions & 1 deletion
diff --git a/‎aten/src/ATen/native/native_functions.yaml‎
Lines changed: 3 additions & 0 deletions b/‎aten/src/ATen/native/native_functions.yaml‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/nested/NestedTensorUnaryOps.cpp‎
Lines changed: 12 additions & 0 deletions b/‎aten/src/ATen/native/nested/NestedTensorUnaryOps.cpp‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/quantized/cpu/fbgemm_utils.cpp‎
Lines changed: 1 addition & 0 deletions b/‎aten/src/ATen/native/quantized/cpu/fbgemm_utils.cpp‎
Lines changed: 1 addition & 0 deletions
@@ -325,10 +325,10 @@
   - torch/csrc/lazy/**
   - test/cpp/lazy/**
   - test/lazy/**
-  - codegen/api/lazy.py
-  - codegen/dest/lazy_ir.py
-  - codegen/dest/lazy_ts_lowering.py
-  - codegen/gen_lazy_tensor.py
+  - torchgen/api/lazy.py
+  - torchgen/dest/lazy_ir.py
+  - torchgen/dest/lazy_ts_lowering.py
+  - torchgen/gen_lazy_tensor.py
   - aten/src/ATen/native/ts_native_functions.yaml
   approved_by:
   - alanwaketan
 
@@ -59,8 +59,28 @@ install_nvidia_driver_amzn2() {
             sudo yum install -y "kernel-devel-uname-r == $(uname -r)"
             sudo modprobe backlight
             sudo curl -fsL -o /tmp/nvidia_driver "https://s3.amazonaws.com/ossci-linux/nvidia_driver/$DRIVER_FN"
-            sudo /bin/bash /tmp/nvidia_driver -s --no-drm || (sudo cat /var/log/nvidia-installer.log && false)
+
+            set +e
+            sudo /bin/bash /tmp/nvidia_driver -s --no-drm
+            NVIDIA_INSTALLATION_STATUS=$?
+
+            if [ "$NVIDIA_INSTALLATION_STATUS" -ne 0 ]; then
+                sudo cat /var/log/nvidia-installer.log
+
+                NVIDIA_DEVICES=$(lspci -D | grep -i NVIDIA | cut -d' ' -f1)
+                # The GPU can get stuck in a failure state if somehow the test crashs the GPU microcode. When this
+                # happens, we'll try to reset all NVIDIA devices https://github.com/pytorch/pytorch/issues/88388
+                for PCI_ID in "$NVIDIA_DEVICES"; do
+                    DEVICE_ENABLED=$(cat /sys/bus/pci/devices/$PCI_ID/enable)
+
+                    echo "Reseting $PCI_ID (enabled state: $DEVICE_ENABLED)"
+                    echo "1" > /sys/bus/pci/devices/$PCI_ID/reset
+                    sleep 1
+                done
+            fi
+
             sudo rm -fv /tmp/nvidia_driver
+            set -e
         fi
 
         sudo modprobe nvidia || true
 
@@ -733,6 +733,7 @@ elif [[ "$TEST_CONFIG" == deploy ]]; then
 elif [[ "${TEST_CONFIG}" == *inductor_distributed* ]]; then
   install_filelock
   install_triton
+  install_huggingface
   test_inductor_distributed
 elif [[ "${TEST_CONFIG}" == *dynamo* && "${SHARD_NUMBER}" == 1 && $NUM_TEST_SHARDS -gt 1 ]]; then
   test_without_numpy
 
@@ -285,6 +285,7 @@ if(NOT USE_XNNPACK AND CMAKE_VERSION VERSION_LESS ${XNNPACK_MIN_CMAKE_VER})
 endif()
 option(USE_ZMQ "Use ZMQ" OFF)
 option(USE_ZSTD "Use ZSTD" OFF)
+option(TORCH_DISABLE_GPU_ASSERTS "Disable GPU asserts by default" OFF)
 # Ensure that an ITT build is the default for x86 CPUs
 cmake_dependent_option(
   USE_ITT "Use Intel(R) VTune Profiler ITT functionality" ON
 
@@ -31,3 +31,7 @@ lint:
 
 quicklint:
 	lintrunner
+
+triton:
+	$(PIP) uninstall -y triton
+	$(PIP) install -U "git+https://github.com/openai/triton@$(shell cat .github/ci_commit_pins/triton.txt)#subdirectory=python"
@@ -1,7 +1,8 @@
 #define TORCH_ASSERT_ONLY_METHOD_OPERATORS
-#include <ATen/core/Tensor.h>
 #include <ATen/Config.h>
 #include <ATen/InferSize.h>
+#include <ATen/WrapDimUtils.h>
+#include <ATen/core/Tensor.h>
 #include <c10/core/SymIntArrayRef.h>
 
 #ifndef AT_PER_OPERATOR_HEADERS
@@ -78,6 +79,9 @@ Tensor mkldnn_clone(const Tensor& self, c10::optional<c10::MemoryFormat> optiona
 }
 
 Tensor mkldnn_transpose(const Tensor& self, int64_t dim0, int64_t dim1) {
+  auto ndims = self.dim();
+  dim0 = maybe_wrap_dim(dim0, ndims);
+  dim1 = maybe_wrap_dim(dim1, ndims);
   const ideep::tensor& x = itensor_from_mkldnn(self);
   ideep::tensor y;
   std::vector<int> axes(x.ndims());
 
@@ -7,6 +7,13 @@
 #include <ATen/native/mps/OperationUtils.h>
 #include <torch/library.h>
 
+// TODO: Remove me when moved to MacOS 13
+@interface MPSGraph (VenturaOps)
+- (MPSGraphTensor *)cumulativeSumWithTensor:(MPSGraphTensor *)tensor
+                                       axis:(NSInteger)axis
+                                       name:(NSString *)name;
+@end
+
 namespace at {
 namespace native {
 namespace mps {
@@ -30,7 +37,7 @@ void unary_op(const Tensor& self, const Tensor& output, std::string op_name, Una
   }
   MPSGraphCache* cache_ = MPSGraphCache::getInstance();
   @autoreleasepool {
-    string key = op_name + getTensorsStringKey({self}, /*use_scalar_value*/ false);
+    string key = op_name + getTensorsStringKey({self, output}, /*use_scalar_value*/ false);
     auto cachedGraph = cache_->LookUpAs<MPSUnaryCachedGraph>(key);
 
     if(!cachedGraph) {
@@ -263,5 +270,42 @@ void unary_op(const Tensor& self, const Tensor& output, std::string op_name, Una
                 });
 }
 
+
+static bool mpsSupportsCumsum() {
+  id mpsCD = NSClassFromString(@"MPSGraph");
+  return [mpsCD instancesRespondToSelector:@selector(cumulativeSumWithTensor:axis:name:)] == YES;
+}
+
+
+TORCH_IMPL_FUNC(cumsum_out_mps)
+(const Tensor& self,
+ int64_t dim,
+ c10::optional<ScalarType> dtype,
+ const Tensor& result) {
+  TORCH_CHECK(dim >=0 && dim < std::max(1LL, self.ndimension()), "Expected dim to be between 0 and ", self.ndimension(), " but got ", dim);
+  if (!mpsSupportsCumsum()) {
+    TORCH_WARN_ONCE("torch.cumsum supported by MPS on MacOS 13+, please upgrade");
+    auto cpu_result = self.to(at::Device(kCPU)).cumsum(dim, dtype);
+    at::_copy_from_and_resize(cpu_result, result);
+    return;
+  }
+  auto input = dtype.has_value() ? self.to(dtype.value()) : self;
+  mps::unary_op(input, result, "cumsum_out_mp" + std::to_string(dim),
+                ^ MPSGraphTensor* (MPSGraph* mpsGraph, MPSGraphTensor* inputTensor) {
+       // cumsum is horribly broken for int8, int16 and as chances for overflow is pretty high, cast to int32
+       if (isIntegralType(input.scalar_type()) && input.scalar_type() !=ScalarType::Int) {
+           inputTensor = mps::castMPSTensor(mpsGraph, inputTensor, result.scalar_type());
+       }
+       auto rc = [mpsGraph cumulativeSumWithTensor: inputTensor
+                                              axis: dim
+                                              name: nil];
+       if (result.scalar_type()!= input.scalar_type() ||
+           (isIntegralType(input.scalar_type()) && input.scalar_type() !=ScalarType::Int)) {
+         return mps::castMPSTensor(mpsGraph, rc, result.scalar_type());
+       }
+       return rc;
+    });
+}
+
 } // namespace native
 } // namespace at
@@ -1776,6 +1776,7 @@
   device_check: NoCheck   # TensorIterator
   dispatch:
     CPU, CUDA: cumsum_out
+    MPS: cumsum_out_mps
 
 - func: cumsum.dimname(Tensor self, Dimname dim, *, ScalarType? dtype=None) -> Tensor
   device_check: NoCheck   # TensorIterator
@@ -4247,6 +4248,7 @@
   dispatch:
     SparseCPU, SparseCUDA: neg_sparse
     SparseCsrCPU, SparseCsrCUDA: neg_sparse_csr
+    NestedTensorCPU, NestedTensorCUDA: NestedTensor_neg
   tags: canonical
 
 - func: neg_(Tensor(a!) self) -> Tensor(a!)
@@ -4256,6 +4258,7 @@
   dispatch:
     SparseCPU, SparseCUDA: neg_sparse_
     SparseCsrCPU, SparseCsrCUDA: neg_sparse_csr_
+    NestedTensorCPU, NestedTensorCUDA: NestedTensor_neg_
 
 - func: neg.out(Tensor self, *, Tensor(a!) out) -> Tensor(a!)
   device_check: NoCheck   # TensorIterator
 
@@ -58,5 +58,17 @@ Tensor NestedTensor_tanh(const Tensor& self) {
   return map_nt(self, at::tanh);
 }
 
+Tensor& NestedTensor_neg_(Tensor& self) {
+  auto self_ptr = get_nested_tensor_impl(self);
+  check_numel_equals_buffer_size(self_ptr);
+  auto buffer = self_ptr->get_buffer();
+  at::neg_(buffer);
+  return self;
+}
+
+Tensor NestedTensor_neg(const Tensor& self) {
+  return map_nt(self, at::neg);
+}
+
 } // namespace native
 } // namespace at
@@ -560,6 +560,7 @@ int register_embedding_params() {
             return PackedEmbeddingBagWeight::prepack(weight);
           })
       .def("bit_rate", &EmbeddingPackedParamsBase::bit_rate)
+      .def("unpack", &EmbeddingPackedParamsBase::unpack)
       .def("version", &EmbeddingPackedParamsBase::version);
 
   return 0;