pytorch
diff --git a/‎test/distributed/checkpoint/test_dedup_tensors.py‎
Lines changed: 1 addition & 1 deletion b/‎test/distributed/checkpoint/test_dedup_tensors.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎test/distributed/checkpoint/test_fsdp_optim_state.py‎
Lines changed: 112 additions & 0 deletions b/‎test/distributed/checkpoint/test_fsdp_optim_state.py‎
Lines changed: 112 additions & 0 deletions
diff --git a/‎test/distributed/checkpoint/test_nested_dict.py‎
Lines changed: 1 addition & 1 deletion b/‎test/distributed/checkpoint/test_nested_dict.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎test/distributed/checkpoint/test_traverse.py‎
Lines changed: 22 additions & 22 deletions b/‎test/distributed/checkpoint/test_traverse.py‎
Lines changed: 22 additions & 22 deletions
diff --git a/‎…/distributed/checkpoint/dedup_tensors.py‎ ‎…distributed/checkpoint/_dedup_tensors.py‎torch/distributed/checkpoint/dedup_tensors.py renamed to torch/distributed/checkpoint/_dedup_tensors.py b/‎…/distributed/checkpoint/dedup_tensors.py‎ ‎…distributed/checkpoint/_dedup_tensors.py‎torch/distributed/checkpoint/dedup_tensors.py renamed to torch/distributed/checkpoint/_dedup_tensors.py
diff --git a/‎…ch/distributed/checkpoint/nested_dict.py‎ ‎…h/distributed/checkpoint/_nested_dict.py‎torch/distributed/checkpoint/nested_dict.py renamed to torch/distributed/checkpoint/_nested_dict.py
Lines changed: 1 addition & 1 deletion b/‎…ch/distributed/checkpoint/nested_dict.py‎ ‎…h/distributed/checkpoint/_nested_dict.py‎torch/distributed/checkpoint/nested_dict.py renamed to torch/distributed/checkpoint/_nested_dict.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎…/distributed/checkpoint/nested_tensor.py‎ ‎…distributed/checkpoint/_nested_tensor.py‎torch/distributed/checkpoint/nested_tensor.py renamed to torch/distributed/checkpoint/_nested_tensor.py
Lines changed: 1 addition & 1 deletion b/‎…/distributed/checkpoint/nested_tensor.py‎ ‎…distributed/checkpoint/_nested_tensor.py‎torch/distributed/checkpoint/nested_tensor.py renamed to torch/distributed/checkpoint/_nested_tensor.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎torch/distributed/checkpoint/traverse.py‎ ‎torch/distributed/checkpoint/_traverse.py‎torch/distributed/checkpoint/traverse.py renamed to torch/distributed/checkpoint/_traverse.py b/‎torch/distributed/checkpoint/traverse.py‎ ‎torch/distributed/checkpoint/_traverse.py‎torch/distributed/checkpoint/traverse.py renamed to torch/distributed/checkpoint/_traverse.py
@@ -2,7 +2,7 @@
 
 import dataclasses
 import torch
-from torch.distributed.checkpoint.dedup_tensors import dedup_tensors
+from torch.distributed.checkpoint._dedup_tensors import dedup_tensors
 from torch.distributed.checkpoint.planner import SavePlan, WriteItemType
 from torch.distributed.checkpoint.planner_helpers import (
     _create_write_item_for_tensor,
 
@@ -0,0 +1,112 @@
+# Owner(s): ["oncall: distributed"]
+
+import torch
+
+from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
+from torch.distributed.fsdp.fully_sharded_data_parallel import StateDictType
+import torch.distributed.checkpoint as dist_cp
+import torch.distributed as dist
+
+from torch.distributed.checkpoint.default_planner import (
+    DefaultSavePlanner,
+    DefaultLoadPlanner,
+)
+from torch.distributed.checkpoint.optimizer import (
+    load_sharded_optimizer_state_dict,
+)
+
+from torch.testing._internal.distributed._tensor.common_dtensor import (
+    DTensorTestBase,
+    with_comms,
+)
+from torch.testing._internal.common_distributed import skip_if_lt_x_gpu
+from torch.testing._internal.common_utils import run_tests
+from torch.testing._internal.distributed.checkpoint_utils import with_temp_dir
+
+
+class FsdpOptimStateCheckpoint(DTensorTestBase):
+    @with_comms
+    @skip_if_lt_x_gpu(4)
+    @with_temp_dir
+    def test_distributed_tensor_planner(self) -> None:
+        CHECKPOINT_DIR = self.temp_dir
+
+        model = FSDP(torch.nn.Linear(8, 8, device="meta"))
+        optim = torch.optim.Adam(model.parameters(), lr=0.1)
+
+        model(torch.rand(8, 8, device=dist.get_rank())).sum().backward()
+        optim.step()
+
+        with FSDP.state_dict_type(model, StateDictType.SHARDED_STATE_DICT):
+            state_dict = {
+                "model": model.state_dict(),
+                "optim": FSDP.sharded_optim_state_dict(model, optim),
+            }
+
+            dist_cp.save_state_dict(
+                state_dict=state_dict,
+                storage_writer=dist_cp.FileSystemWriter(CHECKPOINT_DIR),
+                planner=DefaultSavePlanner(
+                    flatten_state_dict=True,
+                    flatten_sharded_tensors=True,
+                ),
+            )
+
+        # now load the model and ensure the values are the same
+        model_2 = FSDP(torch.nn.Linear(8, 8, device="meta"))
+        optim_2 = torch.optim.Adam(model_2.parameters(), lr=0.1)
+
+        with FSDP.summon_full_params(model):
+            with FSDP.summon_full_params(model_2):
+                self.assertNotEqual(model.weight, model_2.weight)
+                self.assertNotEqual(model.bias, model_2.bias)
+
+        # Adam lazily creates its state
+        self.assertEqual(0, len(optim_2.state))
+
+        with FSDP.state_dict_type(model_2, StateDictType.SHARDED_STATE_DICT):
+            state_dict = {
+                "model": model_2.state_dict(),
+                # cannot load the optimizer together with the model
+            }
+
+            dist_cp.load_state_dict(
+                state_dict=state_dict,
+                storage_reader=dist_cp.FileSystemReader(CHECKPOINT_DIR),
+                planner=DefaultLoadPlanner(
+                    flatten_state_dict=True,
+                    flatten_sharded_tensors=True,
+                ),
+            )
+            model_2.load_state_dict(state_dict["model"])
+
+            optim_state = load_sharded_optimizer_state_dict(
+                model_state_dict=state_dict["model"],
+                optimizer_key="optim",
+                storage_reader=dist_cp.FileSystemReader(CHECKPOINT_DIR),
+            )
+
+            flattened_osd = FSDP.flatten_sharded_optim_state_dict(
+                optim_state["optim"], model_2
+            )
+            optim_2.load_state_dict(flattened_osd)
+
+        with FSDP.summon_full_params(model):
+            with FSDP.summon_full_params(model_2):
+                self.assertEqual(model.weight, model_2.weight)
+                self.assertEqual(model.bias, model_2.bias)
+
+        def opt_at(opt, idx):
+            return list(iter(opt.state.values()))[idx]
+
+        # Adam lazily creates its state
+        self.assertEqual(
+            opt_at(optim, 0)["exp_avg"], opt_at(optim_2, 0)["exp_avg"]
+        )
+        self.assertEqual(
+            opt_at(optim, 0)["exp_avg_sq"], opt_at(optim_2, 0)["exp_avg_sq"]
+        )
+
+
+if __name__ == "__main__":
+    run_tests()
@@ -2,7 +2,7 @@
 
 import torch
 from torch.testing._internal.common_utils import run_tests, TestCase
-from torch.distributed.checkpoint.nested_dict import (
+from torch.distributed.checkpoint._nested_dict import (
     flatten_state_dict,
     unflatten_state_dict,
 )
 
@@ -3,7 +3,7 @@
 from collections import OrderedDict
 import torch
 
-import torch.distributed.checkpoint.traverse as traverse
+import torch.distributed.checkpoint._traverse as _traverse
 from torch.distributed.checkpoint.metadata import STATE_DICT_TYPE
 from torch.testing._internal.common_utils import run_tests, TestCase
 
@@ -24,7 +24,7 @@ def collect_data(path, value):
             nonlocal data
             data[path] = value
 
-        traverse.traverse_state_dict(state_dict, collect_data)
+        _traverse.traverse_state_dict(state_dict, collect_data)
 
         self.assertIn(("key0",), data)
         self.assertEqual(data[("key0",)], 1)
@@ -53,7 +53,7 @@ def collect_data(path, value):
             nonlocal data
             data[path] = value
 
-        traverse.traverse_state_dict(state_dict, collect_data)
+        _traverse.traverse_state_dict(state_dict, collect_data)
 
         self.assertNotIn(("key1"), data)
 
@@ -84,7 +84,7 @@ def collect_data(path, value):
             nonlocal data
             data[path] = value
 
-        traverse.traverse_state_dict(state_dict, collect_data)
+        _traverse.traverse_state_dict(state_dict, collect_data)
 
         self.assertNotIn(("key0",), data)
 
@@ -105,7 +105,7 @@ def collect_data(path, value):
             nonlocal data
             data[path] = value
 
-        traverse.traverse_state_dict(state_dict, collect_data)
+        _traverse.traverse_state_dict(state_dict, collect_data)
 
         self.assertIn(("key0", 0, "key1", "key2"), data)
         self.assertEqual(
@@ -129,7 +129,7 @@ def collect_data(path, value):
             nonlocal data
             data[path] = value
 
-        traverse.traverse_state_dict(state_dict, collect_data)
+        _traverse.traverse_state_dict(state_dict, collect_data)
 
         self.assertIn(("key0", 0), data)
         self.assertEqual(data[("key0", 0)], 99)
@@ -140,36 +140,36 @@ def collect_data(path, value):
     def test_set_element(self) -> None:
         state_dict: STATE_DICT_TYPE = {}
 
-        traverse.set_element(state_dict, ("k",), 10)
+        _traverse.set_element(state_dict, ("k",), 10)
         self.assertEqual(state_dict["k"], 10)
 
-        traverse.set_element(state_dict, ("k1", 2), 1)
+        _traverse.set_element(state_dict, ("k1", 2), 1)
         self.assertEqual(state_dict["k1"], [None, None, 1])
 
-        traverse.set_element(state_dict, ("k1", 1), 99)
+        _traverse.set_element(state_dict, ("k1", 1), 99)
         self.assertEqual(state_dict["k1"], [None, 99, 1])
 
-        traverse.set_element(state_dict, ("k1", 3), 88)
+        _traverse.set_element(state_dict, ("k1", 3), 88)
         self.assertEqual(state_dict["k1"], [None, 99, 1, 88])
 
-        traverse.set_element(state_dict, ("k2", "k3"), 3)
+        _traverse.set_element(state_dict, ("k2", "k3"), 3)
         self.assertEqual(state_dict["k2"], {"k3": 3})
 
-        traverse.set_element(state_dict, ("k2", "k4", 0, 0), 99)
+        _traverse.set_element(state_dict, ("k2", "k4", 0, 0), 99)
         self.assertEqual(state_dict["k2"]["k4"][0], [99])
 
     def test_get_element(self) -> None:
         state_dict = {"a": [0, 1], "b": [2, {"c": "d"}]}
-        self.assertEqual(traverse.get_element(state_dict, ("a",)), [0, 1])
-        self.assertEqual(traverse.get_element(state_dict, ("b", 0)), 2)
-        self.assertEqual(traverse.get_element(state_dict, ("b", 1, "c")), "d")
-
-        self.assertIsNone(traverse.get_element(state_dict, ("c",)))
-        self.assertIsNone(traverse.get_element(state_dict, ("a", 33)))
-        self.assertIsNone(traverse.get_element(state_dict, ("b", 88)))
-        self.assertIsNone(traverse.get_element(state_dict, ("b", 0, 2)))
-        self.assertIsNone(traverse.get_element(state_dict, ("b", 1, 2)))
-        self.assertIsNone(traverse.get_element(state_dict, ("b", 1, "d")))
+        self.assertEqual(_traverse.get_element(state_dict, ("a",)), [0, 1])
+        self.assertEqual(_traverse.get_element(state_dict, ("b", 0)), 2)
+        self.assertEqual(_traverse.get_element(state_dict, ("b", 1, "c")), "d")
+
+        self.assertIsNone(_traverse.get_element(state_dict, ("c",)))
+        self.assertIsNone(_traverse.get_element(state_dict, ("a", 33)))
+        self.assertIsNone(_traverse.get_element(state_dict, ("b", 88)))
+        self.assertIsNone(_traverse.get_element(state_dict, ("b", 0, 2)))
+        self.assertIsNone(_traverse.get_element(state_dict, ("b", 1, 2)))
+        self.assertIsNone(_traverse.get_element(state_dict, ("b", 1, "d")))
 
 
 if __name__ == "__main__":
 
@@ -5,7 +5,7 @@
     STATE_DICT_TYPE,
 )
 
-from .traverse import (
+from ._traverse import (
     traverse_state_dict,
     set_element,
     OBJ_PATH,
 
@@ -19,7 +19,7 @@
 )
 
 
-from .traverse import (
+from ._traverse import (
     OBJ_PATH,
     traverse_state_dict,
     set_element,
Original file line number	Diff line number	Diff line change
`@@ -2,7 +2,7 @@`
`2`	`2`
`3`	`3`	`import torch`
`4`	`4`	`from torch.testing._internal.common_utils import run_tests, TestCase`
`5`		`-from torch.distributed.checkpoint.nested_dict import (`
	`5`	`+from torch.distributed.checkpoint._nested_dict import (`
`6`	`6`	`flatten_state_dict,`
`7`	`7`	`unflatten_state_dict,`
`8`	`8`	`)`
Original file line number	Diff line number	Diff line change
`@@ -5,7 +5,7 @@`
`5`	`5`	`STATE_DICT_TYPE,`
`6`	`6`	`)`
`7`	`7`
`8`		`-from .traverse import (`
	`8`	`+from ._traverse import (`
`9`	`9`	`traverse_state_dict,`
`10`	`10`	`set_element,`
`11`	`11`	`OBJ_PATH,`
Original file line number	Diff line number	Diff line change
`@@ -19,7 +19,7 @@`
`19`	`19`	`)`
`20`	`20`
`21`	`21`
`22`		`-from .traverse import (`
	`22`	`+from ._traverse import (`
`23`	`23`	`OBJ_PATH,`
`24`	`24`	`traverse_state_dict,`
`25`	`25`	`set_element,`