fix ftperm from checkpoint (official-stockfish#359)

xu-shawn · web-flow · commit 187f1c1bd1e4 · 2025-09-30T20:03:26.000+02:00
* fix ftperm from checkpoint closes official-stockfish#322 * fix bug * also coalesce layerstacks * fix bug
diff --git a/model/__init__.py b/model/__init__.py
@@ -4,7 +4,13 @@
 from .lightning_module import NNUE
 from .model import NNUEModel
 from .quantize import QuantizationConfig
-from .utils import coalesce_ft_weights, load_model, NNUEReader, NNUEWriter
+from .utils import (
+    coalesce_ft_weights,
+    coalesce_ft_weights_inplace,
+    load_model,
+    NNUEReader,
+    NNUEWriter,
+)
 
 
 __all__ = [
@@ -18,6 +24,7 @@
     "NNUEModel",
     "QuantizationConfig",
     "coalesce_ft_weights",
+    "coalesce_ft_weights_inplace",
     "load_model",
     "NNUEReader",
     "NNUEWriter",
diff --git a/model/model.py b/model/model.py
@@ -98,30 +98,46 @@ def forward(self, x: Tensor, ls_indices: Tensor):
 
         return l3x_
 
+    @torch.no_grad()
     def get_coalesced_layer_stacks(
         self,
     ) -> Generator[tuple[nn.Linear, nn.Linear, nn.Linear], None, None]:
         # During training the buckets are represented by a single, wider, layer.
         # This representation needs to be transformed into individual layers
         # for the serializer, because the buckets are interpreted as separate layers.
         for i in range(self.count):
-            with torch.no_grad():
-                l1 = nn.Linear(2 * self.L1 // 2, self.L2 + 1)
-                l2 = nn.Linear(self.L2 * 2, self.L3)
-                output = nn.Linear(self.L3, 1)
-                l1.weight.data = (
-                    self.l1.weight[i * (self.L2 + 1) : (i + 1) * (self.L2 + 1), :]
-                    + self.l1_fact.weight.data
-                )
-                l1.bias.data = (
-                    self.l1.bias[i * (self.L2 + 1) : (i + 1) * (self.L2 + 1)]
-                    + self.l1_fact.bias.data
-                )
-                l2.weight.data = self.l2.weight[i * self.L3 : (i + 1) * self.L3, :]
-                l2.bias.data = self.l2.bias[i * self.L3 : (i + 1) * self.L3]
-                output.weight.data = self.output.weight[i : (i + 1), :]
-                output.bias.data = self.output.bias[i : (i + 1)]
-                yield l1, l2, output
+            l1 = nn.Linear(2 * self.L1 // 2, self.L2 + 1)
+            l2 = nn.Linear(self.L2 * 2, self.L3)
+            output = nn.Linear(self.L3, 1)
+            l1.weight.data = (
+                self.l1.weight[i * (self.L2 + 1) : (i + 1) * (self.L2 + 1), :]
+                + self.l1_fact.weight.data
+            )
+            l1.bias.data = (
+                self.l1.bias[i * (self.L2 + 1) : (i + 1) * (self.L2 + 1)]
+                + self.l1_fact.bias.data
+            )
+            l2.weight.data = self.l2.weight[i * self.L3 : (i + 1) * self.L3, :]
+            l2.bias.data = self.l2.bias[i * self.L3 : (i + 1) * self.L3]
+            output.weight.data = self.output.weight[i : (i + 1), :]
+            output.bias.data = self.output.bias[i : (i + 1)]
+            yield l1, l2, output
+
+    @torch.no_grad()
+    def coalesce_layer_stacks_inplace(self) -> None:
+        # During training the buckets are represented by a single, wider, layer.
+        # This representation needs to be transformed into individual layers
+        # for the serializer, because the buckets are interpreted as separate layers.
+        for i in range(self.count):
+            self.l1.weight[i * (self.L2 + 1) : (i + 1) * (self.L2 + 1), :].add_(
+                self.l1_fact.weight
+            )
+            self.l1.bias[i * (self.L2 + 1) : (i + 1) * (self.L2 + 1)].add_(
+                self.l1_fact.bias
+            )
+
+        self.l1_fact.weight.zero_()
+        self.l1_fact.bias.zero_()
 
 
 class NNUEModel(nn.Module):
diff --git a/model/utils/__init__.py b/model/utils/__init__.py
@@ -1,10 +1,11 @@
-from .coalesce_weights import coalesce_ft_weights
+from .coalesce_weights import coalesce_ft_weights, coalesce_ft_weights_inplace
 from .load_model import load_model
 from .serialize import NNUEReader, NNUEWriter
 
 
 __all__ = [
     "coalesce_ft_weights",
+    "coalesce_ft_weights_inplace",
     "load_model",
     "NNUEReader",
     "NNUEWriter",
diff --git a/model/utils/coalesce_weights.py b/model/utils/coalesce_weights.py
@@ -1,15 +1,32 @@
-from ..model import NNUEModel
+import torch
+
+from ..features import FeatureSet
 from ..feature_transformer import BaseFeatureTransformerSlice
 
 
-def coalesce_ft_weights(model: NNUEModel, layer: BaseFeatureTransformerSlice):
+def coalesce_ft_weights(
+    feature_set: FeatureSet, layer: BaseFeatureTransformerSlice
+) -> torch.Tensor:
     weight = layer.weight.data
-    indices = model.feature_set.get_virtual_to_real_features_gather_indices()
+    indices = feature_set.get_virtual_to_real_features_gather_indices()
     weight_coalesced = weight.new_zeros(
-        (model.feature_set.num_real_features, weight.shape[1])
+        (feature_set.num_real_features, weight.shape[1])
     )
     for i_real, is_virtual in enumerate(indices):
         weight_coalesced[i_real, :] = sum(
             weight[i_virtual, :] for i_virtual in is_virtual
         )
     return weight_coalesced
+
+
+def coalesce_ft_weights_inplace(
+    feature_set: FeatureSet, layer: BaseFeatureTransformerSlice
+) -> None:
+    weight = layer.weight.data
+    indices = feature_set.get_virtual_to_real_features_gather_indices()
+    weight_coalesced = torch.zeros_like(weight)
+    for i_real, is_virtual in enumerate(indices):
+        weight_coalesced[i_real, :] = sum(
+            weight[i_virtual, :] for i_virtual in is_virtual
+        )
+    layer.weight.data = weight_coalesced
diff --git a/model/utils/serialize.py b/model/utils/serialize.py
@@ -146,7 +146,7 @@ def write_feature_transformer(self, model: NNUEModel, ft_compression: str) -> No
 
         bias = layer.bias.data[: model.L1]
 
-        all_weight = coalesce_ft_weights(model, layer)
+        all_weight = coalesce_ft_weights(model.feature_set, layer)
         weight = all_weight[:, : model.L1]
         psqt_weight = all_weight[:, model.L1 :]
 
diff --git a/serialize.py b/serialize.py
@@ -136,6 +136,10 @@ def main():
             if args.device is not None:
                 ftperm.set_cupy_device(args.device)
 
+        if not args.source.endswith(".nnue"):
+            M.coalesce_ft_weights_inplace(nnue.model.feature_set, nnue.model.input)
+            nnue.model.layer_stacks.coalesce_layer_stacks_inplace()
+
         ftperm.ft_optimize(
             nnue.model,
             args.ft_optimize_data,
diff --git a/visualize.py b/visualize.py
@@ -39,12 +39,14 @@ def _process_fig(self, name, fig=None):
 
     def plot_input_weights(self):
         # Coalesce weights and transform them to Numpy domain.
-        weights = M.coalesce_ft_weights(self.model, self.model.input)
+        weights = M.coalesce_ft_weights(self.model.feature_set, self.model.input)
         weights = weights[:, : self.model.L1]
         weights = weights.flatten().numpy()
 
         if self.args.ref_model:
-            ref_weights = M.coalesce_ft_weights(self.ref_model, self.ref_model.input)
+            ref_weights = M.coalesce_ft_weights(
+                self.ref_model.feature_set, self.ref_model.input
+            )
             ref_weights = ref_weights[:, : self.model.L1]
             ref_weights = ref_weights.flatten().numpy()
             weights -= ref_weights
diff --git a/visualize_multi_hist.py b/visualize_multi_hist.py
@@ -88,7 +88,9 @@ def main():
         for m in args.models
     ]
 
-    coalesced_ins = [M.coalesce_ft_weights(model, model.input) for model in models]
+    coalesced_ins = [
+        M.coalesce_ft_weights(model.feature_set, model.input) for model in models
+    ]
     input_weights = [
         coalesced_in[:, : args.l1].flatten().numpy() for coalesced_in in coalesced_ins
     ]

Original file line number	Diff line number	Diff line change
`@@ -88,7 +88,9 @@ def main():`
`88`	`88`	`for m in args.models`
`89`	`89`	`]`
`90`	`90`
`91`		`- coalesced_ins = [M.coalesce_ft_weights(model, model.input) for model in models]`
	`91`	`+ coalesced_ins = [`
	`92`	`+ M.coalesce_ft_weights(model.feature_set, model.input) for model in models`
	`93`	`+ ]`
`92`	`94`	`input_weights = [`
`93`	`95`	`coalesced_in[:, : args.l1].flatten().numpy() for coalesced_in in coalesced_ins`
`94`	`96`	`]`