FauziAkram
diff --git a/‎cross_check_eval.py‎
Lines changed: 9 additions & 6 deletions b/‎cross_check_eval.py‎
Lines changed: 9 additions & 6 deletions
diff --git a/‎data_loader/stream.py‎
Lines changed: 1 addition & 1 deletion b/‎data_loader/stream.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎features/__init__.py‎
Lines changed: 0 additions & 9 deletions b/‎features/__init__.py‎
Lines changed: 0 additions & 9 deletions
diff --git a/‎ftperm.py‎
Lines changed: 17 additions & 14 deletions b/‎ftperm.py‎
Lines changed: 17 additions & 14 deletions
diff --git a/‎model/__init__.py‎
Lines changed: 15 additions & 0 deletions b/‎model/__init__.py‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎model/callbacks.py‎
Lines changed: 12 additions & 0 deletions b/‎model/callbacks.py‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎model/config.py‎
Lines changed: 22 additions & 0 deletions b/‎model/config.py‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎feature_transformer.py‎ ‎model/feature_transformer.py‎feature_transformer.py renamed to model/feature_transformer.py b/‎feature_transformer.py‎ ‎model/feature_transformer.py‎feature_transformer.py renamed to model/feature_transformer.py
diff --git a/‎model/lightning_module.py‎
Lines changed: 154 additions & 0 deletions b/‎model/lightning_module.py‎
Lines changed: 154 additions & 0 deletions
@@ -7,13 +7,13 @@
 import features
 import serialize
 import data_loader
-from model import NNUE
-from features.feature_set import FeatureSet
+from model import NNUE, ModelConfig
+from features import FeatureSet
 
 
-def read_model(nnue_path, feature_set: FeatureSet):
+def read_model(nnue_path, feature_set: FeatureSet, config: ModelConfig):
     with open(nnue_path, "rb") as f:
-        reader = serialize.NNUEReader(f, feature_set)
+        reader = serialize.NNUEReader(f, feature_set, config)
         return reader.model
 
 
@@ -164,16 +164,19 @@ def main():
     parser.add_argument(
         "--count", type=int, default=100, help="number of datapoints to process"
     )
+    parser.add_argument("--l1", type=int, default=ModelConfig().L1)
     features.add_argparse_args(parser)
     args = parser.parse_args()
 
     batch_size = 1000
 
     feature_set = features.get_feature_set_from_name(args.features)
     if args.checkpoint:
-        model = NNUE.load_from_checkpoint(args.checkpoint, feature_set=feature_set)
+        model = NNUE.load_from_checkpoint(
+            args.checkpoint, feature_set=feature_set, config=ModelConfig(L1=args.l1)
+        )
     else:
-        model = read_model(args.net, feature_set)
+        model = read_model(args.net, feature_set, ModelConfig(L1=args.l1))
     model.eval()
     fen_batch_provider = make_fen_batch_provider(args.data, batch_size)
 
 
@@ -2,7 +2,7 @@
 
 from ._native import c_lib, SparseBatchPtr, FenBatchPtr
 from .config import CDataloaderSkipConfig, DataloaderSkipConfig
-from features.feature_set import FeatureSet
+from features import FeatureSet
 
 
 def _to_c_str_array(str_list):
 
@@ -1,7 +1,4 @@
-import argparse
-
 from .feature_set import FeatureSet
-import model as M
 
 """
 Each module that defines feature blocks must be imported here and
@@ -16,11 +13,6 @@
 _feature_blocks_by_name = dict()
 
 
-class SetNetworkSize(argparse.Action):
-    def __call__(self, parser, namespace, values, option_string=None):
-        M.L1 = int(values)
-
-
 def _add_feature_block(feature_block_cls):
     feature_block = feature_block_cls()
     _feature_blocks_by_name[feature_block.name] = feature_block
@@ -59,7 +51,6 @@ def add_argparse_args(parser):
         help='The feature set to use. Can be a union of feature blocks (for example P+HalfKP). "^" denotes a factorized block. Currently available feature blocks are: '
         + ", ".join(get_available_feature_blocks_names()),
     )
-    parser.add_argument("--l1", type=int, default=M.L1, action=SetNetworkSize)
 
 
 def _init():
 
@@ -43,8 +43,8 @@
 
 import data_loader
 import model as M
-from model import NNUE
-from features.feature_set import FeatureSet
+from model import NNUE, NNUEModel, ModelConfig
+from features import FeatureSet
 
 
 """
@@ -341,14 +341,14 @@ def make_swaps_3(actmat, use_cupy=True):
     return cycles, total_improvement
 
 
-def find_perm_impl(actmat, use_cupy):
+def find_perm_impl(actmat, use_cupy, L1: int):
     actmat = np.reshape(actmat, (actmat.shape[0] * 2, actmat.shape[1] // 2))
     if use_cupy:
         actmat = cp.asarray(actmat, dtype=cp.int8)
     actmat_orig = actmat.copy()
 
     total_score_change = 0
-    perm = np.arange(M.L1 // 2)
+    perm = np.arange(L1 // 2)
 
     stages = [make_swaps_2, make_swaps_3]
     # The optimization routines are deterministic, so no need to retry.
@@ -396,9 +396,9 @@ def find_perm_impl(actmat, use_cupy):
 # -------------------------------------------------------------
 
 
-def read_model(nnue_path, feature_set: FeatureSet):
+def read_model(nnue_path, feature_set: FeatureSet, config: ModelConfig):
     with open(nnue_path, "rb") as f:
-        reader = serialize.NNUEReader(f, feature_set)
+        reader = serialize.NNUEReader(f, feature_set, config)
         return reader.model
 
 
@@ -441,12 +441,12 @@ def forward_ft(
     layer_stack_indices,
 ):
     wp, bp = model.input(white_indices, white_values, black_indices, black_values)
-    w, wpsqt = torch.split(wp, M.L1, dim=1)
-    b, bpsqt = torch.split(bp, M.L1, dim=1)
+    w, _ = torch.split(wp, model.L1, dim=1)
+    b, _ = torch.split(bp, model.L1, dim=1)
     l0_ = (us * torch.cat([w, b], dim=1)) + (them * torch.cat([b, w], dim=1))
     l0_ = torch.clamp(l0_, 0.0, 127.0)
 
-    l0_s = torch.split(l0_, M.L1 // 2, dim=1)
+    l0_s = torch.split(l0_, model.L1 // 2, dim=1)
     l0_s1 = [l0_s[0] * l0_s[1], l0_s[2] * l0_s[3]]
     # We multiply by 127/128 because in the quantized network 1.0 is represented by 127
     # and it's more efficient to divide by 128 instead.
@@ -551,9 +551,11 @@ def gather_impl(model, dataset, count):
 def command_gather(args):
     feature_set = features.get_feature_set_from_name(args.features)
     if args.checkpoint:
-        model = NNUE.load_from_checkpoint(args.checkpoint, feature_set=feature_set)
+        model = NNUE.load_from_checkpoint(
+            args.checkpoint, feature_set=feature_set, config=ModelConfig(L1=args.l1)
+        )
     else:
-        model = read_model(args.net, feature_set)
+        model = read_model(args.net, feature_set, ModelConfig(L1=args.l1))
 
     model.eval()
 
@@ -600,13 +602,13 @@ def command_find_perm(args):
 
     perm = find_perm_impl(actmat, args.use_cupy)
 
-    # perm = np.random.permutation([i for i in range(M.L1)])
+    # perm = np.random.permutation([i for i in range(L1)])
     with open(args.out, "wb") as file:
         np.save(file, perm)
 
 
 def ft_optimize(
-    model,
+    model: NNUEModel,
     dataset_path,
     count,
     actmat_save_path=None,
@@ -620,7 +622,7 @@ def ft_optimize(
             np.save(file, actmat)
 
     print("Finding permutation...")
-    perm = find_perm_impl(actmat, use_cupy)
+    perm = find_perm_impl(actmat, use_cupy, model.L1)
     if actmat_save_path is not None:
         with open(perm_save_path, "wb") as file:
             np.save(file, perm)
@@ -666,6 +668,7 @@ def main():
     parser_gather.add_argument(
         "--out", type=str, help="Filename under which to save the resulting ft matrix"
     )
+    parser_gather.add_argument("--l1", type=int, default=M.ModelConfig().L1)
     features.add_argparse_args(parser_gather)
     parser_gather.set_defaults(func=command_gather)
 
 
@@ -0,0 +1,15 @@
+from .callbacks import WeightClippingCallback
+from .config import ModelConfig, LossParams
+from .lightning_module import NNUE
+from .model import NNUEModel
+from .utils import coalesce_ft_weights
+
+
+__all__ = [
+    "WeightClippingCallback",
+    "ModelConfig",
+    "LossParams",
+    "NNUE",
+    "NNUEModel",
+    "coalesce_ft_weights",
+]
@@ -0,0 +1,12 @@
+import lightning as L
+
+
+class WeightClippingCallback(L.Callback):
+    def on_train_batch_start(
+        self,
+        trainer: L.Trainer,
+        pl_module: L.LightningModule,
+        batch,
+        batch_idx: int,
+    ) -> None:
+        pl_module.model.clip_weights()
@@ -0,0 +1,22 @@
+from dataclasses import dataclass
+
+
+# 3 layer fully connected network
+@dataclass
+class ModelConfig:
+    L1: int = 3072
+    L2: int = 15
+    L3: int = 32
+
+
+# parameters needed for the definition of the loss
+@dataclass
+class LossParams:
+    in_offset: float = 270
+    out_offset: float = 270
+    in_scaling: float = 340
+    out_scaling: float = 380
+    start_lambda: float = 1.0
+    end_lambda: float = 1.0
+    pow_exp: float = 2.5
+    qp_asymmetry: float = 0.0
@@ -0,0 +1,154 @@
+import lightning as L
+import ranger21
+import torch
+from torch import Tensor
+
+from features import FeatureSet
+from .config import LossParams, ModelConfig
+from .model import NNUEModel
+from .utils import get_parameters
+
+
+class NNUE(L.LightningModule):
+    """
+    feature_set - an instance of FeatureSet defining the input features
+
+    lambda_ = 0.0 - purely based on game results
+    0.0 < lambda_ < 1.0 - interpolated score and result
+    lambda_ = 1.0 - purely based on search scores
+
+    gamma - the multiplicative factor applied to the learning rate after each epoch
+
+    lr - the initial learning rate
+    """
+
+    def __init__(
+        self,
+        feature_set: FeatureSet,
+        config: ModelConfig,
+        max_epoch=800,
+        num_batches_per_epoch=int(100_000_000 / 16384),
+        gamma=0.992,
+        lr=8.75e-4,
+        param_index=0,
+        num_psqt_buckets=8,
+        num_ls_buckets=8,
+        loss_params=LossParams(),
+    ):
+        super().__init__()
+        self.model: NNUEModel = NNUEModel(
+            feature_set, config, num_psqt_buckets, num_ls_buckets
+        )
+        self.loss_params = loss_params
+        self.max_epoch = max_epoch
+        self.num_batches_per_epoch = num_batches_per_epoch
+        self.gamma = gamma
+        self.lr = lr
+        self.param_index = param_index
+
+    def forward(self, *args, **kwargs):
+        return self.model(*args, **kwargs)
+
+    def step_(self, batch: tuple[Tensor, ...], batch_idx, loss_type):
+        _ = batch_idx  # unused, but required by pytorch-lightning
+
+        (
+            us,
+            them,
+            white_indices,
+            white_values,
+            black_indices,
+            black_values,
+            outcome,
+            score,
+            psqt_indices,
+            layer_stack_indices,
+        ) = batch
+
+        scorenet = (
+            self.model(
+                us,
+                them,
+                white_indices,
+                white_values,
+                black_indices,
+                black_values,
+                psqt_indices,
+                layer_stack_indices,
+            )
+            * self.model.nnue2score
+        )
+
+        p = self.loss_params
+        # convert the network and search scores to an estimate match result
+        # based on the win_rate_model, with scalings and offsets optimized
+        q = (scorenet - p.in_offset) / p.in_scaling
+        qm = (-scorenet - p.in_offset) / p.in_scaling
+        qf = 0.5 * (1.0 + q.sigmoid() - qm.sigmoid())
+
+        s = (score - p.out_offset) / p.out_scaling
+        sm = (-score - p.out_offset) / p.out_scaling
+        pf = 0.5 * (1.0 + s.sigmoid() - sm.sigmoid())
+
+        # blend that eval based score with the actual game outcome
+        t = outcome
+        actual_lambda = p.start_lambda + (p.end_lambda - p.start_lambda) * (
+            self.current_epoch / self.max_epoch
+        )
+        pt = pf * actual_lambda + t * (1.0 - actual_lambda)
+
+        # use a MSE-like loss function
+        loss = torch.pow(torch.abs(pt - qf), p.pow_exp)
+        if p.qp_asymmetry != 0.0:
+            loss = loss * ((qf > pt) * p.qp_asymmetry + 1)
+        loss = loss.mean()
+
+        self.log(loss_type, loss)
+
+        return loss
+
+    def training_step(self, batch, batch_idx):
+        return self.step_(batch, batch_idx, "train_loss")
+
+    def validation_step(self, batch, batch_idx):
+        self.step_(batch, batch_idx, "val_loss")
+
+    def test_step(self, batch, batch_idx):
+        self.step_(batch, batch_idx, "test_loss")
+
+    def configure_optimizers(self):
+        LR = self.lr
+        train_params = [
+            {"params": get_parameters([self.model.input]), "lr": LR, "gc_dim": 0},
+            {"params": [self.model.layer_stacks.l1_fact.weight], "lr": LR},
+            {"params": [self.model.layer_stacks.l1_fact.bias], "lr": LR},
+            {"params": [self.model.layer_stacks.l1.weight], "lr": LR},
+            {"params": [self.model.layer_stacks.l1.bias], "lr": LR},
+            {"params": [self.model.layer_stacks.l2.weight], "lr": LR},
+            {"params": [self.model.layer_stacks.l2.bias], "lr": LR},
+            {"params": [self.model.layer_stacks.output.weight], "lr": LR},
+            {"params": [self.model.layer_stacks.output.bias], "lr": LR},
+        ]
+
+        optimizer = ranger21.Ranger21(
+            train_params,
+            lr=1.0,
+            betas=(0.9, 0.999),
+            eps=1.0e-7,
+            using_gc=False,
+            using_normgc=False,
+            weight_decay=0.0,
+            num_batches_per_epoch=self.num_batches_per_epoch,
+            num_epochs=self.max_epoch,
+            warmdown_active=False,
+            use_warmup=False,
+            use_adaptive_gradient_clipping=False,
+            softplus=False,
+            pnm_momentum_factor=0.0,
+        )
+
+        scheduler = torch.optim.lr_scheduler.StepLR(
+            optimizer, step_size=1, gamma=self.gamma
+        )
+
+        return [optimizer], [scheduler]