Merge pull request #5 from martinnovaak/resume-train

martinnovaak · web-flow · commit fafae62ccb63 · 2024-05-10T18:22:11.000+02:00
Add print of startpos eval after each epoch
diff --git a/trainer/config.json b/trainer/config.json
@@ -8,5 +8,6 @@
   "wdl": 0.5,
   "lr_drop_steps" : 4,
   "scale": 400,
-  "hidden_layer_size": 16
+  "hidden_layer_size": 16,
+  "resume_training": false
 }
diff --git a/trainer/main.py b/trainer/main.py
@@ -27,6 +27,7 @@ def load_config(config_path="config.json"):
     wdl = config.get("wdl", 0.5)
     lr_drop_steps = config.get("lr_drop_steps", 10)
     scale = config.get("scale")
+    resume_training = config.get("resume_training", False)
 
     device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
     model = PerspectiveNetwork(config["hidden_layer_size"]).to(device)
@@ -39,7 +40,7 @@ def load_config(config_path="config.json"):
 
     start_time = time()
 
-    train(model, optimizer, dataloader, epochs, lr_drop_steps, device)
+    train(model, optimizer, dataloader, epochs, lr_drop_steps, device, resume_training)
 
     end_time = time()
     elapsed_time = end_time - start_time
diff --git a/trainer/model.py b/trainer/model.py
@@ -31,6 +31,39 @@ def forward(self, batch: Batch):
 
         return torch.sigmoid(self.output_layer(hidden_features))
 
+    def eval(self, fen, device):
+        fen = fen.split(" ")[0]
+        stm_features_dense_tensor = torch.zeros(768, device=device)
+        nstm_features_dense_tensor = torch.zeros(768, device=device)
+
+        for rank_idx, rank in enumerate(fen.split('/')):
+            file_idx = 0
+            for char in rank:
+                if char.isdigit():
+                    file_idx += int(char)
+                else:
+                    sq = 8 * (7 - rank_idx) + file_idx
+                    piece_type = {'p': 0, 'n': 1, 'b': 2, 'r': 3, 'q': 4, 'k': 5}[char.lower()]
+
+                    is_black_piece = char.islower()
+                    piece_color = 1 if is_black_piece else 0
+
+                    stm_features_dense_tensor[piece_color * 384 + piece_type * 64 + sq] = 1
+                    nstm_features_dense_tensor[(1 - piece_color) * 384 + piece_type * 64 + (sq ^ 56)] = 1
+
+                    file_idx += 1
+
+        board_stm = stm_features_dense_tensor.to_dense()
+        board_nstm = nstm_features_dense_tensor.to_dense()
+
+        stm_perspective = self.feature_transformer(board_stm)
+        nstm_perspective = self.feature_transformer(board_nstm)
+
+        hidden_features = torch.cat((stm_perspective, nstm_perspective))
+        hidden_features = self.screlu(hidden_features)
+
+        print(int((torch.special.logit(torch.sigmoid(self.output_layer(hidden_features))) * 400).item()))
+
     def clamp_weights(self):
         self.feature_transformer.weight.data.clamp_(-1.27, 1.27)
         self.output_layer.weight.data.clamp_(-1.27, 1.27)
diff --git a/trainer/train.py b/trainer/train.py
@@ -7,33 +7,58 @@
 
 def print_epoch_stats(epoch, running_loss, iterations, fens, start_time, current_time):
     epoch_time = current_time - start_time
-    message = ("epoch {:<2} | time: {:.2f} s | epoch loss: {:.4f} | speed: {:.2f} pos/s"
+    message = ("\nepoch {:<2} | time: {:.2f} s | epoch loss: {:.4f} | speed: {:.2f} pos/s"
                .format(epoch, epoch_time, running_loss.item() / iterations, fens / epoch_time))
     print(message)
 
-def train(model: torch.nn.Module, optimizer: torch.optim.Optimizer, dataloader: BatchLoader, epochs: int, lr_drop_steps: int, device: torch.device):
+def save_checkpoint(model, optimizer, epoch, loss, filename):
+    checkpoint = {
+        'epoch': epoch,
+        'model_state_dict': model.state_dict(),
+        'optimizer_state_dict': optimizer.state_dict(),
+        'loss': loss,
+    }
+    torch.save(checkpoint, filename)
+
+def load_checkpoint(model, optimizer, filename, resume_training=False):
+    checkpoint = torch.load(filename)
+    model.load_state_dict(checkpoint['model_state_dict'])
+    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
+    epoch = checkpoint['epoch']
+    loss = checkpoint['loss']
+    return model, optimizer, epoch, loss
+
+def train(model: torch.nn.Module, optimizer: torch.optim.Optimizer, dataloader: BatchLoader, epochs: int, lr_drop_steps: int, device: torch.device, resume_training: bool = False):
+    if resume_training:
+        model, optimizer, start_epoch, best_loss = load_checkpoint(model, optimizer, "checkpoint.pth")
+    else:
+        start_epoch = 0
+
     running_loss = torch.zeros(1, device=device)
     epoch_start_time = time()
     iterations = 0
     fens = 0
-    epoch = 0
+    epoch = start_epoch
 
     while epoch < epochs:
         new_epoch, batch = dataloader.next_batch(device)
         if new_epoch:
             epoch += 1
 
-            if epoch % lr_drop_steps == 0:
-                optimizer.param_groups[0]["lr"] *= 0.1
-
             current_time = time()
             print_epoch_stats(epoch, running_loss, iterations, fens, epoch_start_time, current_time)
 
+            if epoch % lr_drop_steps == 0:
+                optimizer.param_groups[0]["lr"] *= 0.1
+                print("LR dropped")
+
             running_loss = torch.zeros(1, device=device)
             epoch_start_time = current_time
             iterations = 0
             fens = 0
 
+            model.eval("rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR", device)
+
             quantize(model, f"network/nnue_{epoch}_scaled.bin")
 
         optimizer.zero_grad()
@@ -47,3 +72,6 @@ def train(model: torch.nn.Module, optimizer: torch.optim.Optimizer, dataloader:
         running_loss += loss
         iterations += 1
         fens += batch.size
+
+        if fens % 163_840 == 0:
+            print("\rTotal fens parsed in this epoch:", fens, end='', flush=True)

Original file line number	Diff line number	Diff line change
`@@ -8,5 +8,6 @@`
`8`	`8`	`"wdl": 0.5,`
`9`	`9`	`"lr_drop_steps" : 4,`
`10`	`10`	`"scale": 400,`
`11`		`- "hidden_layer_size": 16`
	`11`	`+ "hidden_layer_size": 16,`
	`12`	`+ "resume_training": false`
`12`	`13`	`}`