Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +134 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30a4ece454d0484c4a920e7ebdd5f3fa366db8fd0a3106f2aa04c503f33ebc9e
 size 70430032

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e9eaae6c521bfae3b9d47ed57df548a6761eb1c4fd7666336de33072a97c6db
 size 70430032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85dda73baf9b17ed1e0833d516d10f58c58d6bf0e841053a63b0332a648fde38
-size 36135892

 version https://git-lfs.github.com/spec/v1
+oid sha256:04e3410fd4b44c3e7d011fa2122e549b33ea7e06dbd011798ee30e16ad841ce4
+size 36136276

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf76e0a36aa3484dfebceff927791a6201375ca89f4fca943972b68b791c0b45
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1df72fa71e74de1525fc91f11cb5e2a1f9a332fbd559117fcdd7368b75e72f17
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc33e131fa6defcf31352ebc1dc63541771f8d9732b2772a4a16ecb6c33c3697
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd6612e1be5fc1a945d1a2e93ec2df274cca4c095f65d292f5fd095af43ba016
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.7786412239074707,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.16675931072818231,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -144,6 +144,135 @@
       "eval_samples_per_second": 26.071,
       "eval_steps_per_second": 6.522,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -172,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.10737842241536e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.631667137145996,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.33351862145636463,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.071,
       "eval_steps_per_second": 6.522,
       "step": 150
+    },
+    {
+      "epoch": 0.17787659811006115,
+      "grad_norm": 2.4696974754333496,
+      "learning_rate": 7.396244933600285e-05,
+      "loss": 2.9971,
+      "step": 160
+    },
+    {
+      "epoch": 0.18899388549193996,
+      "grad_norm": 2.099034070968628,
+      "learning_rate": 7.077075065009433e-05,
+      "loss": 2.64,
+      "step": 170
+    },
+    {
+      "epoch": 0.2001111728738188,
+      "grad_norm": 2.41749906539917,
+      "learning_rate": 6.747320897995493e-05,
+      "loss": 2.5229,
+      "step": 180
+    },
+    {
+      "epoch": 0.2112284602556976,
+      "grad_norm": 2.740168333053589,
+      "learning_rate": 6.408662784207149e-05,
+      "loss": 2.4978,
+      "step": 190
+    },
+    {
+      "epoch": 0.22234574763757642,
+      "grad_norm": 3.9902448654174805,
+      "learning_rate": 6.062826447764883e-05,
+      "loss": 2.4716,
+      "step": 200
+    },
+    {
+      "epoch": 0.22234574763757642,
+      "eval_loss": 2.7965714931488037,
+      "eval_runtime": 58.2938,
+      "eval_samples_per_second": 25.989,
+      "eval_steps_per_second": 6.502,
+      "step": 200
+    },
+    {
+      "epoch": 0.23346303501945526,
+      "grad_norm": 2.4260706901550293,
+      "learning_rate": 5.7115741913664264e-05,
+      "loss": 3.0674,
+      "step": 210
+    },
+    {
+      "epoch": 0.24458032240133407,
+      "grad_norm": 2.296048641204834,
+      "learning_rate": 5.3566959159961615e-05,
+      "loss": 2.5382,
+      "step": 220
+    },
+    {
+      "epoch": 0.2556976097832129,
+      "grad_norm": 2.220076084136963,
+      "learning_rate": 5e-05,
+      "loss": 2.4908,
+      "step": 230
+    },
+    {
+      "epoch": 0.2668148971650917,
+      "grad_norm": 2.6584367752075195,
+      "learning_rate": 4.643304084003839e-05,
+      "loss": 2.4995,
+      "step": 240
+    },
+    {
+      "epoch": 0.27793218454697055,
+      "grad_norm": 4.641247749328613,
+      "learning_rate": 4.288425808633575e-05,
+      "loss": 2.3999,
+      "step": 250
+    },
+    {
+      "epoch": 0.27793218454697055,
+      "eval_loss": 2.664534568786621,
+      "eval_runtime": 58.1209,
+      "eval_samples_per_second": 26.066,
+      "eval_steps_per_second": 6.521,
+      "step": 250
+    },
+    {
+      "epoch": 0.28904947192884933,
+      "grad_norm": 2.203540086746216,
+      "learning_rate": 3.937173552235117e-05,
+      "loss": 2.9398,
+      "step": 260
+    },
+    {
+      "epoch": 0.30016675931072817,
+      "grad_norm": 2.368499517440796,
+      "learning_rate": 3.591337215792852e-05,
+      "loss": 2.671,
+      "step": 270
+    },
+    {
+      "epoch": 0.311284046692607,
+      "grad_norm": 2.223212718963623,
+      "learning_rate": 3.2526791020045086e-05,
+      "loss": 2.5258,
+      "step": 280
+    },
+    {
+      "epoch": 0.32240133407448585,
+      "grad_norm": 2.5719311237335205,
+      "learning_rate": 2.9229249349905684e-05,
+      "loss": 2.5361,
+      "step": 290
+    },
+    {
+      "epoch": 0.33351862145636463,
+      "grad_norm": 5.5927734375,
+      "learning_rate": 2.603755066399718e-05,
+      "loss": 2.6185,
+      "step": 300
+    },
+    {
+      "epoch": 0.33351862145636463,
+      "eval_loss": 2.631667137145996,
+      "eval_runtime": 58.1811,
+      "eval_samples_per_second": 26.039,
+      "eval_steps_per_second": 6.514,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.21475684483072e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null