Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +135 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e9eaae6c521bfae3b9d47ed57df548a6761eb1c4fd7666336de33072a97c6db
 size 70430032

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0749e616567c441de21a8f780a2fe546a694a472c032ec2cecf08bd0c41caaf
 size 70430032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04e3410fd4b44c3e7d011fa2122e549b33ea7e06dbd011798ee30e16ad841ce4
 size 36136276

 version https://git-lfs.github.com/spec/v1
+oid sha256:af2666b1367e8bc09e186bef44c77a48b92eaae1bec447e052c58fad78f45429
 size 36136276

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1df72fa71e74de1525fc91f11cb5e2a1f9a332fbd559117fcdd7368b75e72f17
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1e61619ee3e0d780e371e9c2f16191902628bd94427f1904c4a941867269ae0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd6612e1be5fc1a945d1a2e93ec2df274cca4c095f65d292f5fd095af43ba016
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9636ae38b683f4b5b714bdf172e563b0c593e0efe94f07eea78547963bfbfae
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.631667137145996,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.33351862145636463,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -273,6 +273,135 @@
       "eval_samples_per_second": 26.039,
       "eval_steps_per_second": 6.514,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -296,12 +425,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.21475684483072e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.5481436252593994,
+  "best_model_checkpoint": "miner_id_24/checkpoint-450",
+  "epoch": 0.500277932184547,
   "eval_steps": 50,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.039,
       "eval_steps_per_second": 6.514,
       "step": 300
+    },
+    {
+      "epoch": 0.34463590883824347,
+      "grad_norm": 2.796337127685547,
+      "learning_rate": 2.296795912722014e-05,
+      "loss": 2.8393,
+      "step": 310
+    },
+    {
+      "epoch": 0.3557531962201223,
+      "grad_norm": 2.0231237411499023,
+      "learning_rate": 2.0036116674432654e-05,
+      "loss": 2.618,
+      "step": 320
+    },
+    {
+      "epoch": 0.3668704836020011,
+      "grad_norm": 2.365077495574951,
+      "learning_rate": 1.725696330273575e-05,
+      "loss": 2.4884,
+      "step": 330
+    },
+    {
+      "epoch": 0.3779877709838799,
+      "grad_norm": 2.7998952865600586,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 2.4661,
+      "step": 340
+    },
+    {
+      "epoch": 0.38910505836575876,
+      "grad_norm": 5.285836696624756,
+      "learning_rate": 1.2212521282287092e-05,
+      "loss": 2.4799,
+      "step": 350
+    },
+    {
+      "epoch": 0.38910505836575876,
+      "eval_loss": 2.554608106613159,
+      "eval_runtime": 58.252,
+      "eval_samples_per_second": 26.008,
+      "eval_steps_per_second": 6.506,
+      "step": 350
+    },
+    {
+      "epoch": 0.4002223457476376,
+      "grad_norm": 2.282020092010498,
+      "learning_rate": 9.972937953781986e-06,
+      "loss": 2.8128,
+      "step": 360
+    },
+    {
+      "epoch": 0.4113396331295164,
+      "grad_norm": 2.0330328941345215,
+      "learning_rate": 7.937323358440935e-06,
+      "loss": 2.5608,
+      "step": 370
+    },
+    {
+      "epoch": 0.4224569205113952,
+      "grad_norm": 2.1927671432495117,
+      "learning_rate": 6.116050521637218e-06,
+      "loss": 2.4597,
+      "step": 380
+    },
+    {
+      "epoch": 0.43357420789327406,
+      "grad_norm": 2.625332832336426,
+      "learning_rate": 4.5184002322740785e-06,
+      "loss": 2.4138,
+      "step": 390
+    },
+    {
+      "epoch": 0.44469149527515284,
+      "grad_norm": 6.02614164352417,
+      "learning_rate": 3.1525137500119207e-06,
+      "loss": 2.4711,
+      "step": 400
+    },
+    {
+      "epoch": 0.44469149527515284,
+      "eval_loss": 2.5474414825439453,
+      "eval_runtime": 58.1948,
+      "eval_samples_per_second": 26.033,
+      "eval_steps_per_second": 6.513,
+      "step": 400
+    },
+    {
+      "epoch": 0.4558087826570317,
+      "grad_norm": 1.9243777990341187,
+      "learning_rate": 2.0253513192751373e-06,
+      "loss": 2.7744,
+      "step": 410
+    },
+    {
+      "epoch": 0.4669260700389105,
+      "grad_norm": 2.0880160331726074,
+      "learning_rate": 1.1426567014420297e-06,
+      "loss": 2.5643,
+      "step": 420
+    },
+    {
+      "epoch": 0.47804335742078935,
+      "grad_norm": 2.1737356185913086,
+      "learning_rate": 5.089279059533658e-07,
+      "loss": 2.5059,
+      "step": 430
+    },
+    {
+      "epoch": 0.48916064480266813,
+      "grad_norm": 2.5108964443206787,
+      "learning_rate": 1.2739426948732424e-07,
+      "loss": 2.5027,
+      "step": 440
+    },
+    {
+      "epoch": 0.500277932184547,
+      "grad_norm": 5.903077125549316,
+      "learning_rate": 0.0,
+      "loss": 2.5625,
+      "step": 450
+    },
+    {
+      "epoch": 0.500277932184547,
+      "eval_loss": 2.5481436252593994,
+      "eval_runtime": 58.2179,
+      "eval_samples_per_second": 26.023,
+      "eval_steps_per_second": 6.51,
+      "step": 450
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.32213526724608e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null