Upload 13 files

Browse files

Files changed (7) hide show

README.md +7 -7
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +183 -183
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -5,19 +5,19 @@ base_model: agentlans/deberta-v3-base-zyda-2
 tags:
 - generated_from_trainer
 model-index:
-- name: deberta-v3-base-zyda-2-readability
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# deberta-v3-base-zyda-2-readability
 This model is a fine-tuned version of [agentlans/deberta-v3-base-zyda-2](https://huggingface.co/agentlans/deberta-v3-base-zyda-2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7407
-- Mse: 0.7407
 ## Model description
@@ -48,9 +48,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step  | Validation Loss | Mse    |
 |:-------------:|:-----:|:-----:|:---------------:|:------:|
-| 0.6839        | 1.0   | 13589 | 1.0938          | 1.0938 |
-| 0.5281        | 2.0   | 27178 | 0.7477          | 0.7477 |
-| 0.4484        | 3.0   | 40767 | 0.7407          | 0.7407 |
 ### Framework versions

 tags:
 - generated_from_trainer
 model-index:
+- name: deberta-v3-base-zyda-2-transformed-readability
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# deberta-v3-base-zyda-2-transformed-readability
 This model is a fine-tuned version of [agentlans/deberta-v3-base-zyda-2](https://huggingface.co/agentlans/deberta-v3-base-zyda-2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0267
+- Mse: 0.0267
 ## Model description
 | Training Loss | Epoch | Step  | Validation Loss | Mse    |
 |:-------------:|:-----:|:-----:|:---------------:|:------:|
+| 0.0288        | 1.0   | 13589 | 0.0286          | 0.0286 |
+| 0.023         | 2.0   | 27178 | 0.0272          | 0.0272 |
+| 0.0189        | 3.0   | 40767 | 0.0267          | 0.0267 |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 3.0,
-    "eval_loss": 0.7406834363937378,
-    "eval_mse": 0.7406833936714095,
-    "eval_runtime": 76.9379,
     "eval_samples": 50000,
-    "eval_samples_per_second": 649.875,
-    "eval_steps_per_second": 81.234,
     "total_flos": 1.7161499914378214e+17,
-    "train_loss": 0.702953228300284,
-    "train_runtime": 12856.1609,
     "train_samples": 869663,
-    "train_samples_per_second": 202.937,
-    "train_steps_per_second": 3.171
 }

 {
     "epoch": 3.0,
+    "eval_loss": 0.0266929492354393,
+    "eval_mse": 0.026692949063357767,
+    "eval_runtime": 80.8621,
     "eval_samples": 50000,
+    "eval_samples_per_second": 618.336,
+    "eval_steps_per_second": 77.292,
     "total_flos": 1.7161499914378214e+17,
+    "train_loss": 0.026733717791019525,
+    "train_runtime": 12981.5942,
     "train_samples": 869663,
+    "train_samples_per_second": 200.976,
+    "train_steps_per_second": 3.14
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
-    "eval_loss": 0.7406834363937378,
-    "eval_mse": 0.7406833936714095,
-    "eval_runtime": 76.9379,
     "eval_samples": 50000,
-    "eval_samples_per_second": 649.875,
-    "eval_steps_per_second": 81.234
 }

 {
     "epoch": 3.0,
+    "eval_loss": 0.0266929492354393,
+    "eval_mse": 0.026692949063357767,
+    "eval_runtime": 80.8621,
     "eval_samples": 50000,
+    "eval_samples_per_second": 618.336,
+    "eval_steps_per_second": 77.292
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53bf4ffe628aa3961a9fdab80547f51c481cda969333051ab370f1d027ee347b
 size 737716196

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd7ee0b4f3b36635420950278424e552045bef8f1ac02256a55d5a26b486a5ba
 size 737716196

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
     "total_flos": 1.7161499914378214e+17,
-    "train_loss": 0.702953228300284,
-    "train_runtime": 12856.1609,
     "train_samples": 869663,
-    "train_samples_per_second": 202.937,
-    "train_steps_per_second": 3.171
 }

 {
     "epoch": 3.0,
     "total_flos": 1.7161499914378214e+17,
+    "train_loss": 0.026733717791019525,
+    "train_runtime": 12981.5942,
     "train_samples": 869663,
+    "train_samples_per_second": 200.976,
+    "train_steps_per_second": 3.14
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.7406834363937378,
-  "best_model_checkpoint": "deberta-v3-base-zyda-2-readability/checkpoint-40767",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 40767,
@@ -10,606 +10,606 @@
   "log_history": [
     {
       "epoch": 0.03679446611229671,
-      "grad_norm": 22.72686767578125,
       "learning_rate": 4.9386758898128385e-05,
-      "loss": 6.5572,
       "step": 500
     },
     {
       "epoch": 0.07358893222459342,
-      "grad_norm": 42.41002655029297,
       "learning_rate": 4.877351779625678e-05,
-      "loss": 1.3129,
       "step": 1000
     },
     {
       "epoch": 0.11038339833689013,
-      "grad_norm": 13.57180404663086,
       "learning_rate": 4.8160276694385164e-05,
-      "loss": 1.099,
       "step": 1500
     },
     {
       "epoch": 0.14717786444918685,
-      "grad_norm": 15.051002502441406,
       "learning_rate": 4.754703559251355e-05,
-      "loss": 0.9744,
       "step": 2000
     },
     {
       "epoch": 0.18397233056148354,
-      "grad_norm": 20.83298683166504,
       "learning_rate": 4.693379449064194e-05,
-      "loss": 0.9412,
       "step": 2500
     },
     {
       "epoch": 0.22076679667378027,
-      "grad_norm": 20.301353454589844,
       "learning_rate": 4.632055338877033e-05,
-      "loss": 0.8845,
       "step": 3000
     },
     {
       "epoch": 0.257561262786077,
-      "grad_norm": 4.867860317230225,
       "learning_rate": 4.570731228689872e-05,
-      "loss": 0.8894,
       "step": 3500
     },
     {
       "epoch": 0.2943557288983737,
-      "grad_norm": 11.473809242248535,
       "learning_rate": 4.509407118502711e-05,
-      "loss": 0.8605,
       "step": 4000
     },
     {
       "epoch": 0.3311501950106704,
-      "grad_norm": 47.68638610839844,
       "learning_rate": 4.448083008315549e-05,
-      "loss": 1.2506,
       "step": 4500
     },
     {
       "epoch": 0.3679446611229671,
-      "grad_norm": 17.02402687072754,
       "learning_rate": 4.386758898128389e-05,
-      "loss": 1.0712,
       "step": 5000
     },
     {
       "epoch": 0.40473912723526384,
-      "grad_norm": 13.133755683898926,
       "learning_rate": 4.325434787941227e-05,
-      "loss": 0.7953,
       "step": 5500
     },
     {
       "epoch": 0.44153359334756054,
-      "grad_norm": 11.83011245727539,
       "learning_rate": 4.264110677754066e-05,
-      "loss": 0.7575,
       "step": 6000
     },
     {
       "epoch": 0.47832805945985724,
-      "grad_norm": 24.706212997436523,
       "learning_rate": 4.202786567566905e-05,
-      "loss": 0.7491,
       "step": 6500
     },
     {
       "epoch": 0.515122525572154,
-      "grad_norm": 16.181684494018555,
       "learning_rate": 4.141462457379743e-05,
-      "loss": 1.0325,
       "step": 7000
     },
     {
       "epoch": 0.5519169916844506,
-      "grad_norm": 14.158419609069824,
       "learning_rate": 4.080138347192582e-05,
-      "loss": 1.082,
       "step": 7500
     },
     {
       "epoch": 0.5887114577967474,
-      "grad_norm": 34.472206115722656,
       "learning_rate": 4.018814237005421e-05,
-      "loss": 1.2578,
       "step": 8000
     },
     {
       "epoch": 0.625505923909044,
-      "grad_norm": 18.01128578186035,
       "learning_rate": 3.95749012681826e-05,
-      "loss": 0.76,
       "step": 8500
     },
     {
       "epoch": 0.6623003900213408,
-      "grad_norm": 9.049446105957031,
       "learning_rate": 3.896166016631099e-05,
-      "loss": 0.7493,
       "step": 9000
     },
     {
       "epoch": 0.6990948561336375,
-      "grad_norm": 112.888427734375,
       "learning_rate": 3.834841906443938e-05,
-      "loss": 0.7287,
       "step": 9500
     },
     {
       "epoch": 0.7358893222459342,
-      "grad_norm": 55.44353485107422,
       "learning_rate": 3.773517796256776e-05,
-      "loss": 0.7615,
       "step": 10000
     },
     {
       "epoch": 0.7726837883582309,
-      "grad_norm": 18.046951293945312,
       "learning_rate": 3.712193686069616e-05,
-      "loss": 0.7182,
       "step": 10500
     },
     {
       "epoch": 0.8094782544705277,
-      "grad_norm": 6.221084117889404,
       "learning_rate": 3.650869575882454e-05,
-      "loss": 0.6961,
       "step": 11000
     },
     {
       "epoch": 0.8462727205828243,
-      "grad_norm": 19.79126739501953,
       "learning_rate": 3.589545465695293e-05,
-      "loss": 0.6857,
       "step": 11500
     },
     {
       "epoch": 0.8830671866951211,
-      "grad_norm": 11.714865684509277,
       "learning_rate": 3.528221355508132e-05,
-      "loss": 0.6733,
       "step": 12000
     },
     {
       "epoch": 0.9198616528074177,
-      "grad_norm": 19.167461395263672,
       "learning_rate": 3.466897245320971e-05,
-      "loss": 0.6798,
       "step": 12500
     },
     {
       "epoch": 0.9566561189197145,
-      "grad_norm": 9.230766296386719,
       "learning_rate": 3.405573135133809e-05,
-      "loss": 0.6825,
       "step": 13000
     },
     {
       "epoch": 0.9934505850320112,
-      "grad_norm": 13.260143280029297,
       "learning_rate": 3.344249024946648e-05,
-      "loss": 0.6839,
       "step": 13500
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.0938260555267334,
-      "eval_mse": 1.0938261270842415,
-      "eval_runtime": 82.8373,
-      "eval_samples_per_second": 603.593,
-      "eval_steps_per_second": 75.449,
       "step": 13589
     },
     {
       "epoch": 1.030245051144308,
-      "grad_norm": 7.3761396408081055,
       "learning_rate": 3.282924914759487e-05,
-      "loss": 0.6166,
       "step": 14000
     },
     {
       "epoch": 1.0670395172566045,
-      "grad_norm": 3.998417854309082,
       "learning_rate": 3.221600804572326e-05,
-      "loss": 0.5892,
       "step": 14500
     },
     {
       "epoch": 1.1038339833689013,
-      "grad_norm": 7.822746753692627,
       "learning_rate": 3.160276694385165e-05,
-      "loss": 0.5916,
       "step": 15000
     },
     {
       "epoch": 1.140628449481198,
-      "grad_norm": 5.118077278137207,
       "learning_rate": 3.098952584198003e-05,
-      "loss": 0.593,
       "step": 15500
     },
     {
       "epoch": 1.1774229155934948,
-      "grad_norm": 6.34403133392334,
       "learning_rate": 3.0376284740108423e-05,
-      "loss": 0.6,
       "step": 16000
     },
     {
       "epoch": 1.2142173817057915,
-      "grad_norm": 28.41265296936035,
       "learning_rate": 2.976304363823681e-05,
-      "loss": 0.589,
       "step": 16500
     },
     {
       "epoch": 1.2510118478180883,
-      "grad_norm": 28.579113006591797,
       "learning_rate": 2.91498025363652e-05,
-      "loss": 0.5984,
       "step": 17000
     },
     {
       "epoch": 1.2878063139303848,
-      "grad_norm": 8.48458480834961,
       "learning_rate": 2.8536561434493587e-05,
-      "loss": 0.5795,
       "step": 17500
     },
     {
       "epoch": 1.3246007800426816,
-      "grad_norm": 15.21429443359375,
       "learning_rate": 2.7923320332621977e-05,
-      "loss": 0.587,
       "step": 18000
     },
     {
       "epoch": 1.3613952461549783,
-      "grad_norm": 5.001615047454834,
       "learning_rate": 2.7310079230750363e-05,
-      "loss": 0.592,
       "step": 18500
     },
     {
       "epoch": 1.398189712267275,
-      "grad_norm": 14.064582824707031,
       "learning_rate": 2.6696838128878755e-05,
-      "loss": 0.5892,
       "step": 19000
     },
     {
       "epoch": 1.4349841783795716,
-      "grad_norm": 4.501893997192383,
       "learning_rate": 2.6083597027007138e-05,
-      "loss": 0.5849,
       "step": 19500
     },
     {
       "epoch": 1.4717786444918683,
-      "grad_norm": 15.239348411560059,
       "learning_rate": 2.5470355925135524e-05,
-      "loss": 0.5799,
       "step": 20000
     },
     {
       "epoch": 1.508573110604165,
-      "grad_norm": 19.09524154663086,
       "learning_rate": 2.4857114823263916e-05,
-      "loss": 0.556,
       "step": 20500
     },
     {
       "epoch": 1.5453675767164619,
-      "grad_norm": 13.683536529541016,
       "learning_rate": 2.4243873721392306e-05,
-      "loss": 0.58,
       "step": 21000
     },
     {
       "epoch": 1.5821620428287586,
-      "grad_norm": 10.286214828491211,
       "learning_rate": 2.3630632619520692e-05,
-      "loss": 0.5485,
       "step": 21500
     },
     {
       "epoch": 1.6189565089410554,
-      "grad_norm": 23.011327743530273,
       "learning_rate": 2.301739151764908e-05,
-      "loss": 0.555,
       "step": 22000
     },
     {
       "epoch": 1.6557509750533521,
-      "grad_norm": 4.562350273132324,
       "learning_rate": 2.2404150415777467e-05,
-      "loss": 0.5543,
       "step": 22500
     },
     {
       "epoch": 1.6925454411656486,
-      "grad_norm": 6.733220100402832,
       "learning_rate": 2.1790909313905856e-05,
-      "loss": 0.5579,
       "step": 23000
     },
     {
       "epoch": 1.7293399072779454,
-      "grad_norm": 10.043594360351562,
       "learning_rate": 2.1177668212034242e-05,
-      "loss": 0.5484,
       "step": 23500
     },
     {
       "epoch": 1.7661343733902422,
-      "grad_norm": 26.73402976989746,
       "learning_rate": 2.056442711016263e-05,
-      "loss": 0.5553,
       "step": 24000
     },
     {
       "epoch": 1.8029288395025387,
-      "grad_norm": 37.953338623046875,
       "learning_rate": 1.995118600829102e-05,
-      "loss": 0.5412,
       "step": 24500
     },
     {
       "epoch": 1.8397233056148354,
-      "grad_norm": 24.06332015991211,
       "learning_rate": 1.933794490641941e-05,
-      "loss": 0.5412,
       "step": 25000
     },
     {
       "epoch": 1.8765177717271322,
-      "grad_norm": 14.054511070251465,
       "learning_rate": 1.8724703804547796e-05,
-      "loss": 0.539,
       "step": 25500
     },
     {
       "epoch": 1.913312237839429,
-      "grad_norm": 6.154812335968018,
       "learning_rate": 1.8111462702676185e-05,
-      "loss": 0.5343,
       "step": 26000
     },
     {
       "epoch": 1.9501067039517257,
-      "grad_norm": 9.982664108276367,
       "learning_rate": 1.7498221600804575e-05,
-      "loss": 0.5404,
       "step": 26500
     },
     {
       "epoch": 1.9869011700640224,
-      "grad_norm": 4.059072017669678,
       "learning_rate": 1.688498049893296e-05,
-      "loss": 0.5281,
       "step": 27000
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.7477120161056519,
-      "eval_mse": 0.7477119884569656,
-      "eval_runtime": 81.1709,
-      "eval_samples_per_second": 615.984,
-      "eval_steps_per_second": 76.998,
       "step": 27178
     },
     {
       "epoch": 2.023695636176319,
-      "grad_norm": 4.173586368560791,
       "learning_rate": 1.627173939706135e-05,
-      "loss": 0.4911,
       "step": 27500
     },
     {
       "epoch": 2.060490102288616,
-      "grad_norm": 10.17249584197998,
       "learning_rate": 1.565849829518974e-05,
-      "loss": 0.4734,
       "step": 28000
     },
     {
       "epoch": 2.0972845684009127,
-      "grad_norm": 30.416034698486328,
       "learning_rate": 1.5045257193318127e-05,
-      "loss": 0.473,
       "step": 28500
     },
     {
       "epoch": 2.134079034513209,
-      "grad_norm": 8.076013565063477,
       "learning_rate": 1.4432016091446513e-05,
-      "loss": 0.4683,
       "step": 29000
     },
     {
       "epoch": 2.1708735006255058,
-      "grad_norm": 4.578775405883789,
       "learning_rate": 1.38187749895749e-05,
-      "loss": 0.4629,
       "step": 29500
     },
     {
       "epoch": 2.2076679667378025,
-      "grad_norm": 6.670838356018066,
       "learning_rate": 1.320553388770329e-05,
-      "loss": 0.4682,
       "step": 30000
     },
     {
       "epoch": 2.2444624328500993,
-      "grad_norm": 20.175901412963867,
       "learning_rate": 1.2592292785831677e-05,
-      "loss": 0.4716,
       "step": 30500
     },
     {
       "epoch": 2.281256898962396,
-      "grad_norm": 6.051453113555908,
       "learning_rate": 1.1979051683960066e-05,
-      "loss": 0.4606,
       "step": 31000
     },
     {
       "epoch": 2.318051365074693,
-      "grad_norm": 19.612579345703125,
       "learning_rate": 1.1365810582088454e-05,
-      "loss": 0.4661,
       "step": 31500
     },
     {
       "epoch": 2.3548458311869895,
-      "grad_norm": 7.283798694610596,
       "learning_rate": 1.0752569480216842e-05,
-      "loss": 0.4607,
       "step": 32000
     },
     {
       "epoch": 2.3916402972992863,
-      "grad_norm": 6.703380584716797,
       "learning_rate": 1.0139328378345231e-05,
-      "loss": 0.4596,
       "step": 32500
     },
     {
       "epoch": 2.428434763411583,
-      "grad_norm": 5.354931831359863,
       "learning_rate": 9.526087276473619e-06,
-      "loss": 0.4622,
       "step": 33000
     },
     {
       "epoch": 2.46522922952388,
-      "grad_norm": 4.186372756958008,
       "learning_rate": 8.912846174602008e-06,
-      "loss": 0.4528,
       "step": 33500
     },
     {
       "epoch": 2.5020236956361765,
-      "grad_norm": 15.311373710632324,
       "learning_rate": 8.299605072730394e-06,
-      "loss": 0.4632,
       "step": 34000
     },
     {
       "epoch": 2.5388181617484733,
-      "grad_norm": 5.3915791511535645,
       "learning_rate": 7.686363970858783e-06,
-      "loss": 0.4531,
       "step": 34500
     },
     {
       "epoch": 2.5756126278607696,
-      "grad_norm": 11.797430038452148,
       "learning_rate": 7.073122868987171e-06,
-      "loss": 0.4632,
       "step": 35000
     },
     {
       "epoch": 2.6124070939730664,
-      "grad_norm": 3.9882755279541016,
       "learning_rate": 6.459881767115559e-06,
-      "loss": 0.4546,
       "step": 35500
     },
     {
       "epoch": 2.649201560085363,
-      "grad_norm": 3.36647629737854,
       "learning_rate": 5.846640665243948e-06,
-      "loss": 0.4562,
       "step": 36000
     },
     {
       "epoch": 2.68599602619766,
-      "grad_norm": 3.5512359142303467,
       "learning_rate": 5.233399563372335e-06,
-      "loss": 0.4481,
       "step": 36500
     },
     {
       "epoch": 2.7227904923099566,
-      "grad_norm": 4.66156005859375,
       "learning_rate": 4.620158461500724e-06,
-      "loss": 0.4548,
       "step": 37000
     },
     {
       "epoch": 2.7595849584222534,
-      "grad_norm": 4.355463027954102,
       "learning_rate": 4.006917359629112e-06,
-      "loss": 0.4474,
       "step": 37500
     },
     {
       "epoch": 2.79637942453455,
-      "grad_norm": 10.520413398742676,
       "learning_rate": 3.3936762577575e-06,
-      "loss": 0.4483,
       "step": 38000
     },
     {
       "epoch": 2.8331738906468464,
-      "grad_norm": 6.027377605438232,
       "learning_rate": 2.7804351558858883e-06,
-      "loss": 0.4408,
       "step": 38500
     },
     {
       "epoch": 2.869968356759143,
-      "grad_norm": 9.411751747131348,
       "learning_rate": 2.1671940540142763e-06,
-      "loss": 0.448,
       "step": 39000
     },
     {
       "epoch": 2.90676282287144,
-      "grad_norm": 8.813983917236328,
       "learning_rate": 1.5539529521426646e-06,
-      "loss": 0.4374,
       "step": 39500
     },
     {
       "epoch": 2.9435572889837367,
-      "grad_norm": 15.45693588256836,
       "learning_rate": 9.407118502710525e-07,
-      "loss": 0.4431,
       "step": 40000
     },
     {
       "epoch": 2.9803517550960335,
-      "grad_norm": 5.461585521697998,
       "learning_rate": 3.2747074839944075e-07,
-      "loss": 0.4484,
       "step": 40500
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.7406834363937378,
-      "eval_mse": 0.7406833936714095,
-      "eval_runtime": 77.325,
-      "eval_samples_per_second": 646.622,
-      "eval_steps_per_second": 80.828,
       "step": 40767
     },
     {
       "epoch": 3.0,
       "step": 40767,
       "total_flos": 1.7161499914378214e+17,
-      "train_loss": 0.702953228300284,
-      "train_runtime": 12856.1609,
-      "train_samples_per_second": 202.937,
-      "train_steps_per_second": 3.171
     }
   ],
   "logging_steps": 500,

 {
+  "best_metric": 0.0266929492354393,
+  "best_model_checkpoint": "deberta-v3-base-zyda-2-transformed-readability/checkpoint-40767",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 40767,
   "log_history": [
     {
       "epoch": 0.03679446611229671,
+      "grad_norm": 2.2327511310577393,
       "learning_rate": 4.9386758898128385e-05,
+      "loss": 0.0956,
       "step": 500
     },
     {
       "epoch": 0.07358893222459342,
+      "grad_norm": 0.9045169353485107,
       "learning_rate": 4.877351779625678e-05,
+      "loss": 0.0524,
       "step": 1000
     },
     {
       "epoch": 0.11038339833689013,
+      "grad_norm": 0.6377315521240234,
       "learning_rate": 4.8160276694385164e-05,
+      "loss": 0.0439,
       "step": 1500
     },
     {
       "epoch": 0.14717786444918685,
+      "grad_norm": 1.2090165615081787,
       "learning_rate": 4.754703559251355e-05,
+      "loss": 0.0395,
       "step": 2000
     },
     {
       "epoch": 0.18397233056148354,
+      "grad_norm": 1.0190351009368896,
       "learning_rate": 4.693379449064194e-05,
+      "loss": 0.0387,
       "step": 2500
     },
     {
       "epoch": 0.22076679667378027,
+      "grad_norm": 0.6785000562667847,
       "learning_rate": 4.632055338877033e-05,
+      "loss": 0.0364,
       "step": 3000
     },
     {
       "epoch": 0.257561262786077,
+      "grad_norm": 0.37076541781425476,
       "learning_rate": 4.570731228689872e-05,
+      "loss": 0.0427,
       "step": 3500
     },
     {
       "epoch": 0.2943557288983737,
+      "grad_norm": 0.2937301695346832,
       "learning_rate": 4.509407118502711e-05,
+      "loss": 0.0359,
       "step": 4000
     },
     {
       "epoch": 0.3311501950106704,
+      "grad_norm": 0.3934372663497925,
       "learning_rate": 4.448083008315549e-05,
+      "loss": 0.0354,
       "step": 4500
     },
     {
       "epoch": 0.3679446611229671,
+      "grad_norm": 0.8720031380653381,
       "learning_rate": 4.386758898128389e-05,
+      "loss": 0.0343,
       "step": 5000
     },
     {
       "epoch": 0.40473912723526384,
+      "grad_norm": 0.2753826677799225,
       "learning_rate": 4.325434787941227e-05,
+      "loss": 0.0333,
       "step": 5500
     },
     {
       "epoch": 0.44153359334756054,
+      "grad_norm": 0.9069143533706665,
       "learning_rate": 4.264110677754066e-05,
+      "loss": 0.0319,
       "step": 6000
     },
     {
       "epoch": 0.47832805945985724,
+      "grad_norm": 1.0423845052719116,
       "learning_rate": 4.202786567566905e-05,
+      "loss": 0.0319,
       "step": 6500
     },
     {
       "epoch": 0.515122525572154,
+      "grad_norm": 0.5137051939964294,
       "learning_rate": 4.141462457379743e-05,
+      "loss": 0.0321,
       "step": 7000
     },
     {
       "epoch": 0.5519169916844506,
+      "grad_norm": 0.34184473752975464,
       "learning_rate": 4.080138347192582e-05,
+      "loss": 0.0316,
       "step": 7500
     },
     {
       "epoch": 0.5887114577967474,
+      "grad_norm": 0.5334771275520325,
       "learning_rate": 4.018814237005421e-05,
+      "loss": 0.0318,
       "step": 8000
     },
     {
       "epoch": 0.625505923909044,
+      "grad_norm": 0.27346959710121155,
       "learning_rate": 3.95749012681826e-05,
+      "loss": 0.0314,
       "step": 8500
     },
     {
       "epoch": 0.6623003900213408,
+      "grad_norm": 0.46926313638687134,
       "learning_rate": 3.896166016631099e-05,
+      "loss": 0.0308,
       "step": 9000
     },
     {
       "epoch": 0.6990948561336375,
+      "grad_norm": 0.661072850227356,
       "learning_rate": 3.834841906443938e-05,
+      "loss": 0.0309,
       "step": 9500
     },
     {
       "epoch": 0.7358893222459342,
+      "grad_norm": 0.3445192575454712,
       "learning_rate": 3.773517796256776e-05,
+      "loss": 0.03,
       "step": 10000
     },
     {
       "epoch": 0.7726837883582309,
+      "grad_norm": 0.5244751572608948,
       "learning_rate": 3.712193686069616e-05,
+      "loss": 0.0299,
       "step": 10500
     },
     {
       "epoch": 0.8094782544705277,
+      "grad_norm": 0.401460200548172,
       "learning_rate": 3.650869575882454e-05,
+      "loss": 0.0294,
       "step": 11000
     },
     {
       "epoch": 0.8462727205828243,
+      "grad_norm": 0.23478317260742188,
       "learning_rate": 3.589545465695293e-05,
+      "loss": 0.029,
       "step": 11500
     },
     {
       "epoch": 0.8830671866951211,
+      "grad_norm": 0.4309717118740082,
       "learning_rate": 3.528221355508132e-05,
+      "loss": 0.029,
       "step": 12000
     },
     {
       "epoch": 0.9198616528074177,
+      "grad_norm": 0.3477807641029358,
       "learning_rate": 3.466897245320971e-05,
+      "loss": 0.0295,
       "step": 12500
     },
     {
       "epoch": 0.9566561189197145,
+      "grad_norm": 0.21652667224407196,
       "learning_rate": 3.405573135133809e-05,
+      "loss": 0.0293,
       "step": 13000
     },
     {
       "epoch": 0.9934505850320112,
+      "grad_norm": 0.46980977058410645,
       "learning_rate": 3.344249024946648e-05,
+      "loss": 0.0288,
       "step": 13500
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.028563737869262695,
+      "eval_mse": 0.028563737035006864,
+      "eval_runtime": 98.1597,
+      "eval_samples_per_second": 509.374,
+      "eval_steps_per_second": 63.672,
       "step": 13589
     },
     {
       "epoch": 1.030245051144308,
+      "grad_norm": 0.32912561297416687,
       "learning_rate": 3.282924914759487e-05,
+      "loss": 0.0258,
       "step": 14000
     },
     {
       "epoch": 1.0670395172566045,
+      "grad_norm": 0.2001865804195404,
       "learning_rate": 3.221600804572326e-05,
+      "loss": 0.0251,
       "step": 14500
     },
     {
       "epoch": 1.1038339833689013,
+      "grad_norm": 0.4719059467315674,
       "learning_rate": 3.160276694385165e-05,
+      "loss": 0.0243,
       "step": 15000
     },
     {
       "epoch": 1.140628449481198,
+      "grad_norm": 0.401038259267807,
       "learning_rate": 3.098952584198003e-05,
+      "loss": 0.0246,
       "step": 15500
     },
     {
       "epoch": 1.1774229155934948,
+      "grad_norm": 0.24117255210876465,
       "learning_rate": 3.0376284740108423e-05,
+      "loss": 0.0248,
       "step": 16000
     },
     {
       "epoch": 1.2142173817057915,
+      "grad_norm": 0.24041427671909332,
       "learning_rate": 2.976304363823681e-05,
+      "loss": 0.025,
       "step": 16500
     },
     {
       "epoch": 1.2510118478180883,
+      "grad_norm": 0.3739044666290283,
       "learning_rate": 2.91498025363652e-05,
+      "loss": 0.0257,
       "step": 17000
     },
     {
       "epoch": 1.2878063139303848,
+      "grad_norm": 0.4344153106212616,
       "learning_rate": 2.8536561434493587e-05,
+      "loss": 0.0244,
       "step": 17500
     },
     {
       "epoch": 1.3246007800426816,
+      "grad_norm": 0.6248531341552734,
       "learning_rate": 2.7923320332621977e-05,
+      "loss": 0.0249,
       "step": 18000
     },
     {
       "epoch": 1.3613952461549783,
+      "grad_norm": 0.34284424781799316,
       "learning_rate": 2.7310079230750363e-05,
+      "loss": 0.0247,
       "step": 18500
     },
     {
       "epoch": 1.398189712267275,
+      "grad_norm": 0.33926498889923096,
       "learning_rate": 2.6696838128878755e-05,
+      "loss": 0.0248,
       "step": 19000
     },
     {
       "epoch": 1.4349841783795716,
+      "grad_norm": 0.2008136361837387,
       "learning_rate": 2.6083597027007138e-05,
+      "loss": 0.0248,
       "step": 19500
     },
     {
       "epoch": 1.4717786444918683,
+      "grad_norm": 0.5362450480461121,
       "learning_rate": 2.5470355925135524e-05,
+      "loss": 0.0246,
       "step": 20000
     },
     {
       "epoch": 1.508573110604165,
+      "grad_norm": 0.4919290840625763,
       "learning_rate": 2.4857114823263916e-05,
+      "loss": 0.0238,
       "step": 20500
     },
     {
       "epoch": 1.5453675767164619,
+      "grad_norm": 0.3778747618198395,
       "learning_rate": 2.4243873721392306e-05,
+      "loss": 0.0248,
       "step": 21000
     },
     {
       "epoch": 1.5821620428287586,
+      "grad_norm": 0.2485371083021164,
       "learning_rate": 2.3630632619520692e-05,
+      "loss": 0.0237,
       "step": 21500
     },
     {
       "epoch": 1.6189565089410554,
+      "grad_norm": 0.2995116412639618,
       "learning_rate": 2.301739151764908e-05,
+      "loss": 0.0232,
       "step": 22000
     },
     {
       "epoch": 1.6557509750533521,
+      "grad_norm": 0.3775917887687683,
       "learning_rate": 2.2404150415777467e-05,
+      "loss": 0.0239,
       "step": 22500
     },
     {
       "epoch": 1.6925454411656486,
+      "grad_norm": 0.25416481494903564,
       "learning_rate": 2.1790909313905856e-05,
+      "loss": 0.0242,
       "step": 23000
     },
     {
       "epoch": 1.7293399072779454,
+      "grad_norm": 0.5196259617805481,
       "learning_rate": 2.1177668212034242e-05,
+      "loss": 0.0238,
       "step": 23500
     },
     {
       "epoch": 1.7661343733902422,
+      "grad_norm": 3.1327126026153564,
       "learning_rate": 2.056442711016263e-05,
+      "loss": 0.0308,
       "step": 24000
     },
     {
       "epoch": 1.8029288395025387,
+      "grad_norm": 1.1925427913665771,
       "learning_rate": 1.995118600829102e-05,
+      "loss": 0.0268,
       "step": 24500
     },
     {
       "epoch": 1.8397233056148354,
+      "grad_norm": 0.5257470011711121,
       "learning_rate": 1.933794490641941e-05,
+      "loss": 0.0249,
       "step": 25000
     },
     {
       "epoch": 1.8765177717271322,
+      "grad_norm": 0.4024732708930969,
       "learning_rate": 1.8724703804547796e-05,
+      "loss": 0.0237,
       "step": 25500
     },
     {
       "epoch": 1.913312237839429,
+      "grad_norm": 0.5063018798828125,
       "learning_rate": 1.8111462702676185e-05,
+      "loss": 0.0231,
       "step": 26000
     },
     {
       "epoch": 1.9501067039517257,
+      "grad_norm": 0.264139860868454,
       "learning_rate": 1.7498221600804575e-05,
+      "loss": 0.0261,
       "step": 26500
     },
     {
       "epoch": 1.9869011700640224,
+      "grad_norm": 0.19682620465755463,
       "learning_rate": 1.688498049893296e-05,
+      "loss": 0.023,
       "step": 27000
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.027232788503170013,
+      "eval_mse": 0.02723278669797115,
+      "eval_runtime": 77.4011,
+      "eval_samples_per_second": 645.986,
+      "eval_steps_per_second": 80.748,
       "step": 27178
     },
     {
       "epoch": 2.023695636176319,
+      "grad_norm": 0.3318944275379181,
       "learning_rate": 1.627173939706135e-05,
+      "loss": 0.0208,
       "step": 27500
     },
     {
       "epoch": 2.060490102288616,
+      "grad_norm": 0.20372678339481354,
       "learning_rate": 1.565849829518974e-05,
+      "loss": 0.0199,
       "step": 28000
     },
     {
       "epoch": 2.0972845684009127,
+      "grad_norm": 0.4932423233985901,
       "learning_rate": 1.5045257193318127e-05,
+      "loss": 0.0201,
       "step": 28500
     },
     {
       "epoch": 2.134079034513209,
+      "grad_norm": 0.24097684025764465,
       "learning_rate": 1.4432016091446513e-05,
+      "loss": 0.0199,
       "step": 29000
     },
     {
       "epoch": 2.1708735006255058,
+      "grad_norm": 0.46340519189834595,
       "learning_rate": 1.38187749895749e-05,
+      "loss": 0.0194,
       "step": 29500
     },
     {
       "epoch": 2.2076679667378025,
+      "grad_norm": 0.17476551234722137,
       "learning_rate": 1.320553388770329e-05,
+      "loss": 0.0199,
       "step": 30000
     },
     {
       "epoch": 2.2444624328500993,
+      "grad_norm": 0.7477974891662598,
       "learning_rate": 1.2592292785831677e-05,
+      "loss": 0.0202,
       "step": 30500
     },
     {
       "epoch": 2.281256898962396,
+      "grad_norm": 0.21329531073570251,
       "learning_rate": 1.1979051683960066e-05,
+      "loss": 0.0196,
       "step": 31000
     },
     {
       "epoch": 2.318051365074693,
+      "grad_norm": 0.39124202728271484,
       "learning_rate": 1.1365810582088454e-05,
+      "loss": 0.0198,
       "step": 31500
     },
     {
       "epoch": 2.3548458311869895,
+      "grad_norm": 0.30534929037094116,
       "learning_rate": 1.0752569480216842e-05,
+      "loss": 0.0196,
       "step": 32000
     },
     {
       "epoch": 2.3916402972992863,
+      "grad_norm": 0.2803601324558258,
       "learning_rate": 1.0139328378345231e-05,
+      "loss": 0.0197,
       "step": 32500
     },
     {
       "epoch": 2.428434763411583,
+      "grad_norm": 0.30882009863853455,
       "learning_rate": 9.526087276473619e-06,
+      "loss": 0.0194,
       "step": 33000
     },
     {
       "epoch": 2.46522922952388,
+      "grad_norm": 0.310523122549057,
       "learning_rate": 8.912846174602008e-06,
+      "loss": 0.0193,
       "step": 33500
     },
     {
       "epoch": 2.5020236956361765,
+      "grad_norm": 0.3990231156349182,
       "learning_rate": 8.299605072730394e-06,
+      "loss": 0.0198,
       "step": 34000
     },
     {
       "epoch": 2.5388181617484733,
+      "grad_norm": 0.41601407527923584,
       "learning_rate": 7.686363970858783e-06,
+      "loss": 0.0192,
       "step": 34500
     },
     {
       "epoch": 2.5756126278607696,
+      "grad_norm": 0.2621209919452667,
       "learning_rate": 7.073122868987171e-06,
+      "loss": 0.0198,
       "step": 35000
     },
     {
       "epoch": 2.6124070939730664,
+      "grad_norm": 0.231684148311615,
       "learning_rate": 6.459881767115559e-06,
+      "loss": 0.0192,
       "step": 35500
     },
     {
       "epoch": 2.649201560085363,
+      "grad_norm": 0.23939248919487,
       "learning_rate": 5.846640665243948e-06,
+      "loss": 0.0191,
       "step": 36000
     },
     {
       "epoch": 2.68599602619766,
+      "grad_norm": 0.22479325532913208,
       "learning_rate": 5.233399563372335e-06,
+      "loss": 0.0192,
       "step": 36500
     },
     {
       "epoch": 2.7227904923099566,
+      "grad_norm": 0.27915650606155396,
       "learning_rate": 4.620158461500724e-06,
+      "loss": 0.0193,
       "step": 37000
     },
     {
       "epoch": 2.7595849584222534,
+      "grad_norm": 0.19762490689754486,
       "learning_rate": 4.006917359629112e-06,
+      "loss": 0.0191,
       "step": 37500
     },
     {
       "epoch": 2.79637942453455,
+      "grad_norm": 0.42420724034309387,
       "learning_rate": 3.3936762577575e-06,
+      "loss": 0.0193,
       "step": 38000
     },
     {
       "epoch": 2.8331738906468464,
+      "grad_norm": 0.34259703755378723,
       "learning_rate": 2.7804351558858883e-06,
+      "loss": 0.0188,
       "step": 38500
     },
     {
       "epoch": 2.869968356759143,
+      "grad_norm": 0.2734413743019104,
       "learning_rate": 2.1671940540142763e-06,
+      "loss": 0.019,
       "step": 39000
     },
     {
       "epoch": 2.90676282287144,
+      "grad_norm": 0.16011129319667816,
       "learning_rate": 1.5539529521426646e-06,
+      "loss": 0.0186,
       "step": 39500
     },
     {
       "epoch": 2.9435572889837367,
+      "grad_norm": 0.4719178080558777,
       "learning_rate": 9.407118502710525e-07,
+      "loss": 0.0188,
       "step": 40000
     },
     {
       "epoch": 2.9803517550960335,
+      "grad_norm": 0.22022365033626556,
       "learning_rate": 3.2747074839944075e-07,
+      "loss": 0.0189,
       "step": 40500
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.0266929492354393,
+      "eval_mse": 0.026692949063357767,
+      "eval_runtime": 78.6017,
+      "eval_samples_per_second": 636.118,
+      "eval_steps_per_second": 79.515,
       "step": 40767
     },
     {
       "epoch": 3.0,
       "step": 40767,
       "total_flos": 1.7161499914378214e+17,
+      "train_loss": 0.026733717791019525,
+      "train_runtime": 12981.5942,
+      "train_samples_per_second": 200.976,
+      "train_steps_per_second": 3.14
     }
   ],
   "logging_steps": 500,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abdf47d0eea436423adf4d8495595522bdc635700b31d7723e5f0caee85fd1bc
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:c535b070a527587ded137592bb39f04574a3871d0d0a867537a635b06da923bd
 size 5368