Upload 13 files

Browse files

Files changed (13) hide show

README.md +61 -0
added_tokens.json +3 -0
all_results.json +15 -0
config.json +43 -0
eval_results.json +9 -0
model.safetensors +3 -0
special_tokens_map.json +15 -0
spm.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
train_results.json +9 -0
trainer_state.json +636 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+library_name: transformers
+license: mit
+base_model: agentlans/deberta-v3-base-zyda-2
+tags:
+- generated_from_trainer
+model-index:
+- name: deberta-v3-base-zyda-2-readability
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# deberta-v3-base-zyda-2-readability
+This model is a fine-tuned version of [agentlans/deberta-v3-base-zyda-2](https://huggingface.co/agentlans/deberta-v3-base-zyda-2) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.7407
+- Mse: 0.7407
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 64
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Mse    |
+|:-------------:|:-----:|:-----:|:---------------:|:------:|
+| 0.6839        | 1.0   | 13589 | 1.0938          | 1.0938 |
+| 0.5281        | 2.0   | 27178 | 0.7477          | 0.7477 |
+| 0.4484        | 3.0   | 40767 | 0.7407          | 0.7407 |
+### Framework versions
+- Transformers 4.46.3
+- Pytorch 2.5.1+cu124
+- Datasets 3.1.0
+- Tokenizers 0.20.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.7406834363937378,
+    "eval_mse": 0.7406833936714095,
+    "eval_runtime": 76.9379,
+    "eval_samples": 50000,
+    "eval_samples_per_second": 649.875,
+    "eval_steps_per_second": 81.234,
+    "total_flos": 1.7161499914378214e+17,
+    "train_loss": 0.702953228300284,
+    "train_runtime": 12856.1609,
+    "train_samples": 869663,
+    "train_samples_per_second": 202.937,
+    "train_steps_per_second": 3.171
+}

config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "_name_or_path": "agentlans/deberta-v3-base-zyda-2",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "regression",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.3",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.7406834363937378,
+    "eval_mse": 0.7406833936714095,
+    "eval_runtime": 76.9379,
+    "eval_samples": 50000,
+    "eval_samples_per_second": 649.875,
+    "eval_steps_per_second": 81.234
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53bf4ffe628aa3961a9fdab80547f51c481cda969333051ab370f1d027ee347b
+size 737716196

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.7161499914378214e+17,
+    "train_loss": 0.702953228300284,
+    "train_runtime": 12856.1609,
+    "train_samples": 869663,
+    "train_samples_per_second": 202.937,
+    "train_steps_per_second": 3.171
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,636 @@

+{
+  "best_metric": 0.7406834363937378,
+  "best_model_checkpoint": "deberta-v3-base-zyda-2-readability/checkpoint-40767",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 40767,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03679446611229671,
+      "grad_norm": 22.72686767578125,
+      "learning_rate": 4.9386758898128385e-05,
+      "loss": 6.5572,
+      "step": 500
+    },
+    {
+      "epoch": 0.07358893222459342,
+      "grad_norm": 42.41002655029297,
+      "learning_rate": 4.877351779625678e-05,
+      "loss": 1.3129,
+      "step": 1000
+    },
+    {
+      "epoch": 0.11038339833689013,
+      "grad_norm": 13.57180404663086,
+      "learning_rate": 4.8160276694385164e-05,
+      "loss": 1.099,
+      "step": 1500
+    },
+    {
+      "epoch": 0.14717786444918685,
+      "grad_norm": 15.051002502441406,
+      "learning_rate": 4.754703559251355e-05,
+      "loss": 0.9744,
+      "step": 2000
+    },
+    {
+      "epoch": 0.18397233056148354,
+      "grad_norm": 20.83298683166504,
+      "learning_rate": 4.693379449064194e-05,
+      "loss": 0.9412,
+      "step": 2500
+    },
+    {
+      "epoch": 0.22076679667378027,
+      "grad_norm": 20.301353454589844,
+      "learning_rate": 4.632055338877033e-05,
+      "loss": 0.8845,
+      "step": 3000
+    },
+    {
+      "epoch": 0.257561262786077,
+      "grad_norm": 4.867860317230225,
+      "learning_rate": 4.570731228689872e-05,
+      "loss": 0.8894,
+      "step": 3500
+    },
+    {
+      "epoch": 0.2943557288983737,
+      "grad_norm": 11.473809242248535,
+      "learning_rate": 4.509407118502711e-05,
+      "loss": 0.8605,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3311501950106704,
+      "grad_norm": 47.68638610839844,
+      "learning_rate": 4.448083008315549e-05,
+      "loss": 1.2506,
+      "step": 4500
+    },
+    {
+      "epoch": 0.3679446611229671,
+      "grad_norm": 17.02402687072754,
+      "learning_rate": 4.386758898128389e-05,
+      "loss": 1.0712,
+      "step": 5000
+    },
+    {
+      "epoch": 0.40473912723526384,
+      "grad_norm": 13.133755683898926,
+      "learning_rate": 4.325434787941227e-05,
+      "loss": 0.7953,
+      "step": 5500
+    },
+    {
+      "epoch": 0.44153359334756054,
+      "grad_norm": 11.83011245727539,
+      "learning_rate": 4.264110677754066e-05,
+      "loss": 0.7575,
+      "step": 6000
+    },
+    {
+      "epoch": 0.47832805945985724,
+      "grad_norm": 24.706212997436523,
+      "learning_rate": 4.202786567566905e-05,
+      "loss": 0.7491,
+      "step": 6500
+    },
+    {
+      "epoch": 0.515122525572154,
+      "grad_norm": 16.181684494018555,
+      "learning_rate": 4.141462457379743e-05,
+      "loss": 1.0325,
+      "step": 7000
+    },
+    {
+      "epoch": 0.5519169916844506,
+      "grad_norm": 14.158419609069824,
+      "learning_rate": 4.080138347192582e-05,
+      "loss": 1.082,
+      "step": 7500
+    },
+    {
+      "epoch": 0.5887114577967474,
+      "grad_norm": 34.472206115722656,
+      "learning_rate": 4.018814237005421e-05,
+      "loss": 1.2578,
+      "step": 8000
+    },
+    {
+      "epoch": 0.625505923909044,
+      "grad_norm": 18.01128578186035,
+      "learning_rate": 3.95749012681826e-05,
+      "loss": 0.76,
+      "step": 8500
+    },
+    {
+      "epoch": 0.6623003900213408,
+      "grad_norm": 9.049446105957031,
+      "learning_rate": 3.896166016631099e-05,
+      "loss": 0.7493,
+      "step": 9000
+    },
+    {
+      "epoch": 0.6990948561336375,
+      "grad_norm": 112.888427734375,
+      "learning_rate": 3.834841906443938e-05,
+      "loss": 0.7287,
+      "step": 9500
+    },
+    {
+      "epoch": 0.7358893222459342,
+      "grad_norm": 55.44353485107422,
+      "learning_rate": 3.773517796256776e-05,
+      "loss": 0.7615,
+      "step": 10000
+    },
+    {
+      "epoch": 0.7726837883582309,
+      "grad_norm": 18.046951293945312,
+      "learning_rate": 3.712193686069616e-05,
+      "loss": 0.7182,
+      "step": 10500
+    },
+    {
+      "epoch": 0.8094782544705277,
+      "grad_norm": 6.221084117889404,
+      "learning_rate": 3.650869575882454e-05,
+      "loss": 0.6961,
+      "step": 11000
+    },
+    {
+      "epoch": 0.8462727205828243,
+      "grad_norm": 19.79126739501953,
+      "learning_rate": 3.589545465695293e-05,
+      "loss": 0.6857,
+      "step": 11500
+    },
+    {
+      "epoch": 0.8830671866951211,
+      "grad_norm": 11.714865684509277,
+      "learning_rate": 3.528221355508132e-05,
+      "loss": 0.6733,
+      "step": 12000
+    },
+    {
+      "epoch": 0.9198616528074177,
+      "grad_norm": 19.167461395263672,
+      "learning_rate": 3.466897245320971e-05,
+      "loss": 0.6798,
+      "step": 12500
+    },
+    {
+      "epoch": 0.9566561189197145,
+      "grad_norm": 9.230766296386719,
+      "learning_rate": 3.405573135133809e-05,
+      "loss": 0.6825,
+      "step": 13000
+    },
+    {
+      "epoch": 0.9934505850320112,
+      "grad_norm": 13.260143280029297,
+      "learning_rate": 3.344249024946648e-05,
+      "loss": 0.6839,
+      "step": 13500
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.0938260555267334,
+      "eval_mse": 1.0938261270842415,
+      "eval_runtime": 82.8373,
+      "eval_samples_per_second": 603.593,
+      "eval_steps_per_second": 75.449,
+      "step": 13589
+    },
+    {
+      "epoch": 1.030245051144308,
+      "grad_norm": 7.3761396408081055,
+      "learning_rate": 3.282924914759487e-05,
+      "loss": 0.6166,
+      "step": 14000
+    },
+    {
+      "epoch": 1.0670395172566045,
+      "grad_norm": 3.998417854309082,
+      "learning_rate": 3.221600804572326e-05,
+      "loss": 0.5892,
+      "step": 14500
+    },
+    {
+      "epoch": 1.1038339833689013,
+      "grad_norm": 7.822746753692627,
+      "learning_rate": 3.160276694385165e-05,
+      "loss": 0.5916,
+      "step": 15000
+    },
+    {
+      "epoch": 1.140628449481198,
+      "grad_norm": 5.118077278137207,
+      "learning_rate": 3.098952584198003e-05,
+      "loss": 0.593,
+      "step": 15500
+    },
+    {
+      "epoch": 1.1774229155934948,
+      "grad_norm": 6.34403133392334,
+      "learning_rate": 3.0376284740108423e-05,
+      "loss": 0.6,
+      "step": 16000
+    },
+    {
+      "epoch": 1.2142173817057915,
+      "grad_norm": 28.41265296936035,
+      "learning_rate": 2.976304363823681e-05,
+      "loss": 0.589,
+      "step": 16500
+    },
+    {
+      "epoch": 1.2510118478180883,
+      "grad_norm": 28.579113006591797,
+      "learning_rate": 2.91498025363652e-05,
+      "loss": 0.5984,
+      "step": 17000
+    },
+    {
+      "epoch": 1.2878063139303848,
+      "grad_norm": 8.48458480834961,
+      "learning_rate": 2.8536561434493587e-05,
+      "loss": 0.5795,
+      "step": 17500
+    },
+    {
+      "epoch": 1.3246007800426816,
+      "grad_norm": 15.21429443359375,
+      "learning_rate": 2.7923320332621977e-05,
+      "loss": 0.587,
+      "step": 18000
+    },
+    {
+      "epoch": 1.3613952461549783,
+      "grad_norm": 5.001615047454834,
+      "learning_rate": 2.7310079230750363e-05,
+      "loss": 0.592,
+      "step": 18500
+    },
+    {
+      "epoch": 1.398189712267275,
+      "grad_norm": 14.064582824707031,
+      "learning_rate": 2.6696838128878755e-05,
+      "loss": 0.5892,
+      "step": 19000
+    },
+    {
+      "epoch": 1.4349841783795716,
+      "grad_norm": 4.501893997192383,
+      "learning_rate": 2.6083597027007138e-05,
+      "loss": 0.5849,
+      "step": 19500
+    },
+    {
+      "epoch": 1.4717786444918683,
+      "grad_norm": 15.239348411560059,
+      "learning_rate": 2.5470355925135524e-05,
+      "loss": 0.5799,
+      "step": 20000
+    },
+    {
+      "epoch": 1.508573110604165,
+      "grad_norm": 19.09524154663086,
+      "learning_rate": 2.4857114823263916e-05,
+      "loss": 0.556,
+      "step": 20500
+    },
+    {
+      "epoch": 1.5453675767164619,
+      "grad_norm": 13.683536529541016,
+      "learning_rate": 2.4243873721392306e-05,
+      "loss": 0.58,
+      "step": 21000
+    },
+    {
+      "epoch": 1.5821620428287586,
+      "grad_norm": 10.286214828491211,
+      "learning_rate": 2.3630632619520692e-05,
+      "loss": 0.5485,
+      "step": 21500
+    },
+    {
+      "epoch": 1.6189565089410554,
+      "grad_norm": 23.011327743530273,
+      "learning_rate": 2.301739151764908e-05,
+      "loss": 0.555,
+      "step": 22000
+    },
+    {
+      "epoch": 1.6557509750533521,
+      "grad_norm": 4.562350273132324,
+      "learning_rate": 2.2404150415777467e-05,
+      "loss": 0.5543,
+      "step": 22500
+    },
+    {
+      "epoch": 1.6925454411656486,
+      "grad_norm": 6.733220100402832,
+      "learning_rate": 2.1790909313905856e-05,
+      "loss": 0.5579,
+      "step": 23000
+    },
+    {
+      "epoch": 1.7293399072779454,
+      "grad_norm": 10.043594360351562,
+      "learning_rate": 2.1177668212034242e-05,
+      "loss": 0.5484,
+      "step": 23500
+    },
+    {
+      "epoch": 1.7661343733902422,
+      "grad_norm": 26.73402976989746,
+      "learning_rate": 2.056442711016263e-05,
+      "loss": 0.5553,
+      "step": 24000
+    },
+    {
+      "epoch": 1.8029288395025387,
+      "grad_norm": 37.953338623046875,
+      "learning_rate": 1.995118600829102e-05,
+      "loss": 0.5412,
+      "step": 24500
+    },
+    {
+      "epoch": 1.8397233056148354,
+      "grad_norm": 24.06332015991211,
+      "learning_rate": 1.933794490641941e-05,
+      "loss": 0.5412,
+      "step": 25000
+    },
+    {
+      "epoch": 1.8765177717271322,
+      "grad_norm": 14.054511070251465,
+      "learning_rate": 1.8724703804547796e-05,
+      "loss": 0.539,
+      "step": 25500
+    },
+    {
+      "epoch": 1.913312237839429,
+      "grad_norm": 6.154812335968018,
+      "learning_rate": 1.8111462702676185e-05,
+      "loss": 0.5343,
+      "step": 26000
+    },
+    {
+      "epoch": 1.9501067039517257,
+      "grad_norm": 9.982664108276367,
+      "learning_rate": 1.7498221600804575e-05,
+      "loss": 0.5404,
+      "step": 26500
+    },
+    {
+      "epoch": 1.9869011700640224,
+      "grad_norm": 4.059072017669678,
+      "learning_rate": 1.688498049893296e-05,
+      "loss": 0.5281,
+      "step": 27000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.7477120161056519,
+      "eval_mse": 0.7477119884569656,
+      "eval_runtime": 81.1709,
+      "eval_samples_per_second": 615.984,
+      "eval_steps_per_second": 76.998,
+      "step": 27178
+    },
+    {
+      "epoch": 2.023695636176319,
+      "grad_norm": 4.173586368560791,
+      "learning_rate": 1.627173939706135e-05,
+      "loss": 0.4911,
+      "step": 27500
+    },
+    {
+      "epoch": 2.060490102288616,
+      "grad_norm": 10.17249584197998,
+      "learning_rate": 1.565849829518974e-05,
+      "loss": 0.4734,
+      "step": 28000
+    },
+    {
+      "epoch": 2.0972845684009127,
+      "grad_norm": 30.416034698486328,
+      "learning_rate": 1.5045257193318127e-05,
+      "loss": 0.473,
+      "step": 28500
+    },
+    {
+      "epoch": 2.134079034513209,
+      "grad_norm": 8.076013565063477,
+      "learning_rate": 1.4432016091446513e-05,
+      "loss": 0.4683,
+      "step": 29000
+    },
+    {
+      "epoch": 2.1708735006255058,
+      "grad_norm": 4.578775405883789,
+      "learning_rate": 1.38187749895749e-05,
+      "loss": 0.4629,
+      "step": 29500
+    },
+    {
+      "epoch": 2.2076679667378025,
+      "grad_norm": 6.670838356018066,
+      "learning_rate": 1.320553388770329e-05,
+      "loss": 0.4682,
+      "step": 30000
+    },
+    {
+      "epoch": 2.2444624328500993,
+      "grad_norm": 20.175901412963867,
+      "learning_rate": 1.2592292785831677e-05,
+      "loss": 0.4716,
+      "step": 30500
+    },
+    {
+      "epoch": 2.281256898962396,
+      "grad_norm": 6.051453113555908,
+      "learning_rate": 1.1979051683960066e-05,
+      "loss": 0.4606,
+      "step": 31000
+    },
+    {
+      "epoch": 2.318051365074693,
+      "grad_norm": 19.612579345703125,
+      "learning_rate": 1.1365810582088454e-05,
+      "loss": 0.4661,
+      "step": 31500
+    },
+    {
+      "epoch": 2.3548458311869895,
+      "grad_norm": 7.283798694610596,
+      "learning_rate": 1.0752569480216842e-05,
+      "loss": 0.4607,
+      "step": 32000
+    },
+    {
+      "epoch": 2.3916402972992863,
+      "grad_norm": 6.703380584716797,
+      "learning_rate": 1.0139328378345231e-05,
+      "loss": 0.4596,
+      "step": 32500
+    },
+    {
+      "epoch": 2.428434763411583,
+      "grad_norm": 5.354931831359863,
+      "learning_rate": 9.526087276473619e-06,
+      "loss": 0.4622,
+      "step": 33000
+    },
+    {
+      "epoch": 2.46522922952388,
+      "grad_norm": 4.186372756958008,
+      "learning_rate": 8.912846174602008e-06,
+      "loss": 0.4528,
+      "step": 33500
+    },
+    {
+      "epoch": 2.5020236956361765,
+      "grad_norm": 15.311373710632324,
+      "learning_rate": 8.299605072730394e-06,
+      "loss": 0.4632,
+      "step": 34000
+    },
+    {
+      "epoch": 2.5388181617484733,
+      "grad_norm": 5.3915791511535645,
+      "learning_rate": 7.686363970858783e-06,
+      "loss": 0.4531,
+      "step": 34500
+    },
+    {
+      "epoch": 2.5756126278607696,
+      "grad_norm": 11.797430038452148,
+      "learning_rate": 7.073122868987171e-06,
+      "loss": 0.4632,
+      "step": 35000
+    },
+    {
+      "epoch": 2.6124070939730664,
+      "grad_norm": 3.9882755279541016,
+      "learning_rate": 6.459881767115559e-06,
+      "loss": 0.4546,
+      "step": 35500
+    },
+    {
+      "epoch": 2.649201560085363,
+      "grad_norm": 3.36647629737854,
+      "learning_rate": 5.846640665243948e-06,
+      "loss": 0.4562,
+      "step": 36000
+    },
+    {
+      "epoch": 2.68599602619766,
+      "grad_norm": 3.5512359142303467,
+      "learning_rate": 5.233399563372335e-06,
+      "loss": 0.4481,
+      "step": 36500
+    },
+    {
+      "epoch": 2.7227904923099566,
+      "grad_norm": 4.66156005859375,
+      "learning_rate": 4.620158461500724e-06,
+      "loss": 0.4548,
+      "step": 37000
+    },
+    {
+      "epoch": 2.7595849584222534,
+      "grad_norm": 4.355463027954102,
+      "learning_rate": 4.006917359629112e-06,
+      "loss": 0.4474,
+      "step": 37500
+    },
+    {
+      "epoch": 2.79637942453455,
+      "grad_norm": 10.520413398742676,
+      "learning_rate": 3.3936762577575e-06,
+      "loss": 0.4483,
+      "step": 38000
+    },
+    {
+      "epoch": 2.8331738906468464,
+      "grad_norm": 6.027377605438232,
+      "learning_rate": 2.7804351558858883e-06,
+      "loss": 0.4408,
+      "step": 38500
+    },
+    {
+      "epoch": 2.869968356759143,
+      "grad_norm": 9.411751747131348,
+      "learning_rate": 2.1671940540142763e-06,
+      "loss": 0.448,
+      "step": 39000
+    },
+    {
+      "epoch": 2.90676282287144,
+      "grad_norm": 8.813983917236328,
+      "learning_rate": 1.5539529521426646e-06,
+      "loss": 0.4374,
+      "step": 39500
+    },
+    {
+      "epoch": 2.9435572889837367,
+      "grad_norm": 15.45693588256836,
+      "learning_rate": 9.407118502710525e-07,
+      "loss": 0.4431,
+      "step": 40000
+    },
+    {
+      "epoch": 2.9803517550960335,
+      "grad_norm": 5.461585521697998,
+      "learning_rate": 3.2747074839944075e-07,
+      "loss": 0.4484,
+      "step": 40500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.7406834363937378,
+      "eval_mse": 0.7406833936714095,
+      "eval_runtime": 77.325,
+      "eval_samples_per_second": 646.622,
+      "eval_steps_per_second": 80.828,
+      "step": 40767
+    },
+    {
+      "epoch": 3.0,
+      "step": 40767,
+      "total_flos": 1.7161499914378214e+17,
+      "train_loss": 0.702953228300284,
+      "train_runtime": 12856.1609,
+      "train_samples_per_second": 202.937,
+      "train_steps_per_second": 3.171
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 40767,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.7161499914378214e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abdf47d0eea436423adf4d8495595522bdc635700b31d7723e5f0caee85fd1bc
+size 5368