{
  "best_metric": 1.8117440938949585,
  "best_model_checkpoint": "miner_id_24/checkpoint-100",
  "epoch": 0.044958974935371473,
  "eval_steps": 50,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00044958974935371473,
      "grad_norm": 24.18302345275879,
      "learning_rate": 1e-05,
      "loss": 7.9665,
      "step": 1
    },
    {
      "epoch": 0.00044958974935371473,
      "eval_loss": 2.5624332427978516,
      "eval_runtime": 303.4028,
      "eval_samples_per_second": 12.35,
      "eval_steps_per_second": 3.088,
      "step": 1
    },
    {
      "epoch": 0.0008991794987074295,
      "grad_norm": 14.937773704528809,
      "learning_rate": 2e-05,
      "loss": 7.9168,
      "step": 2
    },
    {
      "epoch": 0.0013487692480611442,
      "grad_norm": 30.82914924621582,
      "learning_rate": 3e-05,
      "loss": 9.0213,
      "step": 3
    },
    {
      "epoch": 0.001798358997414859,
      "grad_norm": 18.256996154785156,
      "learning_rate": 4e-05,
      "loss": 9.1877,
      "step": 4
    },
    {
      "epoch": 0.0022479487467685737,
      "grad_norm": 16.69561767578125,
      "learning_rate": 5e-05,
      "loss": 8.1356,
      "step": 5
    },
    {
      "epoch": 0.0026975384961222884,
      "grad_norm": 20.72624969482422,
      "learning_rate": 6e-05,
      "loss": 8.0795,
      "step": 6
    },
    {
      "epoch": 0.003147128245476003,
      "grad_norm": 32.9364013671875,
      "learning_rate": 7e-05,
      "loss": 7.8811,
      "step": 7
    },
    {
      "epoch": 0.003596717994829718,
      "grad_norm": 7.802122592926025,
      "learning_rate": 8e-05,
      "loss": 7.7945,
      "step": 8
    },
    {
      "epoch": 0.004046307744183433,
      "grad_norm": 8.411202430725098,
      "learning_rate": 9e-05,
      "loss": 8.2115,
      "step": 9
    },
    {
      "epoch": 0.004495897493537147,
      "grad_norm": 8.420724868774414,
      "learning_rate": 0.0001,
      "loss": 8.1188,
      "step": 10
    },
    {
      "epoch": 0.004945487242890862,
      "grad_norm": 9.098817825317383,
      "learning_rate": 9.99695413509548e-05,
      "loss": 7.671,
      "step": 11
    },
    {
      "epoch": 0.005395076992244577,
      "grad_norm": 9.3877592086792,
      "learning_rate": 9.987820251299122e-05,
      "loss": 8.0317,
      "step": 12
    },
    {
      "epoch": 0.0058446667415982916,
      "grad_norm": 6.482844352722168,
      "learning_rate": 9.972609476841367e-05,
      "loss": 7.601,
      "step": 13
    },
    {
      "epoch": 0.006294256490952006,
      "grad_norm": 4.341376304626465,
      "learning_rate": 9.951340343707852e-05,
      "loss": 7.8028,
      "step": 14
    },
    {
      "epoch": 0.006743846240305721,
      "grad_norm": 4.474201679229736,
      "learning_rate": 9.924038765061042e-05,
      "loss": 7.6391,
      "step": 15
    },
    {
      "epoch": 0.007193435989659436,
      "grad_norm": 4.584384918212891,
      "learning_rate": 9.890738003669029e-05,
      "loss": 7.5457,
      "step": 16
    },
    {
      "epoch": 0.0076430257390131505,
      "grad_norm": 7.676236152648926,
      "learning_rate": 9.851478631379982e-05,
      "loss": 7.4021,
      "step": 17
    },
    {
      "epoch": 0.008092615488366865,
      "grad_norm": 4.271732330322266,
      "learning_rate": 9.806308479691595e-05,
      "loss": 7.3218,
      "step": 18
    },
    {
      "epoch": 0.00854220523772058,
      "grad_norm": 5.314806938171387,
      "learning_rate": 9.755282581475769e-05,
      "loss": 7.3276,
      "step": 19
    },
    {
      "epoch": 0.008991794987074295,
      "grad_norm": 4.919935703277588,
      "learning_rate": 9.698463103929542e-05,
      "loss": 7.716,
      "step": 20
    },
    {
      "epoch": 0.00944138473642801,
      "grad_norm": 6.999605655670166,
      "learning_rate": 9.635919272833938e-05,
      "loss": 7.3281,
      "step": 21
    },
    {
      "epoch": 0.009890974485781724,
      "grad_norm": 5.30716609954834,
      "learning_rate": 9.567727288213005e-05,
      "loss": 7.4632,
      "step": 22
    },
    {
      "epoch": 0.010340564235135439,
      "grad_norm": 4.980722427368164,
      "learning_rate": 9.493970231495835e-05,
      "loss": 7.22,
      "step": 23
    },
    {
      "epoch": 0.010790153984489154,
      "grad_norm": 4.9277424812316895,
      "learning_rate": 9.414737964294636e-05,
      "loss": 7.4278,
      "step": 24
    },
    {
      "epoch": 0.011239743733842868,
      "grad_norm": 6.406722545623779,
      "learning_rate": 9.330127018922194e-05,
      "loss": 7.5035,
      "step": 25
    },
    {
      "epoch": 0.011689333483196583,
      "grad_norm": 4.579732894897461,
      "learning_rate": 9.24024048078213e-05,
      "loss": 7.3033,
      "step": 26
    },
    {
      "epoch": 0.012138923232550298,
      "grad_norm": 5.785240173339844,
      "learning_rate": 9.145187862775209e-05,
      "loss": 7.2163,
      "step": 27
    },
    {
      "epoch": 0.012588512981904013,
      "grad_norm": 4.934544086456299,
      "learning_rate": 9.045084971874738e-05,
      "loss": 7.1038,
      "step": 28
    },
    {
      "epoch": 0.013038102731257727,
      "grad_norm": 5.398442268371582,
      "learning_rate": 8.940053768033609e-05,
      "loss": 7.5988,
      "step": 29
    },
    {
      "epoch": 0.013487692480611442,
      "grad_norm": 5.780381679534912,
      "learning_rate": 8.83022221559489e-05,
      "loss": 7.5084,
      "step": 30
    },
    {
      "epoch": 0.013937282229965157,
      "grad_norm": 5.284208297729492,
      "learning_rate": 8.715724127386972e-05,
      "loss": 7.5834,
      "step": 31
    },
    {
      "epoch": 0.014386871979318872,
      "grad_norm": 5.134541988372803,
      "learning_rate": 8.596699001693255e-05,
      "loss": 6.9416,
      "step": 32
    },
    {
      "epoch": 0.014836461728672586,
      "grad_norm": 5.358755111694336,
      "learning_rate": 8.473291852294987e-05,
      "loss": 6.8811,
      "step": 33
    },
    {
      "epoch": 0.015286051478026301,
      "grad_norm": 5.485218524932861,
      "learning_rate": 8.345653031794292e-05,
      "loss": 7.4511,
      "step": 34
    },
    {
      "epoch": 0.015735641227380016,
      "grad_norm": 5.456942081451416,
      "learning_rate": 8.213938048432697e-05,
      "loss": 7.4203,
      "step": 35
    },
    {
      "epoch": 0.01618523097673373,
      "grad_norm": 6.561946392059326,
      "learning_rate": 8.07830737662829e-05,
      "loss": 7.0093,
      "step": 36
    },
    {
      "epoch": 0.016634820726087445,
      "grad_norm": 6.47843599319458,
      "learning_rate": 7.938926261462366e-05,
      "loss": 7.4928,
      "step": 37
    },
    {
      "epoch": 0.01708441047544116,
      "grad_norm": 6.392465114593506,
      "learning_rate": 7.795964517353735e-05,
      "loss": 7.3433,
      "step": 38
    },
    {
      "epoch": 0.017534000224794875,
      "grad_norm": 6.650886535644531,
      "learning_rate": 7.649596321166024e-05,
      "loss": 7.5484,
      "step": 39
    },
    {
      "epoch": 0.01798358997414859,
      "grad_norm": 7.465913772583008,
      "learning_rate": 7.500000000000001e-05,
      "loss": 6.9719,
      "step": 40
    },
    {
      "epoch": 0.018433179723502304,
      "grad_norm": 8.037371635437012,
      "learning_rate": 7.347357813929454e-05,
      "loss": 7.5534,
      "step": 41
    },
    {
      "epoch": 0.01888276947285602,
      "grad_norm": 7.200313568115234,
      "learning_rate": 7.191855733945387e-05,
      "loss": 6.8865,
      "step": 42
    },
    {
      "epoch": 0.019332359222209734,
      "grad_norm": 7.190114974975586,
      "learning_rate": 7.033683215379002e-05,
      "loss": 6.7352,
      "step": 43
    },
    {
      "epoch": 0.01978194897156345,
      "grad_norm": 9.91162395477295,
      "learning_rate": 6.873032967079561e-05,
      "loss": 7.3616,
      "step": 44
    },
    {
      "epoch": 0.020231538720917163,
      "grad_norm": 8.867462158203125,
      "learning_rate": 6.710100716628344e-05,
      "loss": 8.0594,
      "step": 45
    },
    {
      "epoch": 0.020681128470270878,
      "grad_norm": 9.80379867553711,
      "learning_rate": 6.545084971874738e-05,
      "loss": 7.3214,
      "step": 46
    },
    {
      "epoch": 0.021130718219624593,
      "grad_norm": 9.933585166931152,
      "learning_rate": 6.378186779084995e-05,
      "loss": 7.891,
      "step": 47
    },
    {
      "epoch": 0.021580307968978307,
      "grad_norm": 11.22646427154541,
      "learning_rate": 6.209609477998338e-05,
      "loss": 7.7231,
      "step": 48
    },
    {
      "epoch": 0.022029897718332022,
      "grad_norm": 12.034700393676758,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 7.2939,
      "step": 49
    },
    {
      "epoch": 0.022479487467685737,
      "grad_norm": 18.43265724182129,
      "learning_rate": 5.868240888334653e-05,
      "loss": 8.2363,
      "step": 50
    },
    {
      "epoch": 0.022479487467685737,
      "eval_loss": 1.934623122215271,
      "eval_runtime": 305.4319,
      "eval_samples_per_second": 12.268,
      "eval_steps_per_second": 3.068,
      "step": 50
    },
    {
      "epoch": 0.02292907721703945,
      "grad_norm": 11.476149559020996,
      "learning_rate": 5.695865504800327e-05,
      "loss": 7.3362,
      "step": 51
    },
    {
      "epoch": 0.023378666966393166,
      "grad_norm": 11.603797912597656,
      "learning_rate": 5.522642316338268e-05,
      "loss": 7.442,
      "step": 52
    },
    {
      "epoch": 0.02382825671574688,
      "grad_norm": 10.300864219665527,
      "learning_rate": 5.348782368720626e-05,
      "loss": 7.4202,
      "step": 53
    },
    {
      "epoch": 0.024277846465100596,
      "grad_norm": 8.544779777526855,
      "learning_rate": 5.174497483512506e-05,
      "loss": 7.0981,
      "step": 54
    },
    {
      "epoch": 0.02472743621445431,
      "grad_norm": 5.459915637969971,
      "learning_rate": 5e-05,
      "loss": 7.3514,
      "step": 55
    },
    {
      "epoch": 0.025177025963808025,
      "grad_norm": 3.0955164432525635,
      "learning_rate": 4.825502516487497e-05,
      "loss": 7.0576,
      "step": 56
    },
    {
      "epoch": 0.02562661571316174,
      "grad_norm": 3.19674015045166,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 7.23,
      "step": 57
    },
    {
      "epoch": 0.026076205462515455,
      "grad_norm": 2.739734649658203,
      "learning_rate": 4.477357683661734e-05,
      "loss": 7.0943,
      "step": 58
    },
    {
      "epoch": 0.02652579521186917,
      "grad_norm": 3.8967645168304443,
      "learning_rate": 4.3041344951996746e-05,
      "loss": 7.2636,
      "step": 59
    },
    {
      "epoch": 0.026975384961222884,
      "grad_norm": 3.043419361114502,
      "learning_rate": 4.131759111665349e-05,
      "loss": 7.3223,
      "step": 60
    },
    {
      "epoch": 0.0274249747105766,
      "grad_norm": 3.0673446655273438,
      "learning_rate": 3.960441545911204e-05,
      "loss": 6.8189,
      "step": 61
    },
    {
      "epoch": 0.027874564459930314,
      "grad_norm": 3.27693510055542,
      "learning_rate": 3.790390522001662e-05,
      "loss": 7.0324,
      "step": 62
    },
    {
      "epoch": 0.02832415420928403,
      "grad_norm": 3.591726064682007,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 6.9133,
      "step": 63
    },
    {
      "epoch": 0.028773743958637743,
      "grad_norm": 3.230844020843506,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 6.9538,
      "step": 64
    },
    {
      "epoch": 0.029223333707991458,
      "grad_norm": 3.3317620754241943,
      "learning_rate": 3.289899283371657e-05,
      "loss": 6.9394,
      "step": 65
    },
    {
      "epoch": 0.029672923457345173,
      "grad_norm": 3.195903778076172,
      "learning_rate": 3.12696703292044e-05,
      "loss": 7.0984,
      "step": 66
    },
    {
      "epoch": 0.030122513206698887,
      "grad_norm": 3.351611614227295,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 7.2142,
      "step": 67
    },
    {
      "epoch": 0.030572102956052602,
      "grad_norm": 3.1880135536193848,
      "learning_rate": 2.8081442660546125e-05,
      "loss": 6.8962,
      "step": 68
    },
    {
      "epoch": 0.031021692705406317,
      "grad_norm": 3.423830270767212,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 7.436,
      "step": 69
    },
    {
      "epoch": 0.03147128245476003,
      "grad_norm": 3.454775094985962,
      "learning_rate": 2.500000000000001e-05,
      "loss": 7.3572,
      "step": 70
    },
    {
      "epoch": 0.03192087220411375,
      "grad_norm": 3.665876865386963,
      "learning_rate": 2.350403678833976e-05,
      "loss": 6.9502,
      "step": 71
    },
    {
      "epoch": 0.03237046195346746,
      "grad_norm": 3.3924033641815186,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 7.1721,
      "step": 72
    },
    {
      "epoch": 0.03282005170282118,
      "grad_norm": 3.5606541633605957,
      "learning_rate": 2.061073738537635e-05,
      "loss": 7.368,
      "step": 73
    },
    {
      "epoch": 0.03326964145217489,
      "grad_norm": 3.614961624145508,
      "learning_rate": 1.9216926233717085e-05,
      "loss": 7.1286,
      "step": 74
    },
    {
      "epoch": 0.03371923120152861,
      "grad_norm": 3.9002952575683594,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 7.6035,
      "step": 75
    },
    {
      "epoch": 0.03416882095088232,
      "grad_norm": 3.7654526233673096,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 6.9176,
      "step": 76
    },
    {
      "epoch": 0.03461841070023604,
      "grad_norm": 3.960015296936035,
      "learning_rate": 1.526708147705013e-05,
      "loss": 6.8281,
      "step": 77
    },
    {
      "epoch": 0.03506800044958975,
      "grad_norm": 4.176464080810547,
      "learning_rate": 1.4033009983067452e-05,
      "loss": 6.9551,
      "step": 78
    },
    {
      "epoch": 0.03551759019894347,
      "grad_norm": 4.081431865692139,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 7.6075,
      "step": 79
    },
    {
      "epoch": 0.03596717994829718,
      "grad_norm": 4.360508441925049,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 7.5639,
      "step": 80
    },
    {
      "epoch": 0.0364167696976509,
      "grad_norm": 4.41530179977417,
      "learning_rate": 1.0599462319663905e-05,
      "loss": 7.417,
      "step": 81
    },
    {
      "epoch": 0.03686635944700461,
      "grad_norm": 4.396665096282959,
      "learning_rate": 9.549150281252633e-06,
      "loss": 7.2683,
      "step": 82
    },
    {
      "epoch": 0.037315949196358326,
      "grad_norm": 4.680903434753418,
      "learning_rate": 8.548121372247918e-06,
      "loss": 6.9854,
      "step": 83
    },
    {
      "epoch": 0.03776553894571204,
      "grad_norm": 4.679863452911377,
      "learning_rate": 7.597595192178702e-06,
      "loss": 7.6362,
      "step": 84
    },
    {
      "epoch": 0.038215128695065756,
      "grad_norm": 4.920777320861816,
      "learning_rate": 6.698729810778065e-06,
      "loss": 7.4629,
      "step": 85
    },
    {
      "epoch": 0.03866471844441947,
      "grad_norm": 5.3529181480407715,
      "learning_rate": 5.852620357053651e-06,
      "loss": 7.5006,
      "step": 86
    },
    {
      "epoch": 0.039114308193773185,
      "grad_norm": 5.565374374389648,
      "learning_rate": 5.060297685041659e-06,
      "loss": 7.5553,
      "step": 87
    },
    {
      "epoch": 0.0395638979431269,
      "grad_norm": 5.736807823181152,
      "learning_rate": 4.322727117869951e-06,
      "loss": 7.3617,
      "step": 88
    },
    {
      "epoch": 0.040013487692480615,
      "grad_norm": 5.8425703048706055,
      "learning_rate": 3.6408072716606346e-06,
      "loss": 7.2157,
      "step": 89
    },
    {
      "epoch": 0.040463077441834326,
      "grad_norm": 6.148372650146484,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 7.2508,
      "step": 90
    },
    {
      "epoch": 0.040912667191188044,
      "grad_norm": 5.708883285522461,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 7.2955,
      "step": 91
    },
    {
      "epoch": 0.041362256940541756,
      "grad_norm": 6.778091907501221,
      "learning_rate": 1.9369152030840556e-06,
      "loss": 7.0668,
      "step": 92
    },
    {
      "epoch": 0.041811846689895474,
      "grad_norm": 6.998269557952881,
      "learning_rate": 1.4852136862001764e-06,
      "loss": 7.0621,
      "step": 93
    },
    {
      "epoch": 0.042261436439249185,
      "grad_norm": 7.591545581817627,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 7.6306,
      "step": 94
    },
    {
      "epoch": 0.0427110261886029,
      "grad_norm": 8.322836875915527,
      "learning_rate": 7.596123493895991e-07,
      "loss": 6.8658,
      "step": 95
    },
    {
      "epoch": 0.043160615937956615,
      "grad_norm": 7.584608554840088,
      "learning_rate": 4.865965629214819e-07,
      "loss": 7.9249,
      "step": 96
    },
    {
      "epoch": 0.04361020568731033,
      "grad_norm": 8.986035346984863,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 8.2931,
      "step": 97
    },
    {
      "epoch": 0.044059795436664044,
      "grad_norm": 9.24368667602539,
      "learning_rate": 1.2179748700879012e-07,
      "loss": 7.509,
      "step": 98
    },
    {
      "epoch": 0.04450938518601776,
      "grad_norm": 12.614158630371094,
      "learning_rate": 3.04586490452119e-08,
      "loss": 7.548,
      "step": 99
    },
    {
      "epoch": 0.044958974935371473,
      "grad_norm": 16.969078063964844,
      "learning_rate": 0.0,
      "loss": 8.8329,
      "step": 100
    },
    {
      "epoch": 0.044958974935371473,
      "eval_loss": 1.8117440938949585,
      "eval_runtime": 305.934,
      "eval_samples_per_second": 12.248,
      "eval_steps_per_second": 3.063,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.5170578350184858e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}