{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.00040008801936426014,
  "eval_steps": 3,
  "global_step": 10,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 4.000880193642601e-05,
      "grad_norm": 0.39896124601364136,
      "learning_rate": 2e-05,
      "loss": 2.2855,
      "step": 1
    },
    {
      "epoch": 4.000880193642601e-05,
      "eval_loss": 2.339869260787964,
      "eval_runtime": 519.0274,
      "eval_samples_per_second": 20.276,
      "eval_steps_per_second": 10.138,
      "step": 1
    },
    {
      "epoch": 8.001760387285202e-05,
      "grad_norm": 0.45513176918029785,
      "learning_rate": 4e-05,
      "loss": 1.9875,
      "step": 2
    },
    {
      "epoch": 0.00012002640580927805,
      "grad_norm": 0.3781720995903015,
      "learning_rate": 6e-05,
      "loss": 2.23,
      "step": 3
    },
    {
      "epoch": 0.00012002640580927805,
      "eval_loss": 2.3384501934051514,
      "eval_runtime": 517.8142,
      "eval_samples_per_second": 20.324,
      "eval_steps_per_second": 10.162,
      "step": 3
    },
    {
      "epoch": 0.00016003520774570404,
      "grad_norm": 0.37640222907066345,
      "learning_rate": 8e-05,
      "loss": 2.4372,
      "step": 4
    },
    {
      "epoch": 0.00020004400968213007,
      "grad_norm": 0.3939964771270752,
      "learning_rate": 0.0001,
      "loss": 2.4214,
      "step": 5
    },
    {
      "epoch": 0.0002400528116185561,
      "grad_norm": 0.3689953684806824,
      "learning_rate": 0.00012,
      "loss": 2.2457,
      "step": 6
    },
    {
      "epoch": 0.0002400528116185561,
      "eval_loss": 2.3168723583221436,
      "eval_runtime": 516.7653,
      "eval_samples_per_second": 20.365,
      "eval_steps_per_second": 10.183,
      "step": 6
    },
    {
      "epoch": 0.0002800616135549821,
      "grad_norm": 0.3968791365623474,
      "learning_rate": 0.00014,
      "loss": 2.2646,
      "step": 7
    },
    {
      "epoch": 0.0003200704154914081,
      "grad_norm": 0.3779482841491699,
      "learning_rate": 0.00016,
      "loss": 2.3878,
      "step": 8
    },
    {
      "epoch": 0.0003600792174278341,
      "grad_norm": 0.4175374209880829,
      "learning_rate": 0.00018,
      "loss": 2.3291,
      "step": 9
    },
    {
      "epoch": 0.0003600792174278341,
      "eval_loss": 2.2632980346679688,
      "eval_runtime": 515.3707,
      "eval_samples_per_second": 20.42,
      "eval_steps_per_second": 10.21,
      "step": 9
    },
    {
      "epoch": 0.00040008801936426014,
      "grad_norm": 0.42977407574653625,
      "learning_rate": 0.0002,
      "loss": 2.3205,
      "step": 10
    }
  ],
  "logging_steps": 1,
  "max_steps": 10,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 3,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 332405714976768.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}