Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

checkpoint-3000/optimizer.pt +1 -1
checkpoint-3000/pytorch_model.bin +1 -1
checkpoint-3000/rng_state.pth +1 -1
checkpoint-3000/scheduler.pt +1 -1
checkpoint-3000/trainer_state.json +82 -82
checkpoint-3000/training_args.bin +1 -1

checkpoint-3000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccb64efc319292d7f82dc423867462a94434241d26e813849458ef1210fcb156
 size 124642443

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fad6569af2a2233c0f59d09763e1a2336b9da42ae7e6cb1c6635bec33ae2db5
 size 124642443

checkpoint-3000/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50e8a01a31f2514a1d0c186f083d72ffd11c4fd26ab26b74d8853781437876c9
 size 62314258

 version https://git-lfs.github.com/spec/v1
+oid sha256:c020ec47e8581acc86642c7a901886880ed0e21a67b6866aa6e46c3ba3177530
 size 62314258

checkpoint-3000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47f551f352c3582aab145c6f54f30ffbeee0b864e47c66aae4b8bf65aa86b3ab
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6d46a044feeb5332c0f8084263bfb9e9fd6fe7cb244071d0de9b4cbe3ae3208
 size 14645

checkpoint-3000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99c0caf2011a7cb0034062f49b1c20f2067d88b910ef9cf32d24c7e9ddd08314
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:68a6419333f014840fbe18337f422d0d59ab125d87109c828c6b1ef65f210f17
 size 1465

checkpoint-3000/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.32485110990795885,
   "eval_steps": 500,
   "global_step": 3000,
   "is_hyper_param_search": false,
@@ -10,140 +10,140 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02707092582566324,
-      "grad_norm": 0.9713733196258545,
-      "learning_rate": 9.910124526258799e-05,
-      "loss": 3.4945,
       "step": 250
     },
     {
-      "epoch": 0.05414185165132648,
-      "grad_norm": 0.9521434307098389,
-      "learning_rate": 9.819888106839921e-05,
-      "loss": 3.5097,
       "step": 500
     },
     {
-      "epoch": 0.05414185165132648,
-      "eval_loss": 2.95473575592041,
-      "eval_runtime": 87.829,
-      "eval_samples_per_second": 112.15,
-      "eval_steps_per_second": 7.014,
       "step": 500
     },
     {
-      "epoch": 0.08121277747698971,
-      "grad_norm": 0.9334385395050049,
-      "learning_rate": 9.729651687421044e-05,
-      "loss": 3.4922,
       "step": 750
     },
     {
-      "epoch": 0.10828370330265295,
-      "grad_norm": 1.2239603996276855,
-      "learning_rate": 9.639415268002166e-05,
-      "loss": 3.477,
       "step": 1000
     },
     {
-      "epoch": 0.10828370330265295,
-      "eval_loss": 2.9319565296173096,
-      "eval_runtime": 87.8964,
-      "eval_samples_per_second": 112.064,
-      "eval_steps_per_second": 7.008,
       "step": 1000
     },
     {
-      "epoch": 0.1353546291283162,
-      "grad_norm": 1.1727226972579956,
-      "learning_rate": 9.549178848583288e-05,
-      "loss": 3.493,
       "step": 1250
     },
     {
-      "epoch": 0.16242555495397942,
-      "grad_norm": 0.966973602771759,
-      "learning_rate": 9.458942429164411e-05,
-      "loss": 3.5013,
       "step": 1500
     },
     {
-      "epoch": 0.16242555495397942,
-      "eval_loss": 2.9275825023651123,
-      "eval_runtime": 87.899,
-      "eval_samples_per_second": 112.06,
-      "eval_steps_per_second": 7.008,
       "step": 1500
     },
     {
-      "epoch": 0.18949648077964265,
-      "grad_norm": 0.9813922047615051,
-      "learning_rate": 9.368706009745533e-05,
-      "loss": 3.4907,
       "step": 1750
     },
     {
-      "epoch": 0.2165674066053059,
-      "grad_norm": 1.027085542678833,
-      "learning_rate": 9.278469590326656e-05,
-      "loss": 3.4588,
       "step": 2000
     },
     {
-      "epoch": 0.2165674066053059,
-      "eval_loss": 2.9044992923736572,
-      "eval_runtime": 87.8776,
-      "eval_samples_per_second": 112.088,
-      "eval_steps_per_second": 7.01,
       "step": 2000
     },
     {
-      "epoch": 0.24363833243096913,
-      "grad_norm": 1.0764214992523193,
-      "learning_rate": 9.188233170907778e-05,
-      "loss": 3.4531,
       "step": 2250
     },
     {
-      "epoch": 0.2707092582566324,
-      "grad_norm": 1.0297119617462158,
-      "learning_rate": 9.0979967514889e-05,
-      "loss": 3.4445,
       "step": 2500
     },
     {
-      "epoch": 0.2707092582566324,
-      "eval_loss": 2.8855738639831543,
-      "eval_runtime": 87.8728,
-      "eval_samples_per_second": 112.094,
-      "eval_steps_per_second": 7.01,
       "step": 2500
     },
     {
-      "epoch": 0.2977801840822956,
-      "grad_norm": 0.9697523713111877,
-      "learning_rate": 9.007760332070024e-05,
-      "loss": 3.4349,
       "step": 2750
     },
     {
-      "epoch": 0.32485110990795885,
-      "grad_norm": 0.9611329436302185,
-      "learning_rate": 8.917523912651147e-05,
-      "loss": 3.4213,
       "step": 3000
     },
     {
-      "epoch": 0.32485110990795885,
-      "eval_loss": 2.8725759983062744,
-      "eval_runtime": 87.9054,
-      "eval_samples_per_second": 112.052,
-      "eval_steps_per_second": 7.008,
       "step": 3000
     }
   ],
   "logging_steps": 250,
-  "max_steps": 27705,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 1000,
@@ -159,8 +159,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1083162230784000.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6091370558375635,
   "eval_steps": 500,
   "global_step": 3000,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.050761421319796954,
+      "grad_norm": 0.7555294632911682,
+      "learning_rate": 9.831472081218275e-05,
+      "loss": 3.185,
       "step": 250
     },
     {
+      "epoch": 0.10152284263959391,
+      "grad_norm": 0.7812637090682983,
+      "learning_rate": 9.662267343485618e-05,
+      "loss": 3.1833,
       "step": 500
     },
     {
+      "epoch": 0.10152284263959391,
+      "eval_loss": 2.7107906341552734,
+      "eval_runtime": 88.982,
+      "eval_samples_per_second": 110.697,
+      "eval_steps_per_second": 3.697,
       "step": 500
     },
     {
+      "epoch": 0.15228426395939088,
+      "grad_norm": 0.7523223161697388,
+      "learning_rate": 9.493062605752962e-05,
+      "loss": 3.1846,
       "step": 750
     },
     {
+      "epoch": 0.20304568527918782,
+      "grad_norm": 0.820755124092102,
+      "learning_rate": 9.323857868020304e-05,
+      "loss": 3.1779,
       "step": 1000
     },
     {
+      "epoch": 0.20304568527918782,
+      "eval_loss": 2.701174020767212,
+      "eval_runtime": 88.9362,
+      "eval_samples_per_second": 110.754,
+      "eval_steps_per_second": 3.699,
       "step": 1000
     },
     {
+      "epoch": 0.25380710659898476,
+      "grad_norm": 0.7443365454673767,
+      "learning_rate": 9.154653130287648e-05,
+      "loss": 3.1669,
       "step": 1250
     },
     {
+      "epoch": 0.30456852791878175,
+      "grad_norm": 0.7510855197906494,
+      "learning_rate": 8.985448392554991e-05,
+      "loss": 3.163,
       "step": 1500
     },
     {
+      "epoch": 0.30456852791878175,
+      "eval_loss": 2.6923437118530273,
+      "eval_runtime": 88.8708,
+      "eval_samples_per_second": 110.835,
+      "eval_steps_per_second": 3.702,
       "step": 1500
     },
     {
+      "epoch": 0.3553299492385787,
+      "grad_norm": 0.7907871007919312,
+      "learning_rate": 8.816243654822337e-05,
+      "loss": 3.1668,
       "step": 1750
     },
     {
+      "epoch": 0.40609137055837563,
+      "grad_norm": 0.8167365193367004,
+      "learning_rate": 8.647038917089679e-05,
+      "loss": 3.1533,
       "step": 2000
     },
     {
+      "epoch": 0.40609137055837563,
+      "eval_loss": 2.68522310256958,
+      "eval_runtime": 88.8442,
+      "eval_samples_per_second": 110.868,
+      "eval_steps_per_second": 3.703,
       "step": 2000
     },
     {
+      "epoch": 0.45685279187817257,
+      "grad_norm": 0.7124233841896057,
+      "learning_rate": 8.477834179357022e-05,
+      "loss": 3.157,
       "step": 2250
     },
     {
+      "epoch": 0.5076142131979695,
+      "grad_norm": 0.7829596400260925,
+      "learning_rate": 8.308629441624366e-05,
+      "loss": 3.1582,
       "step": 2500
     },
     {
+      "epoch": 0.5076142131979695,
+      "eval_loss": 2.681734561920166,
+      "eval_runtime": 88.8737,
+      "eval_samples_per_second": 110.831,
+      "eval_steps_per_second": 3.702,
       "step": 2500
     },
     {
+      "epoch": 0.5583756345177665,
+      "grad_norm": 0.7784757018089294,
+      "learning_rate": 8.139424703891709e-05,
+      "loss": 3.1581,
       "step": 2750
     },
     {
+      "epoch": 0.6091370558375635,
+      "grad_norm": 0.7557055354118347,
+      "learning_rate": 7.970219966159053e-05,
+      "loss": 3.157,
       "step": 3000
     },
     {
+      "epoch": 0.6091370558375635,
+      "eval_loss": 2.6753175258636475,
+      "eval_runtime": 89.0244,
+      "eval_samples_per_second": 110.644,
+      "eval_steps_per_second": 3.696,
       "step": 3000
     }
   ],
   "logging_steps": 250,
+  "max_steps": 14775,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 1000,
       "attributes": {}
     }
   },
+  "total_flos": 2030929182720000.0,
+  "train_batch_size": 30,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-3000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e66348775f5c0c4e602e276cfabd86d6b08e208f328b80af2d3902749f42fb99
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1e3d67aa3e387cf228af7dde653bfe60b869b8342460aae15f94e2d51478f92
 size 6033