Bharath Kumar Kakumani commited on Oct 18

Commit

a2c9283

verified ·

1 Parent(s): c5749a2

Upload checkpoint-10000

Browse files

Files changed (22) hide show

.gitattributes +1 -0
checkpoint-10000/chat_template.jinja +93 -0
checkpoint-10000/config.json +36 -0
checkpoint-10000/generation_config.json +13 -0
checkpoint-10000/model-00001-of-00002.safetensors +3 -0
checkpoint-10000/model-00002-of-00002.safetensors +3 -0
checkpoint-10000/model.safetensors.index.json +262 -0
checkpoint-10000/optimizer.pt +3 -0
checkpoint-10000/rng_state_0.pth +3 -0
checkpoint-10000/rng_state_1.pth +3 -0
checkpoint-10000/rng_state_2.pth +3 -0
checkpoint-10000/rng_state_3.pth +3 -0
checkpoint-10000/rng_state_4.pth +3 -0
checkpoint-10000/rng_state_5.pth +3 -0
checkpoint-10000/rng_state_6.pth +3 -0
checkpoint-10000/rng_state_7.pth +3 -0
checkpoint-10000/scheduler.pt +3 -0
checkpoint-10000/special_tokens_map.json +165 -0
checkpoint-10000/tokenizer.json +3 -0
checkpoint-10000/tokenizer_config.json +0 -0
checkpoint-10000/trainer_state.json +1457 -0
checkpoint-10000/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-10000/tokenizer.json filter=lfs diff=lfs merge=lfs -text

checkpoint-10000/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,93 @@

+{{- bos_token }}
+{%- if custom_tools is defined %}
+    {%- set tools = custom_tools %}
+{%- endif %}
+{%- if not tools_in_user_message is defined %}
+    {%- set tools_in_user_message = true %}
+{%- endif %}
+{%- if not date_string is defined %}
+    {%- if strftime_now is defined %}
+        {%- set date_string = strftime_now("%d %b %Y") %}
+    {%- else %}
+        {%- set date_string = "26 Jul 2024" %}
+    {%- endif %}
+{%- endif %}
+{%- if not tools is defined %}
+    {%- set tools = none %}
+{%- endif %}
+{#- This block extracts the system message, so we can slot it into the right place. #}
+{%- if messages[0]['role'] == 'system' %}
+    {%- set system_message = messages[0]['content']|trim %}
+    {%- set messages = messages[1:] %}
+{%- else %}
+    {%- set system_message = "" %}
+{%- endif %}
+{#- System message #}
+{{- "<|start_header_id|>system<|end_header_id|>\n\n" }}
+{%- if tools is not none %}
+    {{- "Environment: ipython\n" }}
+{%- endif %}
+{{- "Cutting Knowledge Date: December 2023\n" }}
+{{- "Today Date: " + date_string + "\n\n" }}
+{%- if tools is not none and not tools_in_user_message %}
+    {{- "You have access to the following functions. To call a function, please respond with JSON for a function call." }}
+    {{- 'Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}.' }}
+    {{- "Do not use variables.\n\n" }}
+    {%- for t in tools %}
+        {{- t | tojson(indent=4) }}
+        {{- "\n\n" }}
+    {%- endfor %}
+{%- endif %}
+{{- system_message }}
+{{- "<|eot_id|>" }}
+{#- Custom tools are passed in a user message with some extra guidance #}
+{%- if tools_in_user_message and not tools is none %}
+    {#- Extract the first user message so we can plug it in here #}
+    {%- if messages | length != 0 %}
+        {%- set first_user_message = messages[0]['content']|trim %}
+        {%- set messages = messages[1:] %}
+    {%- else %}
+        {{- raise_exception("Cannot put tools in the first user message when there's no first user message!") }}
+{%- endif %}
+    {{- '<|start_header_id|>user<|end_header_id|>\n\n' -}}
+    {{- "Given the following functions, please respond with a JSON for a function call " }}
+    {{- "with its proper arguments that best answers the given prompt.\n\n" }}
+    {{- 'Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}.' }}
+    {{- "Do not use variables.\n\n" }}
+    {%- for t in tools %}
+        {{- t | tojson(indent=4) }}
+        {{- "\n\n" }}
+    {%- endfor %}
+    {{- first_user_message + "<|eot_id|>"}}
+{%- endif %}
+{%- for message in messages %}
+    {%- if not (message.role == 'ipython' or message.role == 'tool' or 'tool_calls' in message) %}
+        {{- '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' }}
+    {%- elif 'tool_calls' in message %}
+        {%- if not message.tool_calls|length == 1 %}
+            {{- raise_exception("This model only supports single tool-calls at once!") }}
+        {%- endif %}
+        {%- set tool_call = message.tool_calls[0].function %}
+        {{- '<|start_header_id|>assistant<|end_header_id|>\n\n' -}}
+        {{- '{"name": "' + tool_call.name + '", ' }}
+        {{- '"parameters": ' }}
+        {{- tool_call.arguments | tojson }}
+        {{- "}" }}
+        {{- "<|eot_id|>" }}
+    {%- elif message.role == "tool" or message.role == "ipython" %}
+        {{- "<|start_header_id|>ipython<|end_header_id|>\n\n" }}
+        {%- if message.content is mapping or message.content is iterable %}
+            {{- message.content | tojson }}
+        {%- else %}
+            {{- message.content }}
+        {%- endif %}
+        {{- "<|eot_id|>" }}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|start_header_id|>assistant<|end_header_id|>\n\n' }}
+{%- endif %}

checkpoint-10000/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "dtype": "bfloat16",
+  "eos_token_id": 128009,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 24,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "pad_token_id": 128263,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.1",
+  "use_cache": false,
+  "vocab_size": 156960
+}

checkpoint-10000/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": [
+    128009,
+    128258
+  ],
+  "pad_token_id": 128263,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.57.1"
+}

checkpoint-10000/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:263525017d77415c971b66ce3a2c0a91d2aa671768b03e0cf0703aec1372f7b1
+size 4991160848

checkpoint-10000/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5bcfa4a1341a7a63d65e3f5583103948c79e7d623637058b47bd7bc41974ecf
+size 1610725592

checkpoint-10000/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,262 @@

+{
+  "metadata": {
+    "total_parameters": 3300928512,
+    "total_size": 6601857024
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-10000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4189ad5b1fd4d269af4dd2339fe7f601def842ec5f0a4e0a05839c2dea743f7a
+size 13203939671

checkpoint-10000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b458b8f8732b9f9521697570cd90cf163aa0cebbd79a3cdc55989a94d008ba0
+size 16389

checkpoint-10000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ab4448c35e5dc742d6920c92f0ffb96d377342350d7b11343720133818830c7
+size 16389

checkpoint-10000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4dacb1ff50619fe6eb65a1ec94d02ec95203853e91429f277cb9cfaaade74d6
+size 16389

checkpoint-10000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:298c9e53d91f5c969e4357565579be5f4ac1fdf591a940842802e4c1cdf98d3e
+size 16389

checkpoint-10000/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e9cf50a602c905189624916ae5524f6248d35528aa60b0f2802d9a969f27430
+size 16389

checkpoint-10000/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a58b3cfd541a9a54d11b60b847f7b125dd6411954ab8ebd93e229f292a86a909
+size 16389

checkpoint-10000/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6233970dbb86911a32d0cd96f7a63f5dc4f0455bcba37065255b6d43e8b849b4
+size 16389

checkpoint-10000/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1503fcb68cbbbdfbae3c0641994f80a57f0f63296638270dafe33a5da3c91b7
+size 16389

checkpoint-10000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41f6bdb0585cc7de1d3f58e2eb994b72e9ee8f46f52ee88677b2d3a36f2ea338
+size 1465

checkpoint-10000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,165 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<angry>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<appalled>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<chuckle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<cry>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<curious>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<disappointed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<excited>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<exhale>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<gasp>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<giggle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<gulp>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<laugh>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<laugh_harder>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<mischievous>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<sarcastic>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<scream>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<sigh>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<sing>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<snort>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<whisper>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<custom_token_7>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-10000/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c5e5b1d89b7e3738e5a5a4f93c326d8f3292ea83f9c560b8dbb6d66fb851973
+size 22853258

checkpoint-10000/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-10000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1457 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.313478585038522,
+  "eval_steps": 5000,
+  "global_step": 10000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0003313727114572115,
+      "grad_norm": 2.828125,
+      "learning_rate": 0.0,
+      "loss": 4.1855,
+      "step": 1
+    },
+    {
+      "epoch": 0.016568635572860577,
+      "grad_norm": 3.234375,
+      "learning_rate": 9.017298490982701e-07,
+      "loss": 4.4012,
+      "step": 50
+    },
+    {
+      "epoch": 0.03313727114572115,
+      "grad_norm": 2.984375,
+      "learning_rate": 1.8218623481781377e-06,
+      "loss": 4.3839,
+      "step": 100
+    },
+    {
+      "epoch": 0.04970590671858172,
+      "grad_norm": 2.265625,
+      "learning_rate": 2.741994847258005e-06,
+      "loss": 4.345,
+      "step": 150
+    },
+    {
+      "epoch": 0.0662745422914423,
+      "grad_norm": 2.171875,
+      "learning_rate": 3.662127346337873e-06,
+      "loss": 4.2973,
+      "step": 200
+    },
+    {
+      "epoch": 0.08284317786430287,
+      "grad_norm": 1.5234375,
+      "learning_rate": 4.582259845417741e-06,
+      "loss": 4.224,
+      "step": 250
+    },
+    {
+      "epoch": 0.09941181343716345,
+      "grad_norm": 1.0234375,
+      "learning_rate": 5.502392344497608e-06,
+      "loss": 4.144,
+      "step": 300
+    },
+    {
+      "epoch": 0.11598044901002402,
+      "grad_norm": 1.0390625,
+      "learning_rate": 6.422524843577475e-06,
+      "loss": 4.0929,
+      "step": 350
+    },
+    {
+      "epoch": 0.1325490845828846,
+      "grad_norm": 1.1796875,
+      "learning_rate": 7.342657342657343e-06,
+      "loss": 4.0516,
+      "step": 400
+    },
+    {
+      "epoch": 0.14911772015574518,
+      "grad_norm": 1.390625,
+      "learning_rate": 8.26278984173721e-06,
+      "loss": 4.025,
+      "step": 450
+    },
+    {
+      "epoch": 0.16568635572860574,
+      "grad_norm": 1.515625,
+      "learning_rate": 9.182922340817078e-06,
+      "loss": 4.0113,
+      "step": 500
+    },
+    {
+      "epoch": 0.18225499130146633,
+      "grad_norm": 1.4765625,
+      "learning_rate": 1.0103054839896946e-05,
+      "loss": 4.0015,
+      "step": 550
+    },
+    {
+      "epoch": 0.1988236268743269,
+      "grad_norm": 1.40625,
+      "learning_rate": 1.1023187338976813e-05,
+      "loss": 3.9936,
+      "step": 600
+    },
+    {
+      "epoch": 0.21539226244718748,
+      "grad_norm": 1.234375,
+      "learning_rate": 1.1943319838056682e-05,
+      "loss": 3.9778,
+      "step": 650
+    },
+    {
+      "epoch": 0.23196089802004805,
+      "grad_norm": 1.3671875,
+      "learning_rate": 1.2863452337136547e-05,
+      "loss": 3.971,
+      "step": 700
+    },
+    {
+      "epoch": 0.24852953359290864,
+      "grad_norm": 1.2265625,
+      "learning_rate": 1.3783584836216415e-05,
+      "loss": 3.9664,
+      "step": 750
+    },
+    {
+      "epoch": 0.2650981691657692,
+      "grad_norm": 1.2109375,
+      "learning_rate": 1.4703717335296282e-05,
+      "loss": 3.9561,
+      "step": 800
+    },
+    {
+      "epoch": 0.28166680473862976,
+      "grad_norm": 1.0859375,
+      "learning_rate": 1.562384983437615e-05,
+      "loss": 3.9459,
+      "step": 850
+    },
+    {
+      "epoch": 0.29823544031149035,
+      "grad_norm": 1.0,
+      "learning_rate": 1.6543982333456018e-05,
+      "loss": 3.9438,
+      "step": 900
+    },
+    {
+      "epoch": 0.31480407588435094,
+      "grad_norm": 1.0390625,
+      "learning_rate": 1.7464114832535886e-05,
+      "loss": 3.9386,
+      "step": 950
+    },
+    {
+      "epoch": 0.3313727114572115,
+      "grad_norm": 1.0625,
+      "learning_rate": 1.8384247331615755e-05,
+      "loss": 3.9285,
+      "step": 1000
+    },
+    {
+      "epoch": 0.34794134703007207,
+      "grad_norm": 1.1328125,
+      "learning_rate": 1.930437983069562e-05,
+      "loss": 3.9211,
+      "step": 1050
+    },
+    {
+      "epoch": 0.36450998260293266,
+      "grad_norm": 1.0859375,
+      "learning_rate": 2.022451232977549e-05,
+      "loss": 3.9216,
+      "step": 1100
+    },
+    {
+      "epoch": 0.38107861817579325,
+      "grad_norm": 0.9921875,
+      "learning_rate": 2.1144644828855357e-05,
+      "loss": 3.9118,
+      "step": 1150
+    },
+    {
+      "epoch": 0.3976472537486538,
+      "grad_norm": 1.0078125,
+      "learning_rate": 2.2064777327935222e-05,
+      "loss": 3.9059,
+      "step": 1200
+    },
+    {
+      "epoch": 0.4142158893215144,
+      "grad_norm": 1.03125,
+      "learning_rate": 2.298490982701509e-05,
+      "loss": 3.9019,
+      "step": 1250
+    },
+    {
+      "epoch": 0.43078452489437496,
+      "grad_norm": 1.0234375,
+      "learning_rate": 2.390504232609496e-05,
+      "loss": 3.9035,
+      "step": 1300
+    },
+    {
+      "epoch": 0.4473531604672355,
+      "grad_norm": 0.8671875,
+      "learning_rate": 2.4825174825174828e-05,
+      "loss": 3.8937,
+      "step": 1350
+    },
+    {
+      "epoch": 0.4639217960400961,
+      "grad_norm": 0.89453125,
+      "learning_rate": 2.5745307324254693e-05,
+      "loss": 3.881,
+      "step": 1400
+    },
+    {
+      "epoch": 0.4804904316129567,
+      "grad_norm": 0.90234375,
+      "learning_rate": 2.666543982333456e-05,
+      "loss": 3.8808,
+      "step": 1450
+    },
+    {
+      "epoch": 0.49705906718581727,
+      "grad_norm": 0.84375,
+      "learning_rate": 2.7585572322414427e-05,
+      "loss": 3.8782,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5136277027586779,
+      "grad_norm": 1.0,
+      "learning_rate": 2.8505704821494296e-05,
+      "loss": 3.8817,
+      "step": 1550
+    },
+    {
+      "epoch": 0.5301963383315385,
+      "grad_norm": 0.94140625,
+      "learning_rate": 2.942583732057416e-05,
+      "loss": 3.8718,
+      "step": 1600
+    },
+    {
+      "epoch": 0.5467649739043989,
+      "grad_norm": 0.80859375,
+      "learning_rate": 3.034596981965403e-05,
+      "loss": 3.8675,
+      "step": 1650
+    },
+    {
+      "epoch": 0.5633336094772595,
+      "grad_norm": 0.75390625,
+      "learning_rate": 3.12661023187339e-05,
+      "loss": 3.8699,
+      "step": 1700
+    },
+    {
+      "epoch": 0.5799022450501201,
+      "grad_norm": 0.77734375,
+      "learning_rate": 3.2186234817813766e-05,
+      "loss": 3.8645,
+      "step": 1750
+    },
+    {
+      "epoch": 0.5964708806229807,
+      "grad_norm": 0.86328125,
+      "learning_rate": 3.3106367316893635e-05,
+      "loss": 3.8601,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6130395161958413,
+      "grad_norm": 0.85546875,
+      "learning_rate": 3.4026499815973504e-05,
+      "loss": 3.8513,
+      "step": 1850
+    },
+    {
+      "epoch": 0.6296081517687019,
+      "grad_norm": 0.828125,
+      "learning_rate": 3.4946632315053365e-05,
+      "loss": 3.8583,
+      "step": 1900
+    },
+    {
+      "epoch": 0.6461767873415625,
+      "grad_norm": 0.8359375,
+      "learning_rate": 3.5866764814133234e-05,
+      "loss": 3.857,
+      "step": 1950
+    },
+    {
+      "epoch": 0.662745422914423,
+      "grad_norm": 0.796875,
+      "learning_rate": 3.67868973132131e-05,
+      "loss": 3.8488,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6793140584872835,
+      "grad_norm": 0.7734375,
+      "learning_rate": 3.770702981229297e-05,
+      "loss": 3.843,
+      "step": 2050
+    },
+    {
+      "epoch": 0.6958826940601441,
+      "grad_norm": 0.79296875,
+      "learning_rate": 3.862716231137284e-05,
+      "loss": 3.8413,
+      "step": 2100
+    },
+    {
+      "epoch": 0.7124513296330047,
+      "grad_norm": 0.8046875,
+      "learning_rate": 3.954729481045271e-05,
+      "loss": 3.836,
+      "step": 2150
+    },
+    {
+      "epoch": 0.7290199652058653,
+      "grad_norm": 0.7578125,
+      "learning_rate": 4.046742730953258e-05,
+      "loss": 3.8366,
+      "step": 2200
+    },
+    {
+      "epoch": 0.7455886007787259,
+      "grad_norm": 0.79296875,
+      "learning_rate": 4.138755980861244e-05,
+      "loss": 3.8347,
+      "step": 2250
+    },
+    {
+      "epoch": 0.7621572363515865,
+      "grad_norm": 0.80078125,
+      "learning_rate": 4.230769230769231e-05,
+      "loss": 3.8299,
+      "step": 2300
+    },
+    {
+      "epoch": 0.778725871924447,
+      "grad_norm": 0.75390625,
+      "learning_rate": 4.3227824806772176e-05,
+      "loss": 3.8187,
+      "step": 2350
+    },
+    {
+      "epoch": 0.7952945074973076,
+      "grad_norm": 0.76953125,
+      "learning_rate": 4.4147957305852044e-05,
+      "loss": 3.8225,
+      "step": 2400
+    },
+    {
+      "epoch": 0.8118631430701682,
+      "grad_norm": 0.81640625,
+      "learning_rate": 4.506808980493191e-05,
+      "loss": 3.8229,
+      "step": 2450
+    },
+    {
+      "epoch": 0.8284317786430287,
+      "grad_norm": 0.77734375,
+      "learning_rate": 4.598822230401178e-05,
+      "loss": 3.8245,
+      "step": 2500
+    },
+    {
+      "epoch": 0.8450004142158893,
+      "grad_norm": 0.78515625,
+      "learning_rate": 4.690835480309165e-05,
+      "loss": 3.8109,
+      "step": 2550
+    },
+    {
+      "epoch": 0.8615690497887499,
+      "grad_norm": 0.78125,
+      "learning_rate": 4.782848730217152e-05,
+      "loss": 3.8195,
+      "step": 2600
+    },
+    {
+      "epoch": 0.8781376853616105,
+      "grad_norm": 0.7890625,
+      "learning_rate": 4.874861980125138e-05,
+      "loss": 3.8125,
+      "step": 2650
+    },
+    {
+      "epoch": 0.894706320934471,
+      "grad_norm": 0.7578125,
+      "learning_rate": 4.966875230033125e-05,
+      "loss": 3.8131,
+      "step": 2700
+    },
+    {
+      "epoch": 0.9112749565073316,
+      "grad_norm": 0.73046875,
+      "learning_rate": 4.999998362078322e-05,
+      "loss": 3.819,
+      "step": 2750
+    },
+    {
+      "epoch": 0.9278435920801922,
+      "grad_norm": 0.75,
+      "learning_rate": 4.999989244747393e-05,
+      "loss": 3.8082,
+      "step": 2800
+    },
+    {
+      "epoch": 0.9444122276530528,
+      "grad_norm": 0.79296875,
+      "learning_rate": 4.9999721297876855e-05,
+      "loss": 3.8146,
+      "step": 2850
+    },
+    {
+      "epoch": 0.9609808632259134,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.999947017253951e-05,
+      "loss": 3.8042,
+      "step": 2900
+    },
+    {
+      "epoch": 0.977549498798774,
+      "grad_norm": 0.734375,
+      "learning_rate": 4.9999139072265274e-05,
+      "loss": 3.8072,
+      "step": 2950
+    },
+    {
+      "epoch": 0.9941181343716345,
+      "grad_norm": 0.7578125,
+      "learning_rate": 4.9998727998113335e-05,
+      "loss": 3.8008,
+      "step": 3000
+    },
+    {
+      "epoch": 1.0106039267666307,
+      "grad_norm": 0.31640625,
+      "learning_rate": 4.999823695139877e-05,
+      "loss": 3.7924,
+      "step": 3050
+    },
+    {
+      "epoch": 1.0271725623394914,
+      "grad_norm": 0.306640625,
+      "learning_rate": 4.999766593369246e-05,
+      "loss": 3.7963,
+      "step": 3100
+    },
+    {
+      "epoch": 1.0437411979123519,
+      "grad_norm": 0.33203125,
+      "learning_rate": 4.999701494682112e-05,
+      "loss": 3.7837,
+      "step": 3150
+    },
+    {
+      "epoch": 1.0603098334852126,
+      "grad_norm": 0.298828125,
+      "learning_rate": 4.999628399286731e-05,
+      "loss": 3.7942,
+      "step": 3200
+    },
+    {
+      "epoch": 1.076878469058073,
+      "grad_norm": 0.298828125,
+      "learning_rate": 4.99954730741694e-05,
+      "loss": 3.7819,
+      "step": 3250
+    },
+    {
+      "epoch": 1.0934471046309335,
+      "grad_norm": 0.296875,
+      "learning_rate": 4.999458219332157e-05,
+      "loss": 3.7868,
+      "step": 3300
+    },
+    {
+      "epoch": 1.1100157402037942,
+      "grad_norm": 0.294921875,
+      "learning_rate": 4.9993611353173794e-05,
+      "loss": 3.7924,
+      "step": 3350
+    },
+    {
+      "epoch": 1.1265843757766547,
+      "grad_norm": 0.29296875,
+      "learning_rate": 4.999256055683187e-05,
+      "loss": 3.7884,
+      "step": 3400
+    },
+    {
+      "epoch": 1.1431530113495154,
+      "grad_norm": 0.287109375,
+      "learning_rate": 4.999142980765736e-05,
+      "loss": 3.7875,
+      "step": 3450
+    },
+    {
+      "epoch": 1.159721646922376,
+      "grad_norm": 0.3125,
+      "learning_rate": 4.9990219109267596e-05,
+      "loss": 3.7827,
+      "step": 3500
+    },
+    {
+      "epoch": 1.1762902824952366,
+      "grad_norm": 0.314453125,
+      "learning_rate": 4.9988928465535686e-05,
+      "loss": 3.7832,
+      "step": 3550
+    },
+    {
+      "epoch": 1.192858918068097,
+      "grad_norm": 0.28515625,
+      "learning_rate": 4.9987557880590486e-05,
+      "loss": 3.7854,
+      "step": 3600
+    },
+    {
+      "epoch": 1.2094275536409578,
+      "grad_norm": 0.306640625,
+      "learning_rate": 4.998610735881659e-05,
+      "loss": 3.7765,
+      "step": 3650
+    },
+    {
+      "epoch": 1.2259961892138183,
+      "grad_norm": 0.27734375,
+      "learning_rate": 4.99845769048543e-05,
+      "loss": 3.7835,
+      "step": 3700
+    },
+    {
+      "epoch": 1.2425648247866787,
+      "grad_norm": 0.298828125,
+      "learning_rate": 4.998296652359965e-05,
+      "loss": 3.7809,
+      "step": 3750
+    },
+    {
+      "epoch": 1.2591334603595394,
+      "grad_norm": 0.310546875,
+      "learning_rate": 4.9981276220204344e-05,
+      "loss": 3.7849,
+      "step": 3800
+    },
+    {
+      "epoch": 1.2757020959324,
+      "grad_norm": 0.3125,
+      "learning_rate": 4.997950600007578e-05,
+      "loss": 3.7815,
+      "step": 3850
+    },
+    {
+      "epoch": 1.2922707315052606,
+      "grad_norm": 0.302734375,
+      "learning_rate": 4.997765586887702e-05,
+      "loss": 3.7793,
+      "step": 3900
+    },
+    {
+      "epoch": 1.308839367078121,
+      "grad_norm": 0.30859375,
+      "learning_rate": 4.997572583252672e-05,
+      "loss": 3.7729,
+      "step": 3950
+    },
+    {
+      "epoch": 1.3254080026509816,
+      "grad_norm": 0.29296875,
+      "learning_rate": 4.9973715897199226e-05,
+      "loss": 3.7745,
+      "step": 4000
+    },
+    {
+      "epoch": 1.3419766382238423,
+      "grad_norm": 0.32421875,
+      "learning_rate": 4.9971626069324435e-05,
+      "loss": 3.7688,
+      "step": 4050
+    },
+    {
+      "epoch": 1.358545273796703,
+      "grad_norm": 0.275390625,
+      "learning_rate": 4.996945635558785e-05,
+      "loss": 3.7748,
+      "step": 4100
+    },
+    {
+      "epoch": 1.3751139093695635,
+      "grad_norm": 0.291015625,
+      "learning_rate": 4.996720676293052e-05,
+      "loss": 3.7686,
+      "step": 4150
+    },
+    {
+      "epoch": 1.391682544942424,
+      "grad_norm": 0.287109375,
+      "learning_rate": 4.9964877298549045e-05,
+      "loss": 3.7736,
+      "step": 4200
+    },
+    {
+      "epoch": 1.4082511805152846,
+      "grad_norm": 0.306640625,
+      "learning_rate": 4.9962467969895535e-05,
+      "loss": 3.7751,
+      "step": 4250
+    },
+    {
+      "epoch": 1.4248198160881451,
+      "grad_norm": 0.2890625,
+      "learning_rate": 4.995997878467758e-05,
+      "loss": 3.7673,
+      "step": 4300
+    },
+    {
+      "epoch": 1.4413884516610058,
+      "grad_norm": 0.34375,
+      "learning_rate": 4.995740975085825e-05,
+      "loss": 3.7742,
+      "step": 4350
+    },
+    {
+      "epoch": 1.4579570872338663,
+      "grad_norm": 0.294921875,
+      "learning_rate": 4.9954760876656056e-05,
+      "loss": 3.7737,
+      "step": 4400
+    },
+    {
+      "epoch": 1.4745257228067268,
+      "grad_norm": 0.283203125,
+      "learning_rate": 4.995203217054493e-05,
+      "loss": 3.7704,
+      "step": 4450
+    },
+    {
+      "epoch": 1.4910943583795875,
+      "grad_norm": 0.294921875,
+      "learning_rate": 4.9949223641254156e-05,
+      "loss": 3.7693,
+      "step": 4500
+    },
+    {
+      "epoch": 1.507662993952448,
+      "grad_norm": 0.306640625,
+      "learning_rate": 4.994633529776842e-05,
+      "loss": 3.76,
+      "step": 4550
+    },
+    {
+      "epoch": 1.5242316295253087,
+      "grad_norm": 0.27734375,
+      "learning_rate": 4.994336714932771e-05,
+      "loss": 3.7617,
+      "step": 4600
+    },
+    {
+      "epoch": 1.5408002650981691,
+      "grad_norm": 0.287109375,
+      "learning_rate": 4.9940319205427335e-05,
+      "loss": 3.7737,
+      "step": 4650
+    },
+    {
+      "epoch": 1.5573689006710296,
+      "grad_norm": 0.310546875,
+      "learning_rate": 4.993719147581787e-05,
+      "loss": 3.7699,
+      "step": 4700
+    },
+    {
+      "epoch": 1.5739375362438903,
+      "grad_norm": 0.306640625,
+      "learning_rate": 4.9933983970505116e-05,
+      "loss": 3.7665,
+      "step": 4750
+    },
+    {
+      "epoch": 1.590506171816751,
+      "grad_norm": 0.30859375,
+      "learning_rate": 4.9930696699750095e-05,
+      "loss": 3.7622,
+      "step": 4800
+    },
+    {
+      "epoch": 1.6070748073896115,
+      "grad_norm": 0.287109375,
+      "learning_rate": 4.992732967406901e-05,
+      "loss": 3.7572,
+      "step": 4850
+    },
+    {
+      "epoch": 1.623643442962472,
+      "grad_norm": 0.3125,
+      "learning_rate": 4.992388290423318e-05,
+      "loss": 3.7626,
+      "step": 4900
+    },
+    {
+      "epoch": 1.6402120785353325,
+      "grad_norm": 0.328125,
+      "learning_rate": 4.9920356401269055e-05,
+      "loss": 3.7626,
+      "step": 4950
+    },
+    {
+      "epoch": 1.6567807141081932,
+      "grad_norm": 0.31640625,
+      "learning_rate": 4.991675017645815e-05,
+      "loss": 3.7626,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6567807141081932,
+      "eval_loss": 3.72454833984375,
+      "eval_runtime": 7.9243,
+      "eval_samples_per_second": 122.282,
+      "eval_steps_per_second": 2.019,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6733493496810539,
+      "grad_norm": 0.3046875,
+      "learning_rate": 4.991306424133701e-05,
+      "loss": 3.762,
+      "step": 5050
+    },
+    {
+      "epoch": 1.6899179852539143,
+      "grad_norm": 0.296875,
+      "learning_rate": 4.990929860769719e-05,
+      "loss": 3.7576,
+      "step": 5100
+    },
+    {
+      "epoch": 1.7064866208267748,
+      "grad_norm": 0.3203125,
+      "learning_rate": 4.990545328758518e-05,
+      "loss": 3.7624,
+      "step": 5150
+    },
+    {
+      "epoch": 1.7230552563996355,
+      "grad_norm": 0.302734375,
+      "learning_rate": 4.990152829330243e-05,
+      "loss": 3.757,
+      "step": 5200
+    },
+    {
+      "epoch": 1.7396238919724962,
+      "grad_norm": 0.283203125,
+      "learning_rate": 4.989752363740524e-05,
+      "loss": 3.7655,
+      "step": 5250
+    },
+    {
+      "epoch": 1.7561925275453567,
+      "grad_norm": 0.298828125,
+      "learning_rate": 4.989343933270477e-05,
+      "loss": 3.7575,
+      "step": 5300
+    },
+    {
+      "epoch": 1.7727611631182172,
+      "grad_norm": 0.30859375,
+      "learning_rate": 4.9889275392266984e-05,
+      "loss": 3.7618,
+      "step": 5350
+    },
+    {
+      "epoch": 1.7893297986910777,
+      "grad_norm": 0.30859375,
+      "learning_rate": 4.988503182941259e-05,
+      "loss": 3.7561,
+      "step": 5400
+    },
+    {
+      "epoch": 1.8058984342639384,
+      "grad_norm": 0.298828125,
+      "learning_rate": 4.988070865771702e-05,
+      "loss": 3.7645,
+      "step": 5450
+    },
+    {
+      "epoch": 1.822467069836799,
+      "grad_norm": 0.294921875,
+      "learning_rate": 4.9876305891010385e-05,
+      "loss": 3.7571,
+      "step": 5500
+    },
+    {
+      "epoch": 1.8390357054096595,
+      "grad_norm": 0.30859375,
+      "learning_rate": 4.987182354337744e-05,
+      "loss": 3.7565,
+      "step": 5550
+    },
+    {
+      "epoch": 1.85560434098252,
+      "grad_norm": 0.310546875,
+      "learning_rate": 4.986726162915748e-05,
+      "loss": 3.7604,
+      "step": 5600
+    },
+    {
+      "epoch": 1.8721729765553805,
+      "grad_norm": 0.28125,
+      "learning_rate": 4.9862620162944386e-05,
+      "loss": 3.7497,
+      "step": 5650
+    },
+    {
+      "epoch": 1.8887416121282412,
+      "grad_norm": 0.291015625,
+      "learning_rate": 4.9857899159586496e-05,
+      "loss": 3.7498,
+      "step": 5700
+    },
+    {
+      "epoch": 1.905310247701102,
+      "grad_norm": 0.302734375,
+      "learning_rate": 4.9853098634186625e-05,
+      "loss": 3.7488,
+      "step": 5750
+    },
+    {
+      "epoch": 1.9218788832739624,
+      "grad_norm": 0.29296875,
+      "learning_rate": 4.984821860210196e-05,
+      "loss": 3.7517,
+      "step": 5800
+    },
+    {
+      "epoch": 1.9384475188468229,
+      "grad_norm": 0.3125,
+      "learning_rate": 4.984325907894404e-05,
+      "loss": 3.7454,
+      "step": 5850
+    },
+    {
+      "epoch": 1.9550161544196836,
+      "grad_norm": 0.291015625,
+      "learning_rate": 4.98382200805787e-05,
+      "loss": 3.7446,
+      "step": 5900
+    },
+    {
+      "epoch": 1.9715847899925443,
+      "grad_norm": 0.30078125,
+      "learning_rate": 4.9833101623126034e-05,
+      "loss": 3.751,
+      "step": 5950
+    },
+    {
+      "epoch": 1.9881534255654048,
+      "grad_norm": 0.296875,
+      "learning_rate": 4.982790372296031e-05,
+      "loss": 3.7485,
+      "step": 6000
+    },
+    {
+      "epoch": 2.004639217960401,
+      "grad_norm": 0.341796875,
+      "learning_rate": 4.9822626396709965e-05,
+      "loss": 3.7467,
+      "step": 6050
+    },
+    {
+      "epoch": 2.0212078535332614,
+      "grad_norm": 0.341796875,
+      "learning_rate": 4.98172696612575e-05,
+      "loss": 3.7434,
+      "step": 6100
+    },
+    {
+      "epoch": 2.0377764891061223,
+      "grad_norm": 0.330078125,
+      "learning_rate": 4.981183353373946e-05,
+      "loss": 3.7451,
+      "step": 6150
+    },
+    {
+      "epoch": 2.054345124678983,
+      "grad_norm": 0.328125,
+      "learning_rate": 4.980631803154638e-05,
+      "loss": 3.7338,
+      "step": 6200
+    },
+    {
+      "epoch": 2.0709137602518433,
+      "grad_norm": 0.333984375,
+      "learning_rate": 4.98007231723227e-05,
+      "loss": 3.7348,
+      "step": 6250
+    },
+    {
+      "epoch": 2.0874823958247037,
+      "grad_norm": 0.3359375,
+      "learning_rate": 4.979504897396675e-05,
+      "loss": 3.7295,
+      "step": 6300
+    },
+    {
+      "epoch": 2.104051031397564,
+      "grad_norm": 0.365234375,
+      "learning_rate": 4.978929545463066e-05,
+      "loss": 3.7357,
+      "step": 6350
+    },
+    {
+      "epoch": 2.120619666970425,
+      "grad_norm": 0.365234375,
+      "learning_rate": 4.97834626327203e-05,
+      "loss": 3.7387,
+      "step": 6400
+    },
+    {
+      "epoch": 2.1371883025432856,
+      "grad_norm": 0.345703125,
+      "learning_rate": 4.9777550526895265e-05,
+      "loss": 3.7359,
+      "step": 6450
+    },
+    {
+      "epoch": 2.153756938116146,
+      "grad_norm": 0.357421875,
+      "learning_rate": 4.977155915606877e-05,
+      "loss": 3.7359,
+      "step": 6500
+    },
+    {
+      "epoch": 2.1703255736890066,
+      "grad_norm": 0.330078125,
+      "learning_rate": 4.9765488539407586e-05,
+      "loss": 3.7333,
+      "step": 6550
+    },
+    {
+      "epoch": 2.186894209261867,
+      "grad_norm": 0.33203125,
+      "learning_rate": 4.975933869633202e-05,
+      "loss": 3.7296,
+      "step": 6600
+    },
+    {
+      "epoch": 2.203462844834728,
+      "grad_norm": 0.3125,
+      "learning_rate": 4.9753109646515814e-05,
+      "loss": 3.7297,
+      "step": 6650
+    },
+    {
+      "epoch": 2.2200314804075885,
+      "grad_norm": 0.361328125,
+      "learning_rate": 4.974680140988612e-05,
+      "loss": 3.7334,
+      "step": 6700
+    },
+    {
+      "epoch": 2.236600115980449,
+      "grad_norm": 0.33984375,
+      "learning_rate": 4.974041400662338e-05,
+      "loss": 3.7342,
+      "step": 6750
+    },
+    {
+      "epoch": 2.2531687515533094,
+      "grad_norm": 0.376953125,
+      "learning_rate": 4.973394745716133e-05,
+      "loss": 3.726,
+      "step": 6800
+    },
+    {
+      "epoch": 2.2697373871261703,
+      "grad_norm": 0.35546875,
+      "learning_rate": 4.972740178218688e-05,
+      "loss": 3.7359,
+      "step": 6850
+    },
+    {
+      "epoch": 2.286306022699031,
+      "grad_norm": 0.322265625,
+      "learning_rate": 4.972077700264007e-05,
+      "loss": 3.7298,
+      "step": 6900
+    },
+    {
+      "epoch": 2.3028746582718913,
+      "grad_norm": 0.326171875,
+      "learning_rate": 4.9714073139714004e-05,
+      "loss": 3.731,
+      "step": 6950
+    },
+    {
+      "epoch": 2.319443293844752,
+      "grad_norm": 0.337890625,
+      "learning_rate": 4.970729021485476e-05,
+      "loss": 3.7268,
+      "step": 7000
+    },
+    {
+      "epoch": 2.3360119294176123,
+      "grad_norm": 0.33203125,
+      "learning_rate": 4.9700428249761386e-05,
+      "loss": 3.7249,
+      "step": 7050
+    },
+    {
+      "epoch": 2.352580564990473,
+      "grad_norm": 0.33203125,
+      "learning_rate": 4.969348726638574e-05,
+      "loss": 3.7297,
+      "step": 7100
+    },
+    {
+      "epoch": 2.3691492005633337,
+      "grad_norm": 0.34765625,
+      "learning_rate": 4.968646728693248e-05,
+      "loss": 3.728,
+      "step": 7150
+    },
+    {
+      "epoch": 2.385717836136194,
+      "grad_norm": 0.328125,
+      "learning_rate": 4.967936833385898e-05,
+      "loss": 3.7298,
+      "step": 7200
+    },
+    {
+      "epoch": 2.4022864717090546,
+      "grad_norm": 0.357421875,
+      "learning_rate": 4.9672190429875266e-05,
+      "loss": 3.7228,
+      "step": 7250
+    },
+    {
+      "epoch": 2.4188551072819156,
+      "grad_norm": 0.3671875,
+      "learning_rate": 4.96649335979439e-05,
+      "loss": 3.7254,
+      "step": 7300
+    },
+    {
+      "epoch": 2.435423742854776,
+      "grad_norm": 0.36328125,
+      "learning_rate": 4.9657597861279976e-05,
+      "loss": 3.7284,
+      "step": 7350
+    },
+    {
+      "epoch": 2.4519923784276365,
+      "grad_norm": 0.31640625,
+      "learning_rate": 4.965018324335099e-05,
+      "loss": 3.7213,
+      "step": 7400
+    },
+    {
+      "epoch": 2.468561014000497,
+      "grad_norm": 0.310546875,
+      "learning_rate": 4.964268976787679e-05,
+      "loss": 3.7224,
+      "step": 7450
+    },
+    {
+      "epoch": 2.4851296495733575,
+      "grad_norm": 0.330078125,
+      "learning_rate": 4.9635117458829496e-05,
+      "loss": 3.7222,
+      "step": 7500
+    },
+    {
+      "epoch": 2.501698285146218,
+      "grad_norm": 0.322265625,
+      "learning_rate": 4.962746634043341e-05,
+      "loss": 3.7286,
+      "step": 7550
+    },
+    {
+      "epoch": 2.518266920719079,
+      "grad_norm": 0.37890625,
+      "learning_rate": 4.961973643716497e-05,
+      "loss": 3.7287,
+      "step": 7600
+    },
+    {
+      "epoch": 2.5348355562919394,
+      "grad_norm": 0.326171875,
+      "learning_rate": 4.961192777375263e-05,
+      "loss": 3.7208,
+      "step": 7650
+    },
+    {
+      "epoch": 2.5514041918648,
+      "grad_norm": 0.3515625,
+      "learning_rate": 4.9604040375176816e-05,
+      "loss": 3.7305,
+      "step": 7700
+    },
+    {
+      "epoch": 2.5679728274376608,
+      "grad_norm": 0.330078125,
+      "learning_rate": 4.9596074266669844e-05,
+      "loss": 3.7171,
+      "step": 7750
+    },
+    {
+      "epoch": 2.5845414630105212,
+      "grad_norm": 0.32421875,
+      "learning_rate": 4.95880294737158e-05,
+      "loss": 3.721,
+      "step": 7800
+    },
+    {
+      "epoch": 2.6011100985833817,
+      "grad_norm": 0.310546875,
+      "learning_rate": 4.9579906022050517e-05,
+      "loss": 3.7225,
+      "step": 7850
+    },
+    {
+      "epoch": 2.617678734156242,
+      "grad_norm": 0.322265625,
+      "learning_rate": 4.957170393766143e-05,
+      "loss": 3.7215,
+      "step": 7900
+    },
+    {
+      "epoch": 2.6342473697291027,
+      "grad_norm": 0.345703125,
+      "learning_rate": 4.956342324678755e-05,
+      "loss": 3.7237,
+      "step": 7950
+    },
+    {
+      "epoch": 2.650816005301963,
+      "grad_norm": 0.3125,
+      "learning_rate": 4.9555063975919345e-05,
+      "loss": 3.7189,
+      "step": 8000
+    },
+    {
+      "epoch": 2.667384640874824,
+      "grad_norm": 0.314453125,
+      "learning_rate": 4.954662615179868e-05,
+      "loss": 3.7209,
+      "step": 8050
+    },
+    {
+      "epoch": 2.6839532764476846,
+      "grad_norm": 0.328125,
+      "learning_rate": 4.953810980141869e-05,
+      "loss": 3.7267,
+      "step": 8100
+    },
+    {
+      "epoch": 2.700521912020545,
+      "grad_norm": 0.32421875,
+      "learning_rate": 4.952951495202374e-05,
+      "loss": 3.72,
+      "step": 8150
+    },
+    {
+      "epoch": 2.717090547593406,
+      "grad_norm": 0.33203125,
+      "learning_rate": 4.9520841631109315e-05,
+      "loss": 3.7168,
+      "step": 8200
+    },
+    {
+      "epoch": 2.7336591831662664,
+      "grad_norm": 0.33203125,
+      "learning_rate": 4.951208986642194e-05,
+      "loss": 3.7167,
+      "step": 8250
+    },
+    {
+      "epoch": 2.750227818739127,
+      "grad_norm": 0.32421875,
+      "learning_rate": 4.9503259685959074e-05,
+      "loss": 3.7192,
+      "step": 8300
+    },
+    {
+      "epoch": 2.7667964543119874,
+      "grad_norm": 0.3515625,
+      "learning_rate": 4.949435111796905e-05,
+      "loss": 3.7162,
+      "step": 8350
+    },
+    {
+      "epoch": 2.783365089884848,
+      "grad_norm": 0.328125,
+      "learning_rate": 4.948536419095095e-05,
+      "loss": 3.7161,
+      "step": 8400
+    },
+    {
+      "epoch": 2.7999337254577084,
+      "grad_norm": 0.32421875,
+      "learning_rate": 4.947629893365453e-05,
+      "loss": 3.718,
+      "step": 8450
+    },
+    {
+      "epoch": 2.8165023610305693,
+      "grad_norm": 0.322265625,
+      "learning_rate": 4.9467155375080165e-05,
+      "loss": 3.7152,
+      "step": 8500
+    },
+    {
+      "epoch": 2.8330709966034298,
+      "grad_norm": 0.34375,
+      "learning_rate": 4.9457933544478684e-05,
+      "loss": 3.7237,
+      "step": 8550
+    },
+    {
+      "epoch": 2.8496396321762902,
+      "grad_norm": 0.330078125,
+      "learning_rate": 4.944863347135132e-05,
+      "loss": 3.7092,
+      "step": 8600
+    },
+    {
+      "epoch": 2.8662082677491507,
+      "grad_norm": 0.328125,
+      "learning_rate": 4.943925518544962e-05,
+      "loss": 3.7174,
+      "step": 8650
+    },
+    {
+      "epoch": 2.8827769033220116,
+      "grad_norm": 0.3359375,
+      "learning_rate": 4.942979871677532e-05,
+      "loss": 3.7162,
+      "step": 8700
+    },
+    {
+      "epoch": 2.899345538894872,
+      "grad_norm": 0.359375,
+      "learning_rate": 4.94202640955803e-05,
+      "loss": 3.7152,
+      "step": 8750
+    },
+    {
+      "epoch": 2.9159141744677326,
+      "grad_norm": 0.357421875,
+      "learning_rate": 4.9410651352366435e-05,
+      "loss": 3.7181,
+      "step": 8800
+    },
+    {
+      "epoch": 2.932482810040593,
+      "grad_norm": 0.333984375,
+      "learning_rate": 4.94009605178855e-05,
+      "loss": 3.7177,
+      "step": 8850
+    },
+    {
+      "epoch": 2.9490514456134536,
+      "grad_norm": 0.341796875,
+      "learning_rate": 4.939119162313912e-05,
+      "loss": 3.7216,
+      "step": 8900
+    },
+    {
+      "epoch": 2.965620081186314,
+      "grad_norm": 0.3671875,
+      "learning_rate": 4.9381344699378626e-05,
+      "loss": 3.712,
+      "step": 8950
+    },
+    {
+      "epoch": 2.982188716759175,
+      "grad_norm": 0.322265625,
+      "learning_rate": 4.937141977810497e-05,
+      "loss": 3.7199,
+      "step": 9000
+    },
+    {
+      "epoch": 2.9987573523320354,
+      "grad_norm": 0.326171875,
+      "learning_rate": 4.936141689106861e-05,
+      "loss": 3.7058,
+      "step": 9050
+    },
+    {
+      "epoch": 3.0152431447270316,
+      "grad_norm": 0.408203125,
+      "learning_rate": 4.935133607026945e-05,
+      "loss": 3.6969,
+      "step": 9100
+    },
+    {
+      "epoch": 3.0318117802998925,
+      "grad_norm": 0.41796875,
+      "learning_rate": 4.934117734795669e-05,
+      "loss": 3.706,
+      "step": 9150
+    },
+    {
+      "epoch": 3.048380415872753,
+      "grad_norm": 0.369140625,
+      "learning_rate": 4.933094075662874e-05,
+      "loss": 3.7006,
+      "step": 9200
+    },
+    {
+      "epoch": 3.0649490514456135,
+      "grad_norm": 0.361328125,
+      "learning_rate": 4.9320626329033134e-05,
+      "loss": 3.703,
+      "step": 9250
+    },
+    {
+      "epoch": 3.081517687018474,
+      "grad_norm": 0.376953125,
+      "learning_rate": 4.9310234098166396e-05,
+      "loss": 3.7084,
+      "step": 9300
+    },
+    {
+      "epoch": 3.0980863225913344,
+      "grad_norm": 0.388671875,
+      "learning_rate": 4.929976409727395e-05,
+      "loss": 3.6991,
+      "step": 9350
+    },
+    {
+      "epoch": 3.1146549581641954,
+      "grad_norm": 0.40234375,
+      "learning_rate": 4.928921635985001e-05,
+      "loss": 3.7057,
+      "step": 9400
+    },
+    {
+      "epoch": 3.131223593737056,
+      "grad_norm": 0.392578125,
+      "learning_rate": 4.9278590919637466e-05,
+      "loss": 3.703,
+      "step": 9450
+    },
+    {
+      "epoch": 3.1477922293099163,
+      "grad_norm": 0.36328125,
+      "learning_rate": 4.9267887810627824e-05,
+      "loss": 3.7103,
+      "step": 9500
+    },
+    {
+      "epoch": 3.164360864882777,
+      "grad_norm": 0.359375,
+      "learning_rate": 4.9257107067061e-05,
+      "loss": 3.7017,
+      "step": 9550
+    },
+    {
+      "epoch": 3.1809295004556373,
+      "grad_norm": 0.3828125,
+      "learning_rate": 4.924624872342531e-05,
+      "loss": 3.6937,
+      "step": 9600
+    },
+    {
+      "epoch": 3.197498136028498,
+      "grad_norm": 0.404296875,
+      "learning_rate": 4.92353128144573e-05,
+      "loss": 3.7063,
+      "step": 9650
+    },
+    {
+      "epoch": 3.2140667716013587,
+      "grad_norm": 0.373046875,
+      "learning_rate": 4.9224299375141656e-05,
+      "loss": 3.6978,
+      "step": 9700
+    },
+    {
+      "epoch": 3.230635407174219,
+      "grad_norm": 0.35546875,
+      "learning_rate": 4.921320844071109e-05,
+      "loss": 3.705,
+      "step": 9750
+    },
+    {
+      "epoch": 3.2472040427470796,
+      "grad_norm": 0.36328125,
+      "learning_rate": 4.920204004664624e-05,
+      "loss": 3.704,
+      "step": 9800
+    },
+    {
+      "epoch": 3.26377267831994,
+      "grad_norm": 0.38671875,
+      "learning_rate": 4.91907942286755e-05,
+      "loss": 3.703,
+      "step": 9850
+    },
+    {
+      "epoch": 3.280341313892801,
+      "grad_norm": 0.37109375,
+      "learning_rate": 4.917947102277499e-05,
+      "loss": 3.7027,
+      "step": 9900
+    },
+    {
+      "epoch": 3.2969099494656615,
+      "grad_norm": 0.376953125,
+      "learning_rate": 4.916807046516838e-05,
+      "loss": 3.6977,
+      "step": 9950
+    },
+    {
+      "epoch": 3.313478585038522,
+      "grad_norm": 0.359375,
+      "learning_rate": 4.9156592592326814e-05,
+      "loss": 3.6968,
+      "step": 10000
+    },
+    {
+      "epoch": 3.313478585038522,
+      "eval_loss": 3.6868932247161865,
+      "eval_runtime": 8.062,
+      "eval_samples_per_second": 120.194,
+      "eval_steps_per_second": 1.985,
+      "step": 10000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 90540,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 5000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.95201588996714e+19,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-10000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28bc9829b8c8fa8bf181924e8f4aa71e88dec472de000157e8bb54e4440b7211
+size 5841