Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

README.md +34 -0
adapter_config.json +26 -0
adapter_model.bin +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer_config.json +34 -0
trainer_state.json +595 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,34 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.6.0.dev0
+- PEFT 0.6.0.dev0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "PY007/TinyLlama-1.1B-step-50K-105b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "up_proj",
+    "o_proj",
+    "k_proj",
+    "down_proj",
+    "gate_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2366632691f0caebb1875143b0ff2df47780829e6104bacda9a5bd7ed63663c4
+size 201961693

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bfc89dd0802df061b3c0478a7472692faac92080167a7d240abe9919b2bd452
+size 403890693

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a537a0c558a32380d7f6d1f0733c99d073f4b2d7677e661c600248e6c2409014
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7db45d30e786cecd0b5abfa18608b3b6e5dd4808002cfdb6aae9f52c90ccb40a
+size 627

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_default_system_prompt": true
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,595 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9825242718446603,
+  "eval_steps": 500,
+  "global_step": 192,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 2.1983,
+      "step": 2
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 2.3655,
+      "step": 4
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2e-05,
+      "loss": 2.4304,
+      "step": 6
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.999429490929718e-05,
+      "loss": 2.5673,
+      "step": 8
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 1.9977186146800707e-05,
+      "loss": 2.6146,
+      "step": 10
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 1.994869323391895e-05,
+      "loss": 2.6325,
+      "step": 12
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1.990884868158239e-05,
+      "loss": 2.678,
+      "step": 14
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1.985769795314804e-05,
+      "loss": 3.0644,
+      "step": 16
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 1.9795299412524948e-05,
+      "loss": 2.1676,
+      "step": 18
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.9721724257579907e-05,
+      "loss": 2.2736,
+      "step": 20
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.963705643889941e-05,
+      "loss": 2.2697,
+      "step": 22
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.954139256400049e-05,
+      "loss": 2.5691,
+      "step": 24
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.9434841787099804e-05,
+      "loss": 2.5865,
+      "step": 26
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 1.9317525684566686e-05,
+      "loss": 2.6867,
+      "step": 28
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.918957811620231e-05,
+      "loss": 2.6541,
+      "step": 30
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 1.9051145072503216e-05,
+      "loss": 3.1472,
+      "step": 32
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.8902384508083518e-05,
+      "loss": 2.1783,
+      "step": 34
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 1.8743466161445823e-05,
+      "loss": 2.3746,
+      "step": 36
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.857457136130651e-05,
+      "loss": 2.5552,
+      "step": 38
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.839589281969639e-05,
+      "loss": 2.486,
+      "step": 40
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.8207634412072765e-05,
+      "loss": 2.5864,
+      "step": 42
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.8010010944693846e-05,
+      "loss": 2.55,
+      "step": 44
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.780324790952092e-05,
+      "loss": 2.5458,
+      "step": 46
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.758758122692791e-05,
+      "loss": 2.8695,
+      "step": 48
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.7363256976511972e-05,
+      "loss": 2.2066,
+      "step": 50
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.7130531116312202e-05,
+      "loss": 2.3567,
+      "step": 52
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.688966919075687e-05,
+      "loss": 2.3726,
+      "step": 54
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.6640946027672395e-05,
+      "loss": 2.4341,
+      "step": 56
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.6384645424699835e-05,
+      "loss": 2.6069,
+      "step": 58
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1.612105982547663e-05,
+      "loss": 2.4177,
+      "step": 60
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.5850489985953076e-05,
+      "loss": 2.6455,
+      "step": 62
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.5573244631224364e-05,
+      "loss": 2.7209,
+      "step": 64
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1.5289640103269626e-05,
+      "loss": 2.2111,
+      "step": 66
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 2.3059,
+      "step": 68
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 1.4704654806027558e-05,
+      "loss": 2.2463,
+      "step": 70
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.4403941515576344e-05,
+      "loss": 2.4033,
+      "step": 72
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.4098203247965876e-05,
+      "loss": 2.5915,
+      "step": 74
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.3787788856105762e-05,
+      "loss": 2.4161,
+      "step": 76
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.3473052528448203e-05,
+      "loss": 2.5666,
+      "step": 78
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.3154353384852559e-05,
+      "loss": 2.4965,
+      "step": 80
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.283205506682304e-05,
+      "loss": 2.1462,
+      "step": 82
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.2506525322587207e-05,
+      "loss": 2.2062,
+      "step": 84
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.2178135587488515e-05,
+      "loss": 2.3648,
+      "step": 86
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.1847260560171895e-05,
+      "loss": 2.3471,
+      "step": 88
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.1514277775045768e-05,
+      "loss": 2.5153,
+      "step": 90
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.1179567171508463e-05,
+      "loss": 2.3952,
+      "step": 92
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.0843510660430447e-05,
+      "loss": 2.3512,
+      "step": 94
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 1.0506491688387128e-05,
+      "loss": 2.6351,
+      "step": 96
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 1.0168894800139311e-05,
+      "loss": 2.3342,
+      "step": 98
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 9.83110519986069e-06,
+      "loss": 2.1042,
+      "step": 100
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 9.493508311612874e-06,
+      "loss": 2.2379,
+      "step": 102
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.156489339569555e-06,
+      "loss": 2.417,
+      "step": 104
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 8.820432828491542e-06,
+      "loss": 2.3971,
+      "step": 106
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 8.485722224954237e-06,
+      "loss": 2.535,
+      "step": 108
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 8.15273943982811e-06,
+      "loss": 2.4891,
+      "step": 110
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 7.821864412511485e-06,
+      "loss": 2.4034,
+      "step": 112
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 7.493474677412795e-06,
+      "loss": 2.2419,
+      "step": 114
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 7.16794493317696e-06,
+      "loss": 2.2467,
+      "step": 116
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 6.845646615147445e-06,
+      "loss": 2.4427,
+      "step": 118
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 6.526947471551799e-06,
+      "loss": 2.3395,
+      "step": 120
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 6.21221114389424e-06,
+      "loss": 2.3874,
+      "step": 122
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 5.901796752034128e-06,
+      "loss": 2.2733,
+      "step": 124
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 5.5960584844236565e-06,
+      "loss": 2.5074,
+      "step": 126
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 5.295345193972445e-06,
+      "loss": 2.3718,
+      "step": 128
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 2.0442,
+      "step": 130
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 4.710359896730379e-06,
+      "loss": 2.276,
+      "step": 132
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 4.426755368775637e-06,
+      "loss": 2.3767,
+      "step": 134
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 4.149510014046922e-06,
+      "loss": 2.3219,
+      "step": 136
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 3.878940174523371e-06,
+      "loss": 2.4413,
+      "step": 138
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 3.6153545753001663e-06,
+      "loss": 2.3952,
+      "step": 140
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 3.3590539723276083e-06,
+      "loss": 2.4534,
+      "step": 142
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 3.110330809243134e-06,
+      "loss": 2.4202,
+      "step": 144
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 2.869468883687798e-06,
+      "loss": 2.0796,
+      "step": 146
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 2.6367430234880286e-06,
+      "loss": 2.1677,
+      "step": 148
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 2.4124187730720916e-06,
+      "loss": 2.3557,
+      "step": 150
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 2.196752090479083e-06,
+      "loss": 2.298,
+      "step": 152
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 1.9899890553061565e-06,
+      "loss": 2.3278,
+      "step": 154
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.7923655879272395e-06,
+      "loss": 2.2523,
+      "step": 156
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 1.60410718030361e-06,
+      "loss": 2.403,
+      "step": 158
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.425428638693489e-06,
+      "loss": 2.3144,
+      "step": 160
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 1.2565338385541792e-06,
+      "loss": 2.1642,
+      "step": 162
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 1.097615491916485e-06,
+      "loss": 2.2077,
+      "step": 164
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 9.488549274967873e-07,
+      "loss": 2.3047,
+      "step": 166
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 8.10421883797694e-07,
+      "loss": 2.2174,
+      "step": 168
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 6.824743154333157e-07,
+      "loss": 2.4378,
+      "step": 170
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 5.651582129001987e-07,
+      "loss": 2.3691,
+      "step": 172
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 4.5860743599951186e-07,
+      "loss": 2.3489,
+      "step": 174
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 3.629435611005916e-07,
+      "loss": 2.4012,
+      "step": 176
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.7827574242009434e-07,
+      "loss": 2.1272,
+      "step": 178
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.0470058747505516e-07,
+      "loss": 2.1446,
+      "step": 180
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.4230204685196202e-07,
+      "loss": 2.1542,
+      "step": 182
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 9.11513184176116e-08,
+      "loss": 2.2928,
+      "step": 184
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 5.1306766081048456e-08,
+      "loss": 2.4749,
+      "step": 186
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 2.2813853199292745e-08,
+      "loss": 2.3253,
+      "step": 188
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 5.705090702819993e-09,
+      "loss": 2.2604,
+      "step": 190
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.0,
+      "loss": 2.2712,
+      "step": 192
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 192,
+  "num_train_epochs": 3,
+  "save_steps": 64,
+  "total_flos": 6344939734437888.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5dfd52750c9c510b5182d4fe6169babb15afed71cd571c6d3e58ec1daa374704
+size 4027