mazesmazes
/

tiny-audio-residual

Automatic Speech Recognition

speech-recognition

Model card Files Files and versions

mazesmazes commited on 15 days ago

Commit

f096b62

·

verified ·

1 Parent(s): 4941335

Training in progress - step 500

Files changed (2) hide show

asr_modeling.py +4 -6
tokenizer.json +2 -2

asr_modeling.py CHANGED Viewed

@@ -101,10 +101,6 @@ class ASRModel(PreTrainedModel):
         # Audio projector (trainable)
         self.projector = self._create_projector(config, target_dtype)
-        # Loss function
-        self.label_smoothing = getattr(config, "label_smoothing", 0.1)
-        self.loss_fct = nn.CrossEntropyLoss(ignore_index=-100, label_smoothing=self.label_smoothing)
         # For model parallelism
         self._no_split_modules = getattr(self.language_model, "_no_split_modules", [])
@@ -393,8 +389,10 @@ class ASRModel(PreTrainedModel):
             logits = outputs.logits
             shift_logits = logits[..., :-1, :].contiguous()
             shift_labels = labels[..., 1:].contiguous()
-            loss = self.loss_fct(
-                shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1)
             )
         return CausalLMOutputWithPast(

         # Audio projector (trainable)
         self.projector = self._create_projector(config, target_dtype)
         # For model parallelism
         self._no_split_modules = getattr(self.language_model, "_no_split_modules", [])
             logits = outputs.logits
             shift_logits = logits[..., :-1, :].contiguous()
             shift_labels = labels[..., 1:].contiguous()
+            loss = F.cross_entropy(
+                shift_logits.view(-1, shift_logits.size(-1)),
+                shift_labels.view(-1),
+                ignore_index=-100,
             )
         return CausalLMOutputWithPast(

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4aeaf198f783cbf58d8cd59812baac429ffe49147bf9648f6618de20b8d4a4c
-size 17209003

 version https://git-lfs.github.com/spec/v1
+oid sha256:64999f2f5e05d34613701df1999669c5dce7e3891e1628a002518ee68a8626d1
+size 17209101