Spaces:

justus-tobias
/

ASR_Model_Comparison

Paused

App Files Files Community

j-tobias commited on Aug 12, 2024

Commit

f3d14a8

1 Parent(s): ecc69a8

cleaned

Browse files

Files changed (5) hide show

README.md +1 -1
createevalset.py +0 -0
eval.py +0 -22
model.py +16 -6
test.v01.py +0 -25

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-title: VocalVenturer
 emoji: 💬
 colorFrom: purple
 colorTo: blue

 ---
+title: ASR Model Comparison
 emoji: 💬
 colorFrom: purple
 colorTo: blue

createevalset.py DELETED Viewed

File without changes

eval.py DELETED Viewed

@@ -1,22 +0,0 @@
-from dataset import Dataset
-from model import Models
-def data(dataset):
-    for i, item in enumerate(dataset):
-        yield {**item["audio"], "reference": item["norm_text"]}
-def streamed_infernce(dataset, pipeline):
-    # placeholders for predictions and references
-    predictions = []
-    references = []
-    # run streamed inference
-    for out in pipeline(data(dataset), batch_size=16):
-        predictions.append(pipeline(out["text"]))
-        references.append(out["reference"][0])
-    return predictions, references

model.py CHANGED Viewed

@@ -2,7 +2,7 @@
 from transformers import Speech2TextForConditionalGeneration, Speech2TextProcessor
 from transformers import pipeline
-import nemo.collections.asr as nemo_asr
 from dataset import Dataset
 from utils import data
@@ -44,8 +44,8 @@ class Model:
             self.model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-medium-librispeech-asr")
             self.processor = Speech2TextProcessor.from_pretrained("facebook/s2t-medium-librispeech-asr", do_upper_case=True)
-        elif option == "nvidia/stt_en_fastconformer_ctc_large":
-            self.model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/stt_en_fastconformer_ctc_large")
     def select(self, option:str=None):
         if option not in self.options:
@@ -61,6 +61,8 @@ class Model:
             references, predictions = self._process_openai_whisper_tiny_en(dataset)
         elif self.selected == "facebook/s2t-medium-librispeech-asr":
             references, predictions = self._process_facebook_s2t_medium(dataset)
         return references, predictions
@@ -85,8 +87,6 @@ class Model:
     def _process_facebook_s2t_medium(self, DaTaSeT:Dataset):
         def map_to_pred(batch):
             features = self.processor(batch["audio"]["array"], sampling_rate=16000, padding=True, return_tensors="pt")
             input_features = features.input_features
@@ -109,4 +109,14 @@ class Model:
             predictions.append(sample['transcription'])
             references.append(sample[text_column])
-        return references, predictions

 from transformers import Speech2TextForConditionalGeneration, Speech2TextProcessor
 from transformers import pipeline
+# import nemo.collections.asr as nemo_asr
 from dataset import Dataset
 from utils import data
             self.model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-medium-librispeech-asr")
             self.processor = Speech2TextProcessor.from_pretrained("facebook/s2t-medium-librispeech-asr", do_upper_case=True)
+        # elif option == "nvidia/stt_en_fastconformer_ctc_large":
+        #     self.model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/stt_en_fastconformer_ctc_large")
     def select(self, option:str=None):
         if option not in self.options:
             references, predictions = self._process_openai_whisper_tiny_en(dataset)
         elif self.selected == "facebook/s2t-medium-librispeech-asr":
             references, predictions = self._process_facebook_s2t_medium(dataset)
+        # elif self.selected == "nvidia/stt_en_fastconformer_ctc_large":
+        #     references, predictions = self._process_facebook_s2t_medium(dataset)
         return references, predictions
     def _process_facebook_s2t_medium(self, DaTaSeT:Dataset):
         def map_to_pred(batch):
             features = self.processor(batch["audio"]["array"], sampling_rate=16000, padding=True, return_tensors="pt")
             input_features = features.input_features
             predictions.append(sample['transcription'])
             references.append(sample[text_column])
+        return references, predictions
+    def _process_stt_en_fastconformer_ctc_large(self, DaTaSeT:Dataset):
+        self.model.transcribe(['2086-149220-0033.wav'])
+        predictions = []
+        references = []
+        return references, predictions

test.v01.py DELETED Viewed

@@ -1,25 +0,0 @@
-from utils import hf_login, data, compute_wer
-from dataset import Dataset
-from model import Model
-hf_login()
-def run_tests (dataset_choice:str, model:str):
-    MoDeL = Model()
-    MoDeL.select(model)
-    MoDeL.load()
-    DaTaSeT = Dataset(100)
-    DaTaSeT.load(dataset_choice)
-    references, predictions = MoDeL.process(DaTaSeT)
-    wer = compute_wer(references=references, predictions=predictions)
-    return wer
-print("WER:", run_tests(dataset_choice="GigaSpeech", model="facebook/s2t-medium-librispeech-asr"))