AudioBench-Leaderboard-Extend

Running

App Files Files Community

zhuohan-7 commited on Dec 13, 2024

Commit

5792938

verified ·

1 Parent(s): 2c6e496

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

app/content.py +48 -34
app/draw_diagram.py +16 -12
app/pages.py +30 -3

app/content.py CHANGED Viewed

@@ -7,8 +7,15 @@ asr_datsets = {'LibriSpeech-Test-Clean': 'A clean, high-quality testset of the L
                 'Earnings22-Test'        : 'Similar to Earnings21, but covering earnings calls from 2022.',
                 'Tedlium3-Test'          : 'A test set derived from TED talks, covering diverse speakers and topics.',
                 'Tedlium3-Long-form-Test': 'A longer version of the TED-LIUM dataset, containing extended audio samples. This poses challenges to existing fusion methods in handling long audios. However, it provides benchmark for future development.',
                 'IMDA-Part1-ASR-Test'    : 'Speech recognition test data from the IMDA NSC project, Part 1.',
-                'IMDA-Part2-ASR-Test'    : 'Speech recognition test data from the IMDA NSC project, Part 1.'
                 }
 sqa_datasets = {'CN-College-Listen-MCQ-Test': 'Chinese College English Listening Test, with multiple-choice questions.',
@@ -78,39 +85,46 @@ metrics_info = {
 }
 dataname_column_rename_in_table = {
-    'librispeech_test_clean' : 'LibriSpeech-Clean',
-    'librispeech_test_other' : 'LibriSpeech-Other',
-    'common_lvoice_15_en_test': 'CommonVoice-15-EN',
-    'peoples_speech_test'    : 'Peoples-Speech',
-    'gigaspeech_test'        : 'GigaSpeech-1',
-    'earnings21_test'        : 'Earnings-21',
-    'earnings22_test'        : 'Earnings-22',
-    'tedlium3_test'          : 'TED-LIUM-3',
-    'tedlium3_long_form_test': 'TED-LIUM-3-Long',
-    'aishell_asr_zh_test'    : 'Aishell-ASR-ZH',
-    'covost2_en_id_test'     : 'Covost2-EN-ID',
-    'covost2_en_zh_test'     : 'Covost2-EN-ZH',
-    'covost2_en_ta_test'     : 'Covost2-EN-TA',
-    'covost2_id_en_test'     : 'Covost2-ID-EN',
-    'covost2_zh_en_test'     : 'Covost2-ZH-EN',
-    'covost2_ta_en_test'     : 'Covost2-TA-EN',
     'cn_college_listen_mcq_test': 'CN-College-Listen-MCQ',
-    'dream_tts_mcq_test'    : 'DREAM-TTS-MCQ',
-    'slue_p2_sqa5_test'     : 'SLUE-P2-SQA5',
-    'public_sg_speech_qa_test': 'Public-SG-Speech-QA',
-    'spoken_squad_test'     : 'Spoken-SQuAD',
-    'openhermes_audio_test' : 'OpenHermes-Audio',
-    'alpaca_audio_test'     : 'ALPACA-Audio',
-    'wavcaps_test'     : 'WavCaps',
-    'audiocaps_test'     : 'AudioCaps',
-    'clotho_aqa_test'     : 'Clotho-AQA',
-    'wavcaps_qa_test'     : 'WavCaps-QA',
-    'audiocaps_qa_test'     : 'AudioCaps-QA',
-    'voxceleb_accent_test'     : 'VoxCeleb-Accent',
-    'voxceleb_gender_test'     : 'VoxCeleb-Gender',
-    'iemocap_gender_test': 'IEMOCAP-Gender',
-    'iemocap_emotion_test': 'IEMOCAP-Emotion',
-    'meld_sentiment_test': 'MELD-Sentiment',
-    'meld_emotion_test': 'MELD-Emotion',
 }

                 'Earnings22-Test'        : 'Similar to Earnings21, but covering earnings calls from 2022.',
                 'Tedlium3-Test'          : 'A test set derived from TED talks, covering diverse speakers and topics.',
                 'Tedlium3-Long-form-Test': 'A longer version of the TED-LIUM dataset, containing extended audio samples. This poses challenges to existing fusion methods in handling long audios. However, it provides benchmark for future development.',
+                }
+singlish_asr_datasets = {
                 'IMDA-Part1-ASR-Test'    : 'Speech recognition test data from the IMDA NSC project, Part 1.',
+                'IMDA-Part2-ASR-Test'    : 'Speech recognition test data from the IMDA NSC project, Part 2.',
+                'IMDA-Part3-30s-ASR-Test': 'Speech recognition test data from the IMDA NSC project, Part 3.',
+                'IMDA-Part4-30s-ASR-Test': 'Speech recognition test data from the IMDA NSC project, Part 4.',
+                'IMDA-Part5-30s-ASR-Test': 'Speech recognition test data from the IMDA NSC project, Part 5.',
+                'IMDA-Part6-30s-ASR-Test': 'Speech recognition test data from the IMDA NSC project, Part 6.'
                 }
 sqa_datasets = {'CN-College-Listen-MCQ-Test': 'Chinese College English Listening Test, with multiple-choice questions.',
 }
 dataname_column_rename_in_table = {
+    'librispeech_test_clean'    : 'LibriSpeech-Clean',
+    'librispeech_test_other'    : 'LibriSpeech-Other',
+    'common_lvoice_15_en_test'  : 'CommonVoice-15-EN',
+    'peoples_speech_test'       : 'Peoples-Speech',
+    'gigaspeech_test'           : 'GigaSpeech-1',
+    'earnings21_test'           : 'Earnings-21',
+    'earnings22_test'           : 'Earnings-22',
+    'tedlium3_test'             : 'TED-LIUM-3',
+    'tedlium3_long_form_test'   : 'TED-LIUM-3-Long',
+    'aishell_asr_zh_test'       : 'Aishell-ASR-ZH',
+    'covost2_en_id_test'        : 'Covost2-EN-ID',
+    'covost2_en_zh_test'        : 'Covost2-EN-ZH',
+    'covost2_en_ta_test'        : 'Covost2-EN-TA',
+    'covost2_id_en_test'        : 'Covost2-ID-EN',
+    'covost2_zh_en_test'        : 'Covost2-ZH-EN',
+    'covost2_ta_en_test'        : 'Covost2-TA-EN',
     'cn_college_listen_mcq_test': 'CN-College-Listen-MCQ',
+    'dream_tts_mcq_test'        : 'DREAM-TTS-MCQ',
+    'slue_p2_sqa5_test'         : 'SLUE-P2-SQA5',
+    'public_sg_speech_qa_test'  : 'Public-SG-Speech-QA',
+    'spoken_squad_test'         : 'Spoken-SQuAD',
+    'openhermes_audio_test'     : 'OpenHermes-Audio',
+    'alpaca_audio_test'         : 'ALPACA-Audio',
+    'wavcaps_test'              : 'WavCaps',
+    'audiocaps_test'            : 'AudioCaps',
+    'clotho_aqa_test'           : 'Clotho-AQA',
+    'wavcaps_qa_test'           : 'WavCaps-QA',
+    'audiocaps_qa_test'         : 'AudioCaps-QA',
+    'voxceleb_accent_test'      : 'VoxCeleb-Accent',
+    'voxceleb_gender_test'      : 'VoxCeleb-Gender',
+    'iemocap_gender_test'       : 'IEMOCAP-Gender',
+    'iemocap_emotion_test'      : 'IEMOCAP-Emotion',
+    'meld_sentiment_test'       : 'MELD-Sentiment',
+    'meld_emotion_test'         : 'MELD-Emotion',
+    'imda_part1_asr_test'       : 'IMDA-Part1-ASR',
+    'imda_part2_asr_test'       : 'IMDA-Part2-ASR',
+    'imda_part3_30s_asr_test'   : 'IMDA-Part3-30s-ASR',
+    'imda_part4_30s_asr_test'   : 'IMDA-Part4-30s-ASR',
+    'imda_part5_30s_asr_test'   : 'IMDA-Part5-30s-ASR',
+    'imda_part6_30s_asr_test'   : 'IMDA-Part6-30s-ASR',
 }

app/draw_diagram.py CHANGED Viewed

@@ -90,18 +90,22 @@ def draw(folder_name, category_name, dataset_name, metrics, cus_sort=True):
                 return df_style
         if cur_dataset_name in [
-                            'librispeech_test_clean',
-                            'librispeech_test_other',
-                            'common_voice_15_en_test',
-                            'peoples_speech_test',
-                            'gigaspeech_test',
-                            'earnings21_test',
-                            'earnings22_test',
-                            'tedlium3_test',
-                            'tedlium3_long_form_test',
-                            'imda_part1_asr_test',
-                            'imda_part2_asr_test',
-                            'aishell_asr_zh_test',
                             ]:
             chart_data_table = chart_data_table.sort_values(

                 return df_style
         if cur_dataset_name in [
+                            'LibriSpeech-Clean',
+                            'LibriSpeech-Other',
+                            'CommonVoice-15-EN',
+                            'Peoples-Speech',
+                            'GigaSpeech-1',
+                            'Earnings-21',
+                            'Earnings-22',
+                            'TED-LIUM-3',
+                            'TED-LIUM-3-Long',
+                            'Aishell-ASR-ZH',
+                            'IMDA-Part1-ASR',
+                            'IMDA-Part2-ASR',
+                            'IMDA-Part3-30s-ASR',
+                            'IMDA-Part4-30s-ASR',
+                            'IMDA-Part5-30s-ASR',
+                            'IMDA-Part6-30s-ASR',
                             ]:
             chart_data_table = chart_data_table.sort_values(

app/pages.py CHANGED Viewed

@@ -40,8 +40,8 @@ def dashboard():
     audio_url = "https://arxiv.org/abs/2406.16020"
     st.markdown("#### News")
-    st.markdown("**Dec, 2024**: Update layout and support comparison between models with similar model sizes. Layout reorganized for better user experience. Add performance summary for each task.")
-    st.markdown("**Sep, 2024**: Initial leaderboard online.")
     st.divider()
@@ -56,7 +56,6 @@ def dashboard():
         with center_co:
             st.image("./style/audio_overview.png",
                      caption="Overview of the datasets in AudioBench.",
-                     # use_container_width = True
                      )
         st.markdown('''
@@ -116,6 +115,34 @@ def asr():
             draw('su', 'ASR', filter_1, 'wer', cus_sort=True)
 def cnasr():
     st.title("Task: Automatic Speech Recognition - Mandarin")

     audio_url = "https://arxiv.org/abs/2406.16020"
     st.markdown("#### News")
+    st.markdown("**Dec 11, 2024**: Update layout and support comparison between models with similar model sizes. Layout reorganized for better user experience. Add performance summary for each task.")
+    st.markdown("**Aug, 2024**: Initial leaderboard online.")
     st.divider()
         with center_co:
             st.image("./style/audio_overview.png",
                      caption="Overview of the datasets in AudioBench.",
                      )
         st.markdown('''
             draw('su', 'ASR', filter_1, 'wer', cus_sort=True)
+def singlish_asr():
+    st.title("Task: Automatic Speech Recognition - Singlish")
+    sum = ['Overall']
+    dataset_lists = [
+                    'IMDA-Part1-ASR-Test',
+                    'IMDA-Part2-ASR-Test',
+                    'IMDA-Part3-30s-ASR-Test',
+                    'IMDA-Part4-30s-ASR-Test',
+                    'IMDA-Part5-30s-ASR-Test',
+                    'IMDA-Part6-30s-ASR-Test',
+                    ]
+    filters_levelone = sum + dataset_lists
+    left, center, _, middle, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
+    with left:
+        filter_1 = st.selectbox('Dataset', filters_levelone)
+    if filter_1:
+        if filter_1 in sum:
+            sum_table_mulit_metrix('singlish_asr', ['wer'])
+        else:
+            dataset_contents(singlish_asr_datasets[filter_1], metrics['wer'])
+            draw('su', 'singlish_asr', filter_1, 'wer')
 def cnasr():
     st.title("Task: Automatic Speech Recognition - Mandarin")