Spaces:

jhj0517
/

Whisper-WebUI

Running

App Files Files Community

jhj0517 commited on Jul 7, 2024

Commit

6a24751

unverified ·

2 Parent(s): d8c2ba0 c1f12f6

Merge pull request #198 from jhj0517/feature/upgrade-faster-whisper

Browse files

Files changed (5) hide show

app.py +0 -6
modules/vad/silero_vad.py +14 -13
modules/whisper/whisper_base.py +0 -1
modules/whisper/whisper_parameter.py +7 -15
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -115,7 +115,6 @@ class App:
                         nb_min_speech_duration_ms = gr.Number(label="Minimum Speech Duration (ms)", precision=0, value=250)
                         nb_max_speech_duration_s = gr.Number(label="Maximum Speech Duration (s)", value=9999)
                         nb_min_silence_duration_ms = gr.Number(label="Minimum Silence Duration (ms)", precision=0, value=2000)
-                        nb_window_size_sample = gr.Number(label="Window Size (samples)", precision=0, value=1024)
                         nb_speech_pad_ms = gr.Number(label="Speech Padding (ms)", precision=0, value=400)
                     with gr.Accordion("Diarization", open=False):
                         cb_diarize = gr.Checkbox(label="Enable Diarization")
@@ -152,7 +151,6 @@ class App:
                                                        min_speech_duration_ms=nb_min_speech_duration_ms,
                                                        max_speech_duration_s=nb_max_speech_duration_s,
                                                        min_silence_duration_ms=nb_min_silence_duration_ms,
-                                                       window_size_sample=nb_window_size_sample,
                                                        speech_pad_ms=nb_speech_pad_ms,
                                                        chunk_length_s=nb_chunk_length_s,
                                                        batch_size=nb_batch_size,
@@ -203,7 +201,6 @@ class App:
                         nb_min_speech_duration_ms = gr.Number(label="Minimum Speech Duration (ms)", precision=0, value=250)
                         nb_max_speech_duration_s = gr.Number(label="Maximum Speech Duration (s)", value=9999)
                         nb_min_silence_duration_ms = gr.Number(label="Minimum Silence Duration (ms)", precision=0, value=2000)
-                        nb_window_size_sample = gr.Number(label="Window Size (samples)", precision=0, value=1024)
                         nb_speech_pad_ms = gr.Number(label="Speech Padding (ms)", precision=0, value=400)
                     with gr.Accordion("Diarization", open=False):
                         cb_diarize = gr.Checkbox(label="Enable Diarization")
@@ -241,7 +238,6 @@ class App:
                                                        min_speech_duration_ms=nb_min_speech_duration_ms,
                                                        max_speech_duration_s=nb_max_speech_duration_s,
                                                        min_silence_duration_ms=nb_min_silence_duration_ms,
-                                                       window_size_sample=nb_window_size_sample,
                                                        speech_pad_ms=nb_speech_pad_ms,
                                                        chunk_length_s=nb_chunk_length_s,
                                                        batch_size=nb_batch_size,
@@ -284,7 +280,6 @@ class App:
                         nb_min_speech_duration_ms = gr.Number(label="Minimum Speech Duration (ms)", precision=0, value=250)
                         nb_max_speech_duration_s = gr.Number(label="Maximum Speech Duration (s)", value=9999)
                         nb_min_silence_duration_ms = gr.Number(label="Minimum Silence Duration (ms)", precision=0, value=2000)
-                        nb_window_size_sample = gr.Number(label="Window Size (samples)", precision=0, value=1024)
                         nb_speech_pad_ms = gr.Number(label="Speech Padding (ms)", precision=0, value=400)
                     with gr.Accordion("Diarization", open=False):
                         cb_diarize = gr.Checkbox(label="Enable Diarization")
@@ -324,7 +319,6 @@ class App:
                                                        min_speech_duration_ms=nb_min_speech_duration_ms,
                                                        max_speech_duration_s=nb_max_speech_duration_s,
                                                        min_silence_duration_ms=nb_min_silence_duration_ms,
-                                                       window_size_sample=nb_window_size_sample,
                                                        speech_pad_ms=nb_speech_pad_ms,
                                                        chunk_length_s=nb_chunk_length_s,
                                                        batch_size=nb_batch_size,

                         nb_min_speech_duration_ms = gr.Number(label="Minimum Speech Duration (ms)", precision=0, value=250)
                         nb_max_speech_duration_s = gr.Number(label="Maximum Speech Duration (s)", value=9999)
                         nb_min_silence_duration_ms = gr.Number(label="Minimum Silence Duration (ms)", precision=0, value=2000)
                         nb_speech_pad_ms = gr.Number(label="Speech Padding (ms)", precision=0, value=400)
                     with gr.Accordion("Diarization", open=False):
                         cb_diarize = gr.Checkbox(label="Enable Diarization")
                                                        min_speech_duration_ms=nb_min_speech_duration_ms,
                                                        max_speech_duration_s=nb_max_speech_duration_s,
                                                        min_silence_duration_ms=nb_min_silence_duration_ms,
                                                        speech_pad_ms=nb_speech_pad_ms,
                                                        chunk_length_s=nb_chunk_length_s,
                                                        batch_size=nb_batch_size,
                         nb_min_speech_duration_ms = gr.Number(label="Minimum Speech Duration (ms)", precision=0, value=250)
                         nb_max_speech_duration_s = gr.Number(label="Maximum Speech Duration (s)", value=9999)
                         nb_min_silence_duration_ms = gr.Number(label="Minimum Silence Duration (ms)", precision=0, value=2000)
                         nb_speech_pad_ms = gr.Number(label="Speech Padding (ms)", precision=0, value=400)
                     with gr.Accordion("Diarization", open=False):
                         cb_diarize = gr.Checkbox(label="Enable Diarization")
                                                        min_speech_duration_ms=nb_min_speech_duration_ms,
                                                        max_speech_duration_s=nb_max_speech_duration_s,
                                                        min_silence_duration_ms=nb_min_silence_duration_ms,
                                                        speech_pad_ms=nb_speech_pad_ms,
                                                        chunk_length_s=nb_chunk_length_s,
                                                        batch_size=nb_batch_size,
                         nb_min_speech_duration_ms = gr.Number(label="Minimum Speech Duration (ms)", precision=0, value=250)
                         nb_max_speech_duration_s = gr.Number(label="Maximum Speech Duration (s)", value=9999)
                         nb_min_silence_duration_ms = gr.Number(label="Minimum Silence Duration (ms)", precision=0, value=2000)
                         nb_speech_pad_ms = gr.Number(label="Speech Padding (ms)", precision=0, value=400)
                     with gr.Accordion("Diarization", open=False):
                         cb_diarize = gr.Checkbox(label="Enable Diarization")
                                                        min_speech_duration_ms=nb_min_speech_duration_ms,
                                                        max_speech_duration_s=nb_max_speech_duration_s,
                                                        min_silence_duration_ms=nb_min_silence_duration_ms,
                                                        speech_pad_ms=nb_speech_pad_ms,
                                                        chunk_length_s=nb_chunk_length_s,
                                                        batch_size=nb_batch_size,

modules/vad/silero_vad.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from faster_whisper.vad import VadOptions
 import numpy as np
 from typing import BinaryIO, Union, List, Optional
 import warnings
@@ -9,6 +9,8 @@ import gradio as gr
 class SileroVAD:
     def __init__(self):
         self.sampling_rate = 16000
     def run(self,
             audio: Union[str, BinaryIO, np.ndarray],
@@ -54,8 +56,8 @@ class SileroVAD:
         return audio
-    @staticmethod
     def get_speech_timestamps(
         audio: np.ndarray,
         vad_options: Optional[VadOptions] = None,
         progress: gr.Progress = gr.Progress(),
@@ -72,6 +74,10 @@ class SileroVAD:
         Returns:
           List of dicts containing begin and end samples of each speech chunk.
         """
         if vad_options is None:
             vad_options = VadOptions(**kwargs)
@@ -79,15 +85,8 @@ class SileroVAD:
         min_speech_duration_ms = vad_options.min_speech_duration_ms
         max_speech_duration_s = vad_options.max_speech_duration_s
         min_silence_duration_ms = vad_options.min_silence_duration_ms
-        window_size_samples = vad_options.window_size_samples
         speech_pad_ms = vad_options.speech_pad_ms
-        if window_size_samples not in [512, 1024, 1536]:
-            warnings.warn(
-                "Unusual window_size_samples! Supported window_size_samples:\n"
-                " - [512, 1024, 1536] for 16000 sampling_rate"
-            )
         sampling_rate = 16000
         min_speech_samples = sampling_rate * min_speech_duration_ms / 1000
         speech_pad_samples = sampling_rate * speech_pad_ms / 1000
@@ -101,8 +100,7 @@ class SileroVAD:
         audio_length_samples = len(audio)
-        model = faster_whisper.vad.get_vad_model()
-        state = model.get_initial_state(batch_size=1)
         speech_probs = []
         for current_start_sample in range(0, audio_length_samples, window_size_samples):
@@ -111,7 +109,7 @@ class SileroVAD:
             chunk = audio[current_start_sample: current_start_sample + window_size_samples]
             if len(chunk) < window_size_samples:
                 chunk = np.pad(chunk, (0, int(window_size_samples - len(chunk))))
-            speech_prob, state = model(chunk, state, sampling_rate)
             speech_probs.append(speech_prob)
         triggered = False
@@ -207,6 +205,9 @@ class SileroVAD:
         return speeches
     @staticmethod
     def collect_chunks(audio: np.ndarray, chunks: List[dict]) -> np.ndarray:
         """Collects and concatenates audio chunks."""

+from faster_whisper.vad import VadOptions, get_vad_model
 import numpy as np
 from typing import BinaryIO, Union, List, Optional
 import warnings
 class SileroVAD:
     def __init__(self):
         self.sampling_rate = 16000
+        self.window_size_samples = 512
+        self.model = None
     def run(self,
             audio: Union[str, BinaryIO, np.ndarray],
         return audio
     def get_speech_timestamps(
+        self,
         audio: np.ndarray,
         vad_options: Optional[VadOptions] = None,
         progress: gr.Progress = gr.Progress(),
         Returns:
           List of dicts containing begin and end samples of each speech chunk.
         """
+        if self.model is None:
+            self.update_model()
         if vad_options is None:
             vad_options = VadOptions(**kwargs)
         min_speech_duration_ms = vad_options.min_speech_duration_ms
         max_speech_duration_s = vad_options.max_speech_duration_s
         min_silence_duration_ms = vad_options.min_silence_duration_ms
+        window_size_samples = self.window_size_samples
         speech_pad_ms = vad_options.speech_pad_ms
         sampling_rate = 16000
         min_speech_samples = sampling_rate * min_speech_duration_ms / 1000
         speech_pad_samples = sampling_rate * speech_pad_ms / 1000
         audio_length_samples = len(audio)
+        state, context = self.model.get_initial_states(batch_size=1)
         speech_probs = []
         for current_start_sample in range(0, audio_length_samples, window_size_samples):
             chunk = audio[current_start_sample: current_start_sample + window_size_samples]
             if len(chunk) < window_size_samples:
                 chunk = np.pad(chunk, (0, int(window_size_samples - len(chunk))))
+            speech_prob, state, context = self.model(chunk, state, context, sampling_rate)
             speech_probs.append(speech_prob)
         triggered = False
         return speeches
+    def update_model(self):
+        self.model = get_vad_model()
     @staticmethod
     def collect_chunks(audio: np.ndarray, chunks: List[dict]) -> np.ndarray:
         """Collects and concatenates audio chunks."""

modules/whisper/whisper_base.py CHANGED Viewed

@@ -91,7 +91,6 @@ class WhisperBase(ABC):
                 min_speech_duration_ms=params.min_speech_duration_ms,
                 max_speech_duration_s=params.max_speech_duration_s,
                 min_silence_duration_ms=params.min_silence_duration_ms,
-                window_size_samples=params.window_size_samples,
                 speech_pad_ms=params.speech_pad_ms
             )
             self.vad.run(

                 min_speech_duration_ms=params.min_speech_duration_ms,
                 max_speech_duration_s=params.max_speech_duration_s,
                 min_silence_duration_ms=params.min_silence_duration_ms,
                 speech_pad_ms=params.speech_pad_ms
             )
             self.vad.run(

modules/whisper/whisper_parameter.py CHANGED Viewed

@@ -23,7 +23,6 @@ class WhisperParameters:
     min_speech_duration_ms: gr.Number
     max_speech_duration_s: gr.Number
     min_silence_duration_ms: gr.Number
-    window_size_sample: gr.Number
     speech_pad_ms: gr.Number
     chunk_length_s: gr.Number
     batch_size: gr.Number
@@ -111,11 +110,6 @@ class WhisperParameters:
         This parameter is related with Silero VAD. In the end of each speech chunk wait for min_silence_duration_ms
         before separating it
-    window_size_samples: gr.Number
-        This parameter is related with Silero VAD. Audio chunks of window_size_samples size are fed to the silero VAD model.
-        WARNING! Silero VAD models were trained using 512, 1024, 1536 samples for 16000 sample rate.
-        Values other than these may affect model performance!!
     speech_pad_ms: gr.Number
         This parameter is related with Silero VAD. Final speech chunks are padded by speech_pad_ms each side
@@ -178,13 +172,12 @@ class WhisperParameters:
             min_speech_duration_ms=args[15],
             max_speech_duration_s=args[16],
             min_silence_duration_ms=args[17],
-            window_size_samples=args[18],
-            speech_pad_ms=args[19],
-            chunk_length_s=args[20],
-            batch_size=args[21],
-            is_diarize=args[22],
-            hf_token=args[23],
-            diarization_device=args[24]
         )
@@ -208,7 +201,6 @@ class WhisperValues:
     min_speech_duration_ms: int
     max_speech_duration_s: float
     min_silence_duration_ms: int
-    window_size_samples: int
     speech_pad_ms: int
     chunk_length_s: int
     batch_size: int
@@ -217,4 +209,4 @@ class WhisperValues:
     diarization_device: str
     """
     A data class to use Whisper parameters.
-    """

     min_speech_duration_ms: gr.Number
     max_speech_duration_s: gr.Number
     min_silence_duration_ms: gr.Number
     speech_pad_ms: gr.Number
     chunk_length_s: gr.Number
     batch_size: gr.Number
         This parameter is related with Silero VAD. In the end of each speech chunk wait for min_silence_duration_ms
         before separating it
     speech_pad_ms: gr.Number
         This parameter is related with Silero VAD. Final speech chunks are padded by speech_pad_ms each side
             min_speech_duration_ms=args[15],
             max_speech_duration_s=args[16],
             min_silence_duration_ms=args[17],
+            speech_pad_ms=args[18],
+            chunk_length_s=args[19],
+            batch_size=args[20],
+            is_diarize=args[21],
+            hf_token=args[22],
+            diarization_device=args[23]
         )
     min_speech_duration_ms: int
     max_speech_duration_s: float
     min_silence_duration_ms: int
     speech_pad_ms: int
     chunk_length_s: int
     batch_size: int
     diarization_device: str
     """
     A data class to use Whisper parameters.
+    """

requirements.txt CHANGED Viewed

@@ -1,7 +1,7 @@
 --extra-index-url https://download.pytorch.org/whl/cu121
 torch
 git+https://github.com/jhj0517/jhj0517-whisper.git
-faster-whisper==1.0.2
 transformers
 gradio==4.29.0
 pytube

 --extra-index-url https://download.pytorch.org/whl/cu121
 torch
 git+https://github.com/jhj0517/jhj0517-whisper.git
+faster-whisper==1.0.3
 transformers
 gradio==4.29.0
 pytube