Spaces:

luckyhookin
/

speaker-diarization-diar_sortformer

Running on Zero

App Files Files Community

luckyhookin commited on 17 days ago

Commit

563ddb0

0 Parent(s):

init

Browse files

Files changed (5) hide show

.gitattributes +35 -0
README.md +12 -0
app.py +118 -0
packages.txt +2 -0
requirements.txt +6 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,12 @@

+---
+title: Speaker-diarization-diar Sortformer
+emoji: 📚
+colorFrom: gray
+colorTo: yellow
+sdk: gradio
+sdk_version: 5.49.1
+app_file: app.py
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,118 @@

+from io import BytesIO
+import os
+import gradio as gr
+import spaces
+from pydub import AudioSegment
+import json
+import requests
+from nemo.collections.asr.models import SortformerEncLabelModel
+diar_model = SortformerEncLabelModel.from_pretrained("nvidia/diar_streaming_sortformer_4spk-v2")
+diar_model.eval()
+diar_model.sortformer_modules.chunk_len = 340
+diar_model.sortformer_modules.chunk_right_context = 40
+diar_model.sortformer_modules.fifo_len = 40
+diar_model.sortformer_modules.spkcache_update_period = 300
+diar_model.sortformer_modules.spkcache_len = 188
+diar_model.sortformer_modules._check_streaming_parameters()
+def preprocess_audio(audio_path):
+    """Convert audio to mono, 16kHz WAV format suitable for pyannote."""
+    try:
+        if isinstance(audio_path, str):
+            bytes = False
+        else:
+            bytes = True
+        # Load audio with pydub
+        audio = AudioSegment.from_file(BytesIO(audio_path) if bytes else audio_path)
+        # Convert to mono and set sample rate to 16kHz
+        audio = audio.set_channels(1).set_frame_rate(16000)
+        # Export to temporary WAV file
+        temp_wav = "temp_audio.wav"
+        audio.export(temp_wav, format="wav")
+        return temp_wav
+    except Exception as e:
+        raise ValueError(f"Error preprocessing audio: {str(e)}")
+def handle_audio(url, audio_path):
+    """Handle audio processing and diarization."""
+    if url:
+        response = requests.get(url, timeout=60)
+        audio_path = response.content
+    audio_path = preprocess_audio(audio_path)
+    res = diarize_audio_diar1(audio_path)
+    # Clean up temporary file
+    if os.path.exists(audio_path):
+        os.remove(audio_path)
+    return json.dumps(res)
+@spaces.GPU(duration=120)
+def diarize_audio_diar1(audio_path):
+    """Perform speaker diarization and return formatted results."""
+    try:
+        predicted_segments = diar_model.diarize(audio=audio_path, batch_size=1)
+        return format_results(predicted_segments[0])
+    except Exception as e:
+        return f"Error: {str(e)}", ""
+def format_results(results):
+    """Format results into a readable string."""
+    if isinstance(results, str):
+        import json
+        results = json.loads(results)
+    if not isinstance(results, list):
+        return []
+    formatted_results = []
+    for item in results:
+        if isinstance(item, str):
+            parts = item.strip().split()
+            if len(parts) == 3:
+                formatted_results.append({
+                    "start": float(parts[0]),
+                    "end": float(parts[1]),
+                    "speaker_id": parts[2]
+                })
+        elif isinstance(item, dict):
+            formatted_results.append({
+                "start": item.get("start", 0),
+                "end": item.get("end", 0),
+                "speaker_id": item.get("speaker", item.get("speaker_id", "unknown"))
+            })
+    formatted_results.sort(key=lambda x: x["start"])
+    return formatted_results
+# Gradio interface
+with gr.Blocks() as demo:
+    gr.Markdown("# Speaker Diarization with nvidia/diar_streaming_sortformer_4spk-v2")
+    gr.Markdown("Upload an audio file and specify the number of speakers to diarize the audio.")
+    with gr.Row():
+        url_input = gr.Textbox(label="URL")
+        audio_input = gr.Audio(label="Upload Audio File", type="filepath")
+    submit_btn = gr.Button("Diarize")
+    with gr.Row():
+        json_output = gr.Textbox(label="Diarization Results (JSON)")
+    submit_btn.click(
+        fn=handle_audio,
+        inputs=[url_input, audio_input],
+        outputs=[json_output],
+        concurrency_limit=2,
+    )
+# Launch the Gradio app
+demo.launch()

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ libsndfile1
2	+ ffmpeg

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+pydub
+gradio
+spaces
+Cython
+packaging
+nemo_toolkit[asr]