Spaces:

MCP-1st-Birthday
/

MedLLM-Agent

Running on Zero

App Files Files Community

Y Phung Nguyen commited on Nov 29, 2025

Commit

2506ee7

1 Parent(s): 4ea2fc7

Use Maya1 TTS

Browse files

Files changed (2) hide show

ui.py +30 -3
voice.py +34 -22

ui.py CHANGED Viewed

@@ -6,7 +6,14 @@ from config import TITLE, DESCRIPTION, CSS, MEDSWIN_MODELS, DEFAULT_MEDICAL_MODE
 from indexing import create_or_update_index
 from pipeline import stream_chat
 from voice import transcribe_audio, generate_speech
-from models import initialize_medical_model, is_model_loaded, get_model_loading_state, set_model_loading_state
 from logger import logger
@@ -314,7 +321,7 @@ def create_demo():
                         return "⚠️ Model not loaded. Click to load or it will load on first use.", False
                 # GPU-decorated function to load model on startup
-                @spaces.GPU(max_duration=120)
                 def load_default_model_on_startup():
                     """Load default medical model on startup (GPU-decorated for ZeroGPU compatibility)"""
                     try:
@@ -336,6 +343,20 @@ def create_demo():
                         logger.error(f"Error in model loading startup: {e}")
                         return f"⚠️ Startup loading error: {str(e)[:100]}"
                 # Initialize status on load
                 def init_model_status():
                     status_text, is_ready = check_model_status(DEFAULT_MEDICAL_MODEL)
@@ -357,11 +378,17 @@ def create_demo():
                     outputs=[model_status, submit_button, message_input]
                 )
-                # Load default model on startup (GPU-decorated function)
                 demo.load(
                     fn=load_default_model_on_startup,
                     outputs=[model_status]
                 )
                 # Wrap stream_chat to check model status before execution
                 def stream_chat_with_model_check(

 from indexing import create_or_update_index
 from pipeline import stream_chat
 from voice import transcribe_audio, generate_speech
+from models import (
+    initialize_medical_model,
+    is_model_loaded,
+    get_model_loading_state,
+    set_model_loading_state,
+    initialize_tts_model,
+    TTS_AVAILABLE,
+)
 from logger import logger
                         return "⚠️ Model not loaded. Click to load or it will load on first use.", False
                 # GPU-decorated function to load model on startup
+                # @spaces.GPU(max_duration=120)
                 def load_default_model_on_startup():
                     """Load default medical model on startup (GPU-decorated for ZeroGPU compatibility)"""
                     try:
                         logger.error(f"Error in model loading startup: {e}")
                         return f"⚠️ Startup loading error: {str(e)[:100]}"
+                # GPU-decorated function to load default TTS model on startup
+                # @spaces.GPU(max_duration=120)
+                def load_tts_model_on_startup():
+                    """Load default TTS model (maya1) on startup"""
+                    try:
+                        if not TTS_AVAILABLE:
+                            logger.warning("TTS library not installed; skipping TTS preload.")
+                            return
+                        logger.info("Loading default TTS model (maya1) on startup...")
+                        initialize_tts_model()
+                        logger.info("✅ Default TTS model (maya1) loaded successfully on startup!")
+                    except Exception as e:
+                        logger.error(f"Error in TTS model loading startup: {e}")
                 # Initialize status on load
                 def init_model_status():
                     status_text, is_ready = check_model_status(DEFAULT_MEDICAL_MODEL)
                     outputs=[model_status, submit_button, message_input]
                 )
+                # Load default medical model on startup (GPU-decorated function)
                 demo.load(
                     fn=load_default_model_on_startup,
                     outputs=[model_status]
                 )
+                # Load default TTS model (maya1) on startup (GPU-decorated function)
+                demo.load(
+                    fn=load_tts_model_on_startup,
+                    inputs=None,
+                    outputs=None
+                )
                 # Wrap stream_chat to check model status before execution
                 def stream_chat_with_model_check(

voice.py CHANGED Viewed

@@ -111,7 +111,7 @@ def transcribe_audio(audio):
         return ""
 async def generate_speech_mcp(text: str) -> str:
-    """Generate speech using MCP text_to_speech tool"""
     if not MCP_AVAILABLE:
         return None
@@ -163,37 +163,49 @@ async def generate_speech_mcp(text: str) -> str:
         logger.warning(f"MCP TTS error: {e}")
         return None
 def generate_speech(text: str):
-    """Generate speech from text using TTS model (with MCP fallback)"""
     if not text or len(text.strip()) == 0:
         return None
-    if MCP_AVAILABLE:
-        try:
-            loop = asyncio.get_event_loop()
-            if loop.is_running():
-                if nest_asyncio:
-                    audio_path = nest_asyncio.run(generate_speech_mcp(text))
-                    if audio_path:
-                        logger.info("Generated speech via MCP")
-                        return audio_path
-            else:
-                audio_path = loop.run_until_complete(generate_speech_mcp(text))
-                if audio_path:
-                    return audio_path
-        except Exception as e:
-            pass
     if not TTS_AVAILABLE:
         logger.error("TTS library not installed. Please install TTS to use voice generation.")
-        return None
     if config.global_tts_model is None:
         initialize_tts_model()
     if config.global_tts_model is None:
         logger.error("TTS model not available. Please check dependencies.")
-        return None
     try:
         wav = config.global_tts_model.tts(text)
@@ -201,6 +213,6 @@ def generate_speech(text: str):
             sf.write(tmp_file.name, wav, samplerate=22050)
             return tmp_file.name
     except Exception as e:
-        logger.error(f"TTS error: {e}")
-        return None

         return ""
 async def generate_speech_mcp(text: str) -> str:
+    """Generate speech using MCP text_to_speech tool (fallback path)."""
     if not MCP_AVAILABLE:
         return None
         logger.warning(f"MCP TTS error: {e}")
         return None
+def _generate_speech_via_mcp(text: str):
+    """Helper to generate speech via MCP in a synchronous context."""
+    if not MCP_AVAILABLE:
+        return None
+    try:
+        loop = asyncio.get_event_loop()
+        if loop.is_running():
+            if nest_asyncio:
+                audio_path = nest_asyncio.run(generate_speech_mcp(text))
+            else:
+                logger.error("nest_asyncio not available for nested async TTS via MCP")
+                return None
+        else:
+            audio_path = loop.run_until_complete(generate_speech_mcp(text))
+        if audio_path:
+            logger.info("Generated speech via MCP")
+            return audio_path
+    except Exception as e:
+        logger.warning(f"MCP TTS error (sync wrapper): {e}")
+    return None
 def generate_speech(text: str):
+    """Generate speech from text using local maya1 TTS model (with MCP fallback).
+    The primary path uses the local TTS model (maya-research/maya1). MCP-based
+    TTS is only used as a last-resort fallback if the local model is unavailable
+    or fails.
+    """
     if not text or len(text.strip()) == 0:
         return None
     if not TTS_AVAILABLE:
         logger.error("TTS library not installed. Please install TTS to use voice generation.")
+        # As a last resort, try MCP-based TTS if available
+        return _generate_speech_via_mcp(text)
     if config.global_tts_model is None:
         initialize_tts_model()
     if config.global_tts_model is None:
         logger.error("TTS model not available. Please check dependencies.")
+        return _generate_speech_via_mcp(text)
     try:
         wav = config.global_tts_model.tts(text)
             sf.write(tmp_file.name, wav, samplerate=22050)
             return tmp_file.name
     except Exception as e:
+        logger.error(f"TTS error (local maya1): {e}")
+        return _generate_speech_via_mcp(text)