tts-xtts2-multi-9

Running

App Files Files Community

TaiYouWeb commited on Oct 4, 2024

Commit

5ca847f

verified ·

1 Parent(s): 6ba53fa

Upload 5 files

Browse files

Files changed (5) hide show

app.py +95 -0
config.py +3 -0
download.py +17 -0
requirements.txt +12 -0
run.py +11 -0

app.py ADDED Viewed

	@@ -0,0 +1,95 @@

+import io
+import os
+import tempfile
+from typing import List, Optional
+import TTS.api
+import torch
+from pydub import AudioSegment
+from fastapi import FastAPI, File, Form, UploadFile, HTTPException
+from fastapi.responses import StreamingResponse, Response
+import config
+device = "cuda" if torch.cuda.is_available() else "cpu"
+models = {}
+for id, model in config.models.items():
+    models[id] = TTS.api.TTS(model).to(device)
+class SynthesizeResponse(Response):
+    media_type = 'audio/wav'
+app = FastAPI()
+@app.post('/tts', response_class=SynthesizeResponse)
+async def synthesize(
+    text: str = Form('Hello,World!'),
+    speaker_wavs: List[UploadFile] = File(None),
+    speaker_idx: str = Form('Ana Florence'),
+    language: str = Form('ja'),
+    temperature: float = Form(0.65),
+    length_penalty: float = Form(1.0),
+    repetition_penalty: float = Form(2.0),
+    top_k: int = Form(50),
+    top_p: float = Form(0.8),
+    speed: float = Form(1.0),
+    enable_text_splitting: bool = Form(True)
+) -> StreamingResponse:
+    temp_files = []
+    try:
+        if speaker_wavs:
+            # Process each uploaded file
+            for speaker_wav in speaker_wavs:
+                speaker_wav_bytes = await speaker_wav.read()
+                # Convert the uploaded audio file to a WAV format using pydub
+                try:
+                    audio = AudioSegment.from_file(io.BytesIO(speaker_wav_bytes))
+                    wav_buffer = io.BytesIO()
+                    audio.export(wav_buffer, format="wav")
+                    wav_buffer.seek(0)  # Reset buffer position to the beginning
+                except Exception as e:
+                    raise HTTPException(status_code=400, detail=f"Error processing audio file: {e}")
+                temp_wav_file = tempfile.NamedTemporaryFile(suffix=".wav", delete=False)
+                temp_wav_file.write(wav_buffer.read())
+                temp_wav_file.close()
+                temp_files.append(temp_wav_file.name)
+        output_buffer = io.BytesIO()
+        if temp_files:
+            models['multi'].tts_to_file(
+                text=text,
+                speaker_wav=temp_files,
+                language=language,
+                file_path=output_buffer,
+                temperature=temperature,
+                length_penalty=length_penalty,
+                repetition_penalty=repetition_penalty,
+                top_k=top_k,
+                top_p=top_p,
+                speed=speed,
+                enable_text_splitting=enable_text_splitting
+            )
+        else:
+            models['multi'].tts_to_file(
+                text=text,
+                speaker=speaker_idx,
+                language=language,
+                file_path=output_buffer,
+                temperature=temperature,
+                length_penalty=length_penalty,
+                repetition_penalty=repetition_penalty,
+                top_k=top_k,
+                top_p=top_p,
+                speed=speed,
+                enable_text_splitting=enable_text_splitting
+            )
+        output_buffer.seek(0)
+        return StreamingResponse(output_buffer, media_type="audio/wav")
+    finally:
+        for temp_file in temp_files:
+            if isinstance(temp_file, str) and os.path.exists(temp_file):
+                os.remove(temp_file)

config.py ADDED Viewed

	@@ -0,0 +1,3 @@

+models = {
+	'multi': 'tts_models/multilingual/multi-dataset/xtts_v2'
+}

download.py ADDED Viewed

	@@ -0,0 +1,17 @@

+import TTS.api
+import TTS.utils.manage as manage
+import config
+# 定义一个函数来自动接受许可条款
+def ask_tos_patch(self, output_path):
+    print("Automatically accepting the terms of service.")
+    return True
+# 使用我们定义的函数替换原有的 ask_tos 方法
+manage.ModelManager.ask_tos = ask_tos_patch
+# 初始化 TTS 实例并下载模型
+tts = TTS.api.TTS()
+for id, model in config.models.items():
+    tts.download_model_by_name(model)

requirements.txt ADDED Viewed

	@@ -0,0 +1,12 @@

+--extra-index-url https://download.pytorch.org/whl/cpu
+torch
+torchaudio
+coqui-tts
+hangul-romanize
+coqui-tts[ja]
+coqui-tts[zh]
+uvicorn
+fastapi
+python-multipart
+python-dotenv
+pydub

run.py ADDED Viewed

	@@ -0,0 +1,11 @@

+import uvicorn
+import os
+from app import app
+from dotenv import load_dotenv
+load_dotenv()
+port = int(os.getenv('PORT', 3151))
+if __name__ == '__main__':
+        uvicorn.run(app, host='0.0.0.0', port=port)