Archa-TTS-0.5B-th
โมเดลแปลงข้อความภาษาไทยเป็นเสียงพูด (Text-to-Speech) พัฒนาบน Qwen2.5-0.5B ด้วยการ fine-tune แบบ LoRA ร่วมกับ SNAC audio codec ที่ sample rate 24kHz
พัฒนาโดย ปรกณ์ อาชาคีรี TU ACM SIGHPC Student Chapter | สนับสนุนโดย Thai SC
GitHub
https://github.com/YangNobody12/Archa-TTS-0.5B-th
Overview
โมเดลจะสร้างลำดับ audio tokens จากข้อความภาษาไทย แล้วถอดรหัสเป็นคลื่นเสียงผ่าน SNAC neural audio codec
⚠️ โมเดลนี้รองรับเฉพาะภาษาไทยเท่านั้น ⚠️ รองรับการสร้างเสียงแบบ Realtime
Model Details
| รายการ | ค่า |
|---|---|
| โมเดลพื้นฐาน | Qwen/Qwen2.5-0.5B |
| สถาปัตยกรรม | Qwen2ForCausalLM |
| พารามิเตอร์ | ~0.5B |
| Audio codec | SNAC 24kHz |
| ความแม่นยำ | bfloat16 / float16 |
| ขนาด Vocab | 180,500 |
| Context สูงสุด | 32,768 tokens |
Requirements
pip install torch transformers peft snac soundfile sounddevice noisereduce scipy numpy
- Python 3.8 ขึ้นไป
- แนะนำให้ใช้ GPU ที่รองรับ CUDA
- สามารถรัน CPU ได้ แต่จะช้ามาก
- ต้องมี LoRA adapter weights ในโฟลเดอร์:
Pakorn2112/Archa-TTS-0.5B-th
Usage
Streaming Mode (Realtime)
from inference import generate_audio
generate_audio(
"สวัสดีครับ วันนี้อากาศดีมากเลยนะครับ",
mode="streaming"
)
Full Mode
from inference import generate_audio
generate_audio(
"สวัสดีครับ วันนี้อากาศดีมากเลยนะครับ",
mode="full"
)
CLI
python inference.py
ระบบจะ
- รันตัวอย่าง streaming
- บันทึกไฟล์
output_realtime.wav
How It Works
ข้อความภาษาไทยถูก tokenize
เพิ่ม control tokens พิเศษ
- start_of_human
- start_of_speech
โมเดล Qwen2.5 + LoRA สร้าง audio tokens แบบ autoregressive
ถอดรหัส audio tokens ทีละ 7 ตัว (1 SNAC frame)
SNAC decoder สร้างคลื่นเสียง 24kHz
ทำ noise reduction เป็นขั้นตอนสุดท้าย
Modes
Streaming Mode
- สร้างเสียงแบบ realtime
- buffer ~100 frames ก่อนเริ่มเล่น
- stream ทีละ ~20 frames
- ใช้ context overlap เพื่อให้เสียงต่อเนื่อง
Full Mode
- สร้าง tokens ทั้งหมดก่อน
- ถอดรหัสและเล่นเสียงทีเดียว
Output
- WAV format
- Sample rate 24kHz
- รองรับ resample อัตโนมัติ หาก hardware ไม่รองรับ
License
MIT License
Important Notes
⚠️ โมเดลถูกฝึกจาก third-party datasets กรุณาตรวจสอบ license ของ dataset ก่อนใช้งานเชิงพาณิชย์
⚠️ กรุณาอ้างอิง license ของ
- Qwen2.5
- SNAC
ก่อนนำไปใช้งาน
Author
Pakorn Archakeeree TU ACM SIGHPC Student Chapter Supported by Thai SC
Citation
@software{archa_tts_0_5b_th,
author = {Pakorn Archakeeree},
title = {Archa-TTS-0.5B-th},
year = {2026},
url = {https://github.com/YangNobody12/Archa-TTS-0.5B-th}
}
- Downloads last month
- 3