Archa-TTS-0.5B-th

โมเดลแปลงข้อความภาษาไทยเป็นเสียงพูด (Text-to-Speech) พัฒนาบน Qwen2.5-0.5B ด้วยการ fine-tune แบบ LoRA ร่วมกับ SNAC audio codec ที่ sample rate 24kHz

พัฒนาโดย ปรกณ์ อาชาคีรี TU ACM SIGHPC Student Chapter | สนับสนุนโดย Thai SC


GitHub

https://github.com/YangNobody12/Archa-TTS-0.5B-th


Overview

โมเดลจะสร้างลำดับ audio tokens จากข้อความภาษาไทย แล้วถอดรหัสเป็นคลื่นเสียงผ่าน SNAC neural audio codec

⚠️ โมเดลนี้รองรับเฉพาะภาษาไทยเท่านั้น ⚠️ รองรับการสร้างเสียงแบบ Realtime


Model Details

รายการ ค่า
โมเดลพื้นฐาน Qwen/Qwen2.5-0.5B
สถาปัตยกรรม Qwen2ForCausalLM
พารามิเตอร์ ~0.5B
Audio codec SNAC 24kHz
ความแม่นยำ bfloat16 / float16
ขนาด Vocab 180,500
Context สูงสุด 32,768 tokens

Requirements

pip install torch transformers peft snac soundfile sounddevice noisereduce scipy numpy
  • Python 3.8 ขึ้นไป
  • แนะนำให้ใช้ GPU ที่รองรับ CUDA
  • สามารถรัน CPU ได้ แต่จะช้ามาก
  • ต้องมี LoRA adapter weights ในโฟลเดอร์:
Pakorn2112/Archa-TTS-0.5B-th

Usage

Streaming Mode (Realtime)

from inference import generate_audio

generate_audio(
    "สวัสดีครับ วันนี้อากาศดีมากเลยนะครับ",
    mode="streaming"
)

Full Mode

from inference import generate_audio

generate_audio(
    "สวัสดีครับ วันนี้อากาศดีมากเลยนะครับ",
    mode="full"
)

CLI

python inference.py

ระบบจะ

  • รันตัวอย่าง streaming
  • บันทึกไฟล์ output_realtime.wav

How It Works

  1. ข้อความภาษาไทยถูก tokenize

  2. เพิ่ม control tokens พิเศษ

    • start_of_human
    • start_of_speech
  3. โมเดล Qwen2.5 + LoRA สร้าง audio tokens แบบ autoregressive

  4. ถอดรหัส audio tokens ทีละ 7 ตัว (1 SNAC frame)

  5. SNAC decoder สร้างคลื่นเสียง 24kHz

  6. ทำ noise reduction เป็นขั้นตอนสุดท้าย


Modes

Streaming Mode

  • สร้างเสียงแบบ realtime
  • buffer ~100 frames ก่อนเริ่มเล่น
  • stream ทีละ ~20 frames
  • ใช้ context overlap เพื่อให้เสียงต่อเนื่อง

Full Mode

  • สร้าง tokens ทั้งหมดก่อน
  • ถอดรหัสและเล่นเสียงทีเดียว

Output

  • WAV format
  • Sample rate 24kHz
  • รองรับ resample อัตโนมัติ หาก hardware ไม่รองรับ

License

MIT License


Important Notes

⚠️ โมเดลถูกฝึกจาก third-party datasets กรุณาตรวจสอบ license ของ dataset ก่อนใช้งานเชิงพาณิชย์

⚠️ กรุณาอ้างอิง license ของ

  • Qwen2.5
  • SNAC

ก่อนนำไปใช้งาน


Author

Pakorn Archakeeree TU ACM SIGHPC Student Chapter Supported by Thai SC


Citation

@software{archa_tts_0_5b_th,
  author = {Pakorn Archakeeree},
  title = {Archa-TTS-0.5B-th},
  year = {2026},
  url = {https://github.com/YangNobody12/Archa-TTS-0.5B-th}
}
Downloads last month
3
Safetensors
Model size
0.7B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Pakorn2112/Archa-TTS-0.5B-th

Finetuned
(628)
this model
Quantizations
1 model

Dataset used to train Pakorn2112/Archa-TTS-0.5B-th