Dixtral / README.md

Update README.md

88245e4 verified 7 days ago

2.03 kB

library_name: transformers
tags:
  - speech
  - automatic-speech-recognition
  - speech-language-model
  - target-speaker-asr
  - multi-talker
  - speaker-diarization
  - meeting-transcription
  - Dixtral
  - Voxtral
  - DiCoW
  - BUT-FIT
pipeline_tag: automatic-speech-recognition
license: apache-2.0
base_model: mistralai/Voxtral-Mini-3B-2507
datasets:
  - microsoft/NOTSOFAR
  - edinburghcstr/ami

🧠 Dixtral — BUT-FIT Diarization-Conditioned Voxtral for Target-Speaker ASR

This repository hosts Dixtral, developed by BUT Speech@FIT. Dixtral couples the Voxtral-Mini-3B spoken-language model with the DiCoW diarization-conditioned encoder, giving the LLM target-speaker awareness in multi-talker audio.

This checkpoint is tuned for target-speaker / multi-talker transcription (TS-ASR) of conversational and meeting recordings. For spoken question answering, use Dixtral_QA instead.

🛠️ Model Usage

from transformers import AutoModel, AutoProcessor

MODEL_NAME = "BUT-FIT/Dixtral"
model = AutoModel.from_pretrained(MODEL_NAME, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(MODEL_NAME)

➡️ For full inference pipelines (diarization → FDDT masks → generation), see the Dixtral GitHub repository.

📦 Model Details

Base Model: Voxtral-Mini-3B-2507
Encoder: DiCoW v3 large
Training Datasets:

📬 Contact

📧 Email: ipoloka@fit.vut.cz 🏢 Affiliation: BUT Speech@FIT, Brno University of Technology 🔗 GitHub: BUTSpeechFIT