Instructions to use Mattimax/DACMini-IT_Q8_0 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Mattimax/DACMini-IT_Q8_0 with Transformers:

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("Mattimax/DACMini-IT_Q8_0", dtype="auto")

llama-cpp-python

How to use Mattimax/DACMini-IT_Q8_0 with llama-cpp-python:

# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="Mattimax/DACMini-IT_Q8_0",
	filename="DACMini.gguf",
)

llm.create_chat_completion(
	messages = "No input example has been defined for this model task."
)

Notebooks
Google Colab
Kaggle
Local Apps

llama.cpp

How to use Mattimax/DACMini-IT_Q8_0 with llama.cpp:

Install from brew

brew install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf Mattimax/DACMini-IT_Q8_0
# Run inference directly in the terminal:
llama-cli -hf Mattimax/DACMini-IT_Q8_0

Install from WinGet (Windows)

winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf Mattimax/DACMini-IT_Q8_0
# Run inference directly in the terminal:
llama-cli -hf Mattimax/DACMini-IT_Q8_0

Use pre-built binary

# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf Mattimax/DACMini-IT_Q8_0
# Run inference directly in the terminal:
./llama-cli -hf Mattimax/DACMini-IT_Q8_0

Build from source code

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf Mattimax/DACMini-IT_Q8_0
# Run inference directly in the terminal:
./build/bin/llama-cli -hf Mattimax/DACMini-IT_Q8_0

Use Docker

docker model run hf.co/Mattimax/DACMini-IT_Q8_0

LM Studio
Jan
Ollama
How to use Mattimax/DACMini-IT_Q8_0 with Ollama:
```
ollama run hf.co/Mattimax/DACMini-IT_Q8_0
```

Unsloth Studio new

How to use Mattimax/DACMini-IT_Q8_0 with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for Mattimax/DACMini-IT_Q8_0 to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for Mattimax/DACMini-IT_Q8_0 to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for Mattimax/DACMini-IT_Q8_0 to start chatting

Docker Model Runner
How to use Mattimax/DACMini-IT_Q8_0 with Docker Model Runner:
```
docker model run hf.co/Mattimax/DACMini-IT_Q8_0
```

Lemonade

How to use Mattimax/DACMini-IT_Q8_0 with Lemonade:

Pull the model

# Download Lemonade from https://lemonade-server.ai/
lemonade pull Mattimax/DACMini-IT_Q8_0

Run and chat with the model

lemonade run user.DACMini-IT_Q8_0-{{QUANT_TAG}}

List all available models

lemonade list

Mattimax/DACMini-IT-Q8_0

Autore: Mattimax
Organizzazione: M.INC
Licenza: MIT
Modello base: Mattimax/DACMini-IT

Descrizione

DACMini-IT-Q8_0 è la versione quantizzata in Q8_0 del modello Mattimax/DACMini-IT, ottimizzata per l’esecuzione più efficiente e leggera su CPU e GPU con supporto limitato alla memoria.
Questa versione mantiene la qualità linguistica e conversazionale del modello originale, riducendo drasticamente il peso e il consumo di RAM grazie alla quantizzazione a 8 bit (Q8_0).

La quantizzazione è stata realizzata per l’uso con llama.cpp, text-generation-webui, e altri framework compatibili con il formato GGUF.

Caratteristiche tecniche

Proprietà	Valore
Base model	Mattimax/DACMini-IT
Architettura	GPT-2 Small (italian adaptation)
Parametri effettivi	~109M
Formato	GGUF
Quantizzazione	Q8_0
Precisione numerica	8-bit
Contesto massimo	512 token
Dimensione del file	~420 MB
Vocabolario	~50.000 token

Cos’è la quantizzazione Q8_0

Il formato Q8_0 (int8 a precisione fissa) rappresenta un compromesso ideale tra efficienza computazionale e qualità del modello.
Riduce le dimensioni del file e l’uso di memoria senza una perdita significativa di performance nel dialogo e nella comprensione linguistica.

Ogni parametro è compresso in 8 bit.
Mantiene una precisione quasi identica al modello FP16.
Ideale per inferenza su CPU (Intel, AMD) o GPU di fascia media (es. GTX, RTX, Tesla).

Obiettivi

Esecuzione offline o embedded di chatbot in lingua italiana.
Supporto per applicazioni su macchine a risorse limitate.
Esperimenti NLP e inferenza rapida in ambiente desktop o server.

Uso consigliato

1. Inference con `llama.cpp`

./main -m DACMini-IT-Q8_0.gguf -p "Ciao, come stai oggi?" -n 150

2. Inference con `text-generation-webui`

Copia il file .gguf nella cartella models/.
Seleziona il modello da interfaccia grafica.
Imposta temperatura, top_p e lunghezza di output a piacere.
Avvia la chat.

Prestazioni stimate

Dispositivo	RAM richiesta	Tempo di risposta medio (token/s)
CPU Intel i7-3770	~1.5 GB	~20 token/s
GPU GTX 970	~1.2 GB VRAM	~40 token/s
CPU moderni (Ryzen 5 5600)	~1.0 GB	~60 token/s

(valori indicativi, possono variare in base al contesto e al sistema operativo)

Limitazioni

Alcune lievi imprecisioni nelle risposte rispetto alla versione FP16.
Non adatto a compiti di reasoning o traduzione complessa.
Ottimizzato per dialoghi e generazione di testo naturale in italiano.

Riferimenti

Modello originale: Mattimax/DACMini-IT
Dataset di addestramento: Mattimax/DATA-AI_Conversation_ITA
Organizzazione: M.INC
Collezione: Little_DAC Collection

Citazione

Se utilizzi Mattimax/DACMini-IT-Q8_0 in un progetto o pubblicazione, cita il modello originale:

@misc{mattimax2025dacminiitq8,
    title = {{Mattimax/DACMini-IT-Q8_0}: versione quantizzata del modello DACMini-IT},
    author = {Mattimax},
    howpublished = {\url{https://huggingface.co/Mattimax/DACMini-IT-Q8_0}},
    year = {2025},
    note = {Versione quantizzata (Q8_0) basata su Mattimax/DACMini-IT. Licenza MIT.}
}

Downloads last month: 3

GGUF

Model size

0.1B params

Architecture

gpt2

Hardware compatibility

We're not able to determine the quantization variants.

View all variants

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Mattimax/DACMini-IT_Q8_0

Base model

GroNLP/gpt2-small-italian

Finetuned

Mattimax/DACMini

Quantized

Mattimax/DACMini-IT

Quantized

(3)

this model

Mattimax
/

DACMini-IT_Q8_0

Mattimax/DACMini-IT-Q8_0

Descrizione

Caratteristiche tecniche

Cos’è la quantizzazione Q8_0

Obiettivi

Uso consigliato

1. Inference con `llama.cpp`

2. Inference con `text-generation-webui`

Prestazioni stimate

Limitazioni

Riferimenti

Citazione

Model tree for Mattimax/DACMini-IT_Q8_0

Dataset used to train Mattimax/DACMini-IT_Q8_0

Mattimax/DACMini-IT-Q8_0

Descrizione

Caratteristiche tecniche

Cos’è la quantizzazione Q8_0

Obiettivi

Uso consigliato

1. Inference con llama.cpp

2. Inference con text-generation-webui

Prestazioni stimate

Limitazioni

Riferimenti

Citazione

Model tree for Mattimax/DACMini-IT_Q8_0

Dataset used to train Mattimax/DACMini-IT_Q8_0

1. Inference con `llama.cpp`

2. Inference con `text-generation-webui`