Modelo multitask para Natural Language Inference (NLI) em português brasileiro, baseado no NorBERTo.

Tarefas

Classificação: Entailment (NONE(0), ENTAILMENT(1))
Regressão: Similaridade semântica (escala 0-5)

Dataset

Treinado no ASSIN2 (Avaliação de Similaridade Semântica e Inferência Natural).

Resultados

Melhor desempenho em validação

Métrica	Valor
Accuracy	96.4%
F1 Score	96.4%
MAE (Similaridade)	0.233

Desempenho no conjunto de teste

Métrica	Valor
Accuracy	90.60%
F1 Score	90.60%
MAE (Similaridade)	0.467
Loss	0.804

Histórico de treinamento

Epoch	Train Loss	Val Loss	Accuracy	F1	Sim MAE
1	0.524	0.488	90.2%	90.2%	0.366
2	0.329	0.318	94.6%	94.6%	0.284
3	0.174	0.283	95.8%	95.8%	0.259
4	0.134	0.253	96.4%	96.4%	0.239
5	0.064	0.266	96.4%	96.4%	0.233

Uso

from transformers import AutoTokenizer
from huggingface_hub import hf_hub_download
import onnxruntime as ort
import numpy as np

tokenizer = AutoTokenizer.from_pretrained(
    "palaciodata/NorBERTo-base-NLI-Multitask"
)

model_path = hf_hub_download(
    repo_id="palaciodata/NorBERTo-base-NLI-Multitask",
    filename="model.onnx"
)

session = ort.InferenceSession(model_path)

premissa = "Uma criança risonha está segurando uma pistola de água e sendo espirrada com água"
hipotese = "Uma criança está segurando uma pistola de água"

inputs = tokenizer(
    premissa,
    hipotese,
    return_tensors="np",
    max_length=256,
    truncation=True,
    padding="max_length"
)

logits, similarity = session.run(
    None,
    {
        "input_ids": inputs["input_ids"].astype(np.int64),
        "attention_mask": inputs["attention_mask"].astype(np.int64),
    }
)

classe = np.argmax(logits, axis=1)[0]

print(
    f"Classe: {classe}, Similaridade: {float(similarity[0]):.3f}"
)

Downloads last month: 99

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for palaciodata/NorBERTo-base-NLI-Multitask

Base model

Itau-Unibanco/NorBERTo-base

Quantized

(1)

this model

palaciodata
/

NorBERTo-base-NLI-Multitask