Spaces:

kawre
/

Huggingface_Chatbot_Cascade

Running

kawre commited on 6 days ago

Commit

c20c6e6

verified ·

1 Parent(s): eb86cae

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -1,19 +1,36 @@
 ---
-title: Meu Space com Llama 3.1
 emoji: 🤖
 colorFrom: blue
 colorTo: green
 sdk: gradio
 sdk_version: "latest"
 app_file: app.py
 pinned: false
 ---
-# Meu Space com Llama 3.1
 ## Como Funciona
-Este Space utiliza o **Llama 3.1** via **Inference API** da Hugging Face para processar prompts do usuário.
-Dependendo da query, é possível integrar fluxos em cascata com outros modelos auxiliares.
 ---
@@ -37,5 +54,14 @@ Dependendo da query, é possível integrar fluxos em cascata com outros modelos
 ---
 ## Como Rodar
-- O Space inicia automaticamente a interface Gradio ao ser carregado
-- Digite um prompt na interface e veja a resposta do modelo

 ---
+title: Chatbot em Cascata com Llama 3.1
 emoji: 🤖
 colorFrom: blue
 colorTo: green
 sdk: gradio
 sdk_version: "latest"
+python_version: "3.11"
+suggested_hardware: "cpu-basic"
 app_file: app.py
 pinned: false
+short_description: Chatbot em cascata usando Llama 3.1 e modelos auxiliares
+models:
+  - meta-llama/Llama-3.1-8B-Instruct
+  - google/flan-t5-large
+  - facebook/bart-large-cnn
+datasets: []
+tags:
+  - chatbot
+  - nlp
+  - cascade
 ---
+# Chatbot em Cascata com Llama 3.1
 ## Como Funciona
+Este Space implementa um **chatbot em cascata** usando o modelo **Llama 3.1** via **Inference API** da Hugging Face.
+Dependendo da query do usuário, o chatbot aciona **dois outros modelos auxiliares** para gerar respostas, resumir ou buscar informações.
+### Fluxo do Chatbot
+1. **Llama 3.1** → processamento principal do prompt do usuário
+2. **FLAN-T5** → processamento auxiliar (ex.: reformulação ou classificação)
+3. **BART Large** → geração de resumo ou respostas adicionais
 ---
 ---
 ## Como Rodar
+- O Space inicia automaticamente a interface Gradio
+- Digite um prompt na interface e veja a resposta do chatbot
+- Teste todos os fluxos da cascata para confirmar que todos os modelos estão sendo chamados
+---
+## Boas Práticas
+- Nunca exponha o token (`HF_TOKEN`) no código
+- Trate exceções da API com `try/except`
+- Use a **Inference API** para modelos grandes e evitar MemoryError
+- Monitore o consumo da API (chamadas podem gerar custo)