Spaces:

bgonpin
/

rag

Runtime error

App Files Files Community

bgonpin commited on Oct 12

Commit

3949424

verified ·

1 Parent(s): a7c7a04

Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

.gitattributes +1 -0
.gradio/certificate.pem +31 -0
README.md +2 -8
chroma/092fb627-93b2-4d3e-a593-fdf24c2837e5/data_level0.bin +3 -0
chroma/092fb627-93b2-4d3e-a593-fdf24c2837e5/header.bin +3 -0
chroma/092fb627-93b2-4d3e-a593-fdf24c2837e5/index_metadata.pickle +3 -0
chroma/092fb627-93b2-4d3e-a593-fdf24c2837e5/length.bin +3 -0
chroma/092fb627-93b2-4d3e-a593-fdf24c2837e5/link_lists.bin +3 -0
chroma/chroma.sqlite3 +3 -0
main gradio.py +363 -0
src/__pycache__/chroma_db.cpython-312.pyc +0 -0
src/__pycache__/chroma_db.cpython-313.pyc +0 -0
src/__pycache__/file_processor.cpython-312.pyc +0 -0
src/__pycache__/file_processor.cpython-313.pyc +0 -0
src/chroma_db.py +89 -0
src/file_processor.py +83 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+chroma/chroma.sqlite3 filter=lfs diff=lfs merge=lfs -text

.gradio/certificate.pem ADDED Viewed

	@@ -0,0 +1,31 @@

+-----BEGIN CERTIFICATE-----
+MIIFazCCA1OgAwIBAgIRAIIQz7DSQONZRGPgu2OCiwAwDQYJKoZIhvcNAQELBQAw
+TzELMAkGA1UEBhMCVVMxKTAnBgNVBAoTIEludGVybmV0IFNlY3VyaXR5IFJlc2Vh
+cmNoIEdyb3VwMRUwEwYDVQQDEwxJU1JHIFJvb3QgWDEwHhcNMTUwNjA0MTEwNDM4
+WhcNMzUwNjA0MTEwNDM4WjBPMQswCQYDVQQGEwJVUzEpMCcGA1UEChMgSW50ZXJu
+ZXQgU2VjdXJpdHkgUmVzZWFyY2ggR3JvdXAxFTATBgNVBAMTDElTUkcgUm9vdCBY
+MTCCAiIwDQYJKoZIhvcNAQEBBQADggIPADCCAgoCggIBAK3oJHP0FDfzm54rVygc
+h77ct984kIxuPOZXoHj3dcKi/vVqbvYATyjb3miGbESTtrFj/RQSa78f0uoxmyF+
+0TM8ukj13Xnfs7j/EvEhmkvBioZxaUpmZmyPfjxwv60pIgbz5MDmgK7iS4+3mX6U
+A5/TR5d8mUgjU+g4rk8Kb4Mu0UlXjIB0ttov0DiNewNwIRt18jA8+o+u3dpjq+sW
+T8KOEUt+zwvo/7V3LvSye0rgTBIlDHCNAymg4VMk7BPZ7hm/ELNKjD+Jo2FR3qyH
+B5T0Y3HsLuJvW5iB4YlcNHlsdu87kGJ55tukmi8mxdAQ4Q7e2RCOFvu396j3x+UC
+B5iPNgiV5+I3lg02dZ77DnKxHZu8A/lJBdiB3QW0KtZB6awBdpUKD9jf1b0SHzUv
+KBds0pjBqAlkd25HN7rOrFleaJ1/ctaJxQZBKT5ZPt0m9STJEadao0xAH0ahmbWn
+OlFuhjuefXKnEgV4We0+UXgVCwOPjdAvBbI+e0ocS3MFEvzG6uBQE3xDk3SzynTn
+jh8BCNAw1FtxNrQHusEwMFxIt4I7mKZ9YIqioymCzLq9gwQbooMDQaHWBfEbwrbw
+qHyGO0aoSCqI3Haadr8faqU9GY/rOPNk3sgrDQoo//fb4hVC1CLQJ13hef4Y53CI
+rU7m2Ys6xt0nUW7/vGT1M0NPAgMBAAGjQjBAMA4GA1UdDwEB/wQEAwIBBjAPBgNV
+HRMBAf8EBTADAQH/MB0GA1UdDgQWBBR5tFnme7bl5AFzgAiIyBpY9umbbjANBgkq
+hkiG9w0BAQsFAAOCAgEAVR9YqbyyqFDQDLHYGmkgJykIrGF1XIpu+ILlaS/V9lZL
+ubhzEFnTIZd+50xx+7LSYK05qAvqFyFWhfFQDlnrzuBZ6brJFe+GnY+EgPbk6ZGQ
+3BebYhtF8GaV0nxvwuo77x/Py9auJ/GpsMiu/X1+mvoiBOv/2X/qkSsisRcOj/KK
+NFtY2PwByVS5uCbMiogziUwthDyC3+6WVwW6LLv3xLfHTjuCvjHIInNzktHCgKQ5
+ORAzI4JMPJ+GslWYHb4phowim57iaztXOoJwTdwJx4nLCgdNbOhdjsnvzqvHu7Ur
+TkXWStAmzOVyyghqpZXjFaH3pO3JLF+l+/+sKAIuvtd7u+Nxe5AW0wdeRlN8NwdC
+jNPElpzVmbUq4JUagEiuTDkHzsxHpFKVK7q4+63SM1N95R1NbdWhscdCb+ZAJzVc
+oyi3B43njTOQ5yOf+1CceWxG1bQVs5ZufpsMljq4Ui0/1lvh+wjChP4kqKOJ2qxq
+4RgqsahDYVvTH9w7jXbyLeiNdd8XM2w9U/t7y0Ff/9yi0GE44Za4rF2LN9d11TPA
+mRGunUHBcnWEvgJBQl9nJEiU0Zsnvgc/ubhPgXRR4Xq37Z0j4r7g1SgEEzwxA57d
+emyPxgcYxn/eR44/KJ4EBs+lVDR3veyJm+kXQ99b21/+jh5Xos1AnX5iItreGCc=
+-----END CERTIFICATE-----

README.md CHANGED Viewed

@@ -1,12 +1,6 @@
 ---
-title: Rag
-emoji: 🏢
-colorFrom: green
-colorTo: green
 sdk: gradio
 sdk_version: 5.49.1
-app_file: app.py
-pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: rag
+app_file: main gradio.py
 sdk: gradio
 sdk_version: 5.49.1
 ---

chroma/092fb627-93b2-4d3e-a593-fdf24c2837e5/data_level0.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:894fd6d44d3938ae64a415331f238daa8c597a68998993c54b6d70ad16a2820d
+size 19272000

chroma/092fb627-93b2-4d3e-a593-fdf24c2837e5/header.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12b8b68dcd9c6f50b045f924bbada46386ffed1804ddae18b0b3009a8db66de7
+size 100

chroma/092fb627-93b2-4d3e-a593-fdf24c2837e5/index_metadata.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a33b46411f79d7f99f6ca00b2497e6857b10e53f429222e8ca2cd7c367236c22
+size 346027

chroma/092fb627-93b2-4d3e-a593-fdf24c2837e5/length.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a012229d16bde9de5c4632f4daf2bad6357c9087edc1394f4a62d4c0c53e5a3c
+size 24000

chroma/092fb627-93b2-4d3e-a593-fdf24c2837e5/link_lists.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c32223982fdf536a8c748ae676d72910e766ef6ab52322bef3622564cc78dcf
+size 51880

chroma/chroma.sqlite3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8f0e0767557f4624675f7782d6aa53deb250858a3f5ae99648439e0c46f79a1
+size 37646336

main gradio.py ADDED Viewed

	@@ -0,0 +1,363 @@

+import os
+import gradio as gr
+import shutil
+from typing import List
+from src.file_processor import chunk_pdfs, chunk_all_documents
+from src.chroma_db import save_to_chroma_db, get_chroma_client
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_ollama import OllamaEmbeddings
+from langchain_ollama import ChatOllama
+# Initialize components - procesamiento condicional
+def initialize_system(process_documents=True):
+    """
+    Inicializa el sistema RAG con opción de procesar documentos
+    """
+    if process_documents:
+        print("Procesando documentos...")
+        processed_documents = chunk_pdfs()
+        print("Inicializando modelo de embeddings...")
+        embedding_model = OllamaEmbeddings(
+            model="nomic-embed-text"
+        )
+        print("Guardando documentos en la base de datos...")
+        db = save_to_chroma_db(processed_documents, embedding_model)
+        return db, embedding_model
+    else:
+        print("Saltando procesamiento de documentos...")
+        print("Inicializando modelo de embeddings...")
+        embedding_model = OllamaEmbeddings(
+            model="nomic-embed-text"
+        )
+        # Intentar conectar con base de datos existente
+        try:
+            db = get_chroma_client()
+            print("Conectado a base de datos existente")
+            return db, embedding_model
+        except Exception as e:
+            print(f"Error conectando a base de datos existente: {e}")
+            return None, embedding_model
+# Estado global para controlar si los documentos están procesados
+documents_processed = False
+db = None
+embedding_model = None
+# Define the prompt template
+PROMPT_TEMPLATE = """
+Tienes que responder la siguiente pregunta basada en el contexto proporcionado:
+{context}
+Responde la siguiente pregunta: {question}
+Proporciona una respuesta con un enfoque de análisis histórico, considerando las causas, consecuencias y evolución de los hechos descritos.
+Sitúa los eventos en su marco temporal y geopolítico, y explica los factores sociales, económicos y políticos relevantes.
+Evita opiniones o juicios de valor y no incluyas información que no esté sustentada en el contexto.
+"""
+prompt_template = ChatPromptTemplate.from_template(PROMPT_TEMPLATE)
+# Initialize Ollama LLM model
+model = ChatOllama(model="hf.co/unsloth/granite-4.0-h-small-GGUF:Q2_K_L")
+def answer_question(question):
+    """
+    Función que responde preguntas basadas en el contexto de los documentos usando ChromaDB Docker
+    """
+    global documents_processed, db
+    if not question.strip():
+        return "Por favor ingresa una pregunta válida."
+    if not documents_processed or db is None:
+        return "❌ No hay documentos procesados disponibles. Por favor, procesa algunos documentos primero usando la opción de arriba."
+    try:
+        # Perform similarity search with the query
+        docs = db.similarity_search_with_score(question, k=3)
+        if not docs:
+            return "No se encontraron documentos relevantes para responder tu pregunta."
+        context = "\n\n---\n\n".join([doc.page_content for doc, _score in docs])
+        # Generate the prompt
+        prompt = prompt_template.format(context=context, question=question)
+        # Get response from model
+        response = model.invoke(prompt)
+        return response.content if hasattr(response, 'content') else str(response)
+    except Exception as e:
+        return f"Error al procesar la pregunta: {str(e)}. Verifica que ChromaDB Docker esté funcionando en el puerto 8000."
+# Definir constante para la carpeta de aportaciones
+APORTACIONES_PATH = 'aportaciones'
+def handle_file_upload(files) -> str:
+    """
+    Función que maneja la subida de archivos de los usuarios
+    """
+    if not files:
+        return "😅 ¡Ups! No has seleccionado ningún archivo. ¡Inténtalo de nuevo!"
+    success_count = 0
+    error_count = 0
+    error_messages = []
+    # Crear carpeta aportaciones si no existe
+    os.makedirs(APORTACIONES_PATH, exist_ok=True)
+    for file_obj in files:
+        try:
+            # Obtener el nombre del archivo
+            filename = os.path.basename(file_obj.name)
+            # Crear ruta de destino
+            destination_path = os.path.join(APORTACIONES_PATH, filename)
+            # Copiar el archivo a la carpeta aportaciones
+            shutil.copy2(file_obj.name, destination_path)
+            print(f"✅ Archivo {filename} subido exitosamente a {APORTACIONES_PATH}")
+            success_count += 1
+        except Exception as e:
+            error_message = f"❌ Error al subir {filename}: {str(e)}"
+            print(error_message)
+            error_messages.append(error_message)
+            error_count += 1
+    # Crear mensaje de respuesta jovial
+    if success_count > 0 and error_count == 0:
+        return f"🎉 ¡Genial! Has subido {success_count} archivo(s) exitosamente a la carpeta 'aportaciones'. ¡Tu conocimiento ahora forma parte del sistema! 🚀"
+    elif success_count > 0 and error_count > 0:
+        return f"⚠️ {success_count} archivo(s) subido(s) correctamente, pero {error_count} archivo(s) tuvieron problemas:\n" + "\n".join(error_messages)
+    else:
+        return f"😞 ¡Vaya! Hubo problemas al subir los archivos:\n" + "\n".join(error_messages)
+def process_user_documents():
+    """
+    Función que procesa los documentos subidos por usuarios
+    """
+    global documents_processed, db, embedding_model
+    try:
+        print("🔄 Procesando documentos de usuarios...")
+        # Procesar documentos de ambas carpetas
+        processed_documents = chunk_all_documents()
+        if not processed_documents:
+            return "😅 No se encontraron documentos para procesar. ¡Sube algunos archivos primero!"
+        print("🔗 Inicializando modelo de embeddings...")
+        embedding_model = OllamaEmbeddings(
+            model="nomic-embed-text"
+        )
+        print("💾 Guardando documentos en la base de datos...")
+        db = save_to_chroma_db(processed_documents, embedding_model)
+        documents_processed = True
+        return f"🎊 ¡Perfecto! Se procesaron {len(processed_documents)} documentos exitosamente. ¡Ya puedes hacer preguntas sobre tu nuevo contenido! 📚✨"
+    except Exception as e:
+        return f"❌ Error al procesar documentos: {str(e)}. Asegúrate de que todos los servicios estén funcionando correctamente."
+# Create Gradio interface
+with gr.Blocks(
+    title="Sistema RAG - Consulta de Documentos",
+    theme=gr.themes.Soft(),
+    css="""
+    .gradio-container {
+        max-width: 800px;
+        margin: auto;
+    }
+    .title {
+        text-align: center;
+        color: #2563eb;
+        font-size: 2.5em;
+        margin-bottom: 1em;
+    }
+    .subtitle {
+        text-align: center;
+        color: #64748b;
+        font-size: 1.1em;
+        margin-bottom: 2em;
+    }
+    """
+) as demo:
+    gr.HTML("<h1 class='title'>🤖 Sistema RAG - Consulta de Documentos</h1>")
+    gr.HTML("<p class='subtitle'>Haz preguntas sobre el contenido de tus documentos usando IA con ChromaDB Docker</p>")
+    gr.HTML("""
+    <div style="background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
+               padding: 20px;
+               border-radius: 15px;
+               margin: 20px 0;
+               text-align: center;
+               color: white;">
+        <h3 style="margin: 0 0 10px 0;">🚀 ¡Comparte tu conocimiento!</h3>
+        <p style="margin: 0; font-size: 1.1em;">
+            ¿Tienes documentos interesantes que quieres añadir al sistema?
+            ¡Súbelos aquí y forma parte de esta aventura del conocimiento! 📚✨
+        </p>
+    </div>
+    """)
+    with gr.Row():
+        with gr.Column(scale=2):
+            file_upload = gr.File(
+                label="📎 Subir documentos",
+                file_count="multiple",
+                file_types=[".pdf", ".txt", ".md"],
+                elem_id="file_upload"
+            )
+        with gr.Column(scale=1):
+            upload_btn = gr.Button(
+                "⬆️ Subir archivos",
+                variant="secondary",
+                size="lg"
+            )
+    upload_output = gr.Markdown(
+        label="Estado de subida",
+        elem_id="upload_status"
+    )
+    with gr.Row():
+        process_btn = gr.Button(
+            "🔄 Procesar documentos",
+            variant="primary",
+            size="lg"
+        )
+    process_output = gr.Markdown(
+        label="Estado de procesamiento",
+        elem_id="process_status"
+    )
+    question_input = gr.Textbox(
+        label="Tu pregunta",
+        placeholder="Ej: ¿Cuáles son los pasos recomendados para fertilizar un jardín de vegetales?",
+        lines=3,
+        max_lines=10
+    )
+    submit_btn = gr.Button(
+        "🔍 Consultar",
+        variant="primary",
+        size="lg"
+    )
+    answer_output = gr.Markdown(
+        label="Respuesta",
+        show_copy_button=True
+    )
+    # Examples
+    gr.Examples(
+        examples=[
+            "¿Cuál es el orgigen étnico de los habitantes de Gaza?",
+            "¿Qué documentos históricos están disponibles?",
+            "¿Qué ocurrió el 7 de octubre de 2023?",
+        ],
+        inputs=question_input,
+        label="Ejemplos de preguntas"
+    )
+    # Event handlers
+    submit_btn.click(
+        fn=answer_question,
+        inputs=[question_input],
+        outputs=[answer_output]
+    )
+    question_input.submit(
+        fn=answer_question,
+        inputs=[question_input],
+        outputs=[answer_output]
+    )
+    # Event handlers para subida de archivos
+    upload_btn.click(
+        fn=handle_file_upload,
+        inputs=[file_upload],
+        outputs=[upload_output]
+    )
+    process_btn.click(
+        fn=process_user_documents,
+        inputs=[],
+        outputs=[process_output]
+    )
+    gr.HTML("""
+    <div style="text-align: center; margin-top: 2em; color: #64748b; font-size: 0.9em;">
+        <p>Sistema RAG con LangChain, Ollama y ChromaDB Docker</p>
+        <p style="font-size: 0.8em; margin-top: 0.5em;">🌐 ChromaDB corriendo en contenedor Docker (puerto 8000)</p>
+    </div>
+    """)
+if __name__ == "__main__":
+    print("🚀 Sistema RAG - Consulta de Documentos")
+    print("=" * 50)
+    # Preguntar al usuario qué acción realizar
+    print("¿Qué deseas hacer?")
+    print("1. Procesar documentos de las carpetas 'documents' y 'aportaciones' (recomendado si tienes documentos nuevos) 🚀")
+    print("2. Pasar directamente al RAG (usar base de datos existente)")
+    print("\n💡 ¡Novedad! Los usuarios ahora pueden subir documentos a la carpeta 'aportaciones' desde la interfaz web")
+    print("   ¡Comparte tu conocimiento y enriquecer el sistema! 📚✨")
+    while True:
+        try:
+            choice = input("\nElige una opción (1 o 2): ").strip()
+            if choice == "1":
+                print("\n📁 Procesando documentos...")
+                process_documents = True
+                break
+            elif choice == "2":
+                print("\n🚀 Pasando directamente al RAG...")
+                process_documents = False
+                break
+            else:
+                print("❌ Opción no válida. Por favor elige 1 o 2.")
+        except KeyboardInterrupt:
+            print("\n\n👋 ¡Hasta luego!")
+            exit(0)
+    # Inicializar sistema basado en la elección del usuario
+    print("\nInicializando sistema...")
+    db, embedding_model = initialize_system(process_documents)
+    if process_documents:
+        documents_processed = True
+        print("✅ Sistema inicializado con documentos procesados")
+    else:
+        documents_processed = (db is not None)
+        if documents_processed:
+            print("✅ Sistema inicializado con documentos existentes")
+        else:
+            print("⚠️ No se pudo conectar a documentos existentes")
+            print("💡 Sugerencia: Ejecuta el script con la opción 1 para procesar documentos")
+    print("\n🚀 Iniciando interfaz web...")
+    demo.launch(
+        server_name="0.0.0.0",
+        server_port=7861,
+        share=True,
+        debug=False
+    )

src/__pycache__/chroma_db.cpython-312.pyc ADDED Viewed

Binary file (3.86 kB). View file

src/__pycache__/chroma_db.cpython-313.pyc ADDED Viewed

Binary file (1.18 kB). View file

src/__pycache__/file_processor.cpython-312.pyc ADDED Viewed

Binary file (4.41 kB). View file

src/__pycache__/file_processor.cpython-313.pyc ADDED Viewed

Binary file (960 Bytes). View file

src/chroma_db.py ADDED Viewed

	@@ -0,0 +1,89 @@

+import os
+import shutil
+from langchain_community.vectorstores import Chroma
+from langchain_core.documents import Document
+# Configuración para ChromaDB
+CHROMA_PATH = 'chroma'
+def save_to_chroma_db(chunks: list[Document], embedding_model) -> Chroma:
+    """
+    Guarda documentos en ChromaDB usando modo local con procesamiento por lotes
+    """
+    print(f"Usando modo local de ChromaDB en {CHROMA_PATH}")
+    # Limpiar base de datos local existente
+    if os.path.exists(CHROMA_PATH):
+        try:
+            shutil.rmtree(CHROMA_PATH)
+            print(f"Base de datos local existente eliminada: {CHROMA_PATH}")
+        except Exception as e:
+            print(f"Error eliminando base de datos local: {e}")
+    try:
+        # Procesar en lotes para manejar gran volumen de datos
+        batch_size = 1000  # Procesar 1000 chunks por vez
+        total_chunks = len(chunks)
+        print(f"Procesando {total_chunks} chunks en lotes de {batch_size}...")
+        # Crear primera colección con el primer lote
+        first_batch = chunks[:batch_size]
+        print(f"Procesando primer lote: {len(first_batch)} chunks...")
+        db = Chroma.from_documents(
+            first_batch,
+            persist_directory=CHROMA_PATH,
+            embedding=embedding_model
+        )
+        print(f"Primer lote completado. Guardado en {CHROMA_PATH}")
+        # Procesar lotes restantes
+        for i in range(batch_size, total_chunks, batch_size):
+            end_idx = min(i + batch_size, total_chunks)
+            batch = chunks[i:end_idx]
+            batch_num = (i // batch_size) + 1
+            total_batches = (total_chunks + batch_size - 1) // batch_size
+            print(f"Procesando lote {batch_num}/{total_batches}: {len(batch)} chunks...")
+            try:
+                db.add_documents(batch)
+                print(f"Lote {batch_num}/{total_batches} completado")
+            except Exception as e:
+                print(f"Error procesando lote {batch_num}: {e}")
+                print("Continuando con siguiente lote...")
+        print(f"Procesamiento completado: {total_chunks} chunks guardados exitosamente")
+        return db
+    except Exception as e:
+        print(f"Error crítico creando base de datos: {e}")
+        print("Verifica que Ollama esté funcionando y el modelo nomic-embed-text esté disponible")
+        return None
+def get_chroma_client() -> Chroma:
+    """
+    Obtiene un cliente ChromaDB para consultas
+    """
+    try:
+        if os.path.exists(CHROMA_PATH):
+            # Crear función de embedding para consultas
+            from langchain_ollama import OllamaEmbeddings
+            embedding_model = OllamaEmbeddings(model="nomic-embed-text")
+            db = Chroma(
+                persist_directory=CHROMA_PATH,
+                embedding_function=embedding_model  # Agregar función de embedding
+            )
+            print(f"Conectado a ChromaDB local en {CHROMA_PATH}")
+            return db
+        else:
+            print("Base de datos local no encontrada")
+            return None
+    except Exception as e:
+        print(f"Error conectando a ChromaDB local: {e}")
+        return None

src/file_processor.py ADDED Viewed

	@@ -0,0 +1,83 @@

+from langchain_community.document_loaders import PyPDFDirectoryLoader, TextLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_core.documents import Document
+import os
+from typing import List
+# Paths to the directories containing the files
+DOCUMENTS_PATH = 'documents'
+APORTACIONES_PATH = 'aportaciones'
+def chunk_all_documents() -> List[Document]:
+    """
+    Procesa todos los archivos de las carpetas documents y aportaciones (PDFs y archivos de texto/Markdown)
+    y los divide en chunks para el procesamiento de embeddings.
+    """
+    all_documents = []
+    # Procesar documentos de la carpeta documents
+    print("📁 Procesando documentos de la carpeta 'documents'...")
+    if os.path.exists(DOCUMENTS_PATH):
+        # Procesar archivos PDF
+        if any(file.endswith('.pdf') for file in os.listdir(DOCUMENTS_PATH)):
+            pdf_loader = PyPDFDirectoryLoader(DOCUMENTS_PATH)
+            pdf_documents = pdf_loader.load()
+            all_documents.extend(pdf_documents)
+            print(f"  ✅ Se cargaron {len(pdf_documents)} documentos PDF de 'documents'")
+        # Procesar archivos de texto y markdown
+        text_files = []
+        for file in os.listdir(DOCUMENTS_PATH):
+            if file.endswith(('.txt', '.md')):
+                text_files.append(os.path.join(DOCUMENTS_PATH, file))
+        for text_file in text_files:
+            text_loader = TextLoader(text_file, encoding='utf-8')
+            text_documents = text_loader.load()
+            all_documents.extend(text_documents)
+        print(f"  ✅ Se cargaron {len(text_files)} archivos de texto/markdown de 'documents'")
+    # Procesar documentos de la carpeta aportaciones
+    print("🚀 Procesando documentos de la carpeta 'aportaciones'...")
+    if os.path.exists(APORTACIONES_PATH):
+        # Procesar archivos PDF
+        if any(file.endswith('.pdf') for file in os.listdir(APORTACIONES_PATH)):
+            pdf_loader = PyPDFDirectoryLoader(APORTACIONES_PATH)
+            pdf_documents = pdf_loader.load()
+            all_documents.extend(pdf_documents)
+            print(f"  ✅ Se cargaron {len(pdf_documents)} documentos PDF de 'aportaciones'")
+        # Procesar archivos de texto y markdown
+        text_files = []
+        for file in os.listdir(APORTACIONES_PATH):
+            if file.endswith(('.txt', '.md')):
+                text_files.append(os.path.join(APORTACIONES_PATH, file))
+        for text_file in text_files:
+            text_loader = TextLoader(text_file, encoding='utf-8')
+            text_documents = text_loader.load()
+            all_documents.extend(text_documents)
+        print(f"  ✅ Se cargaron {len(text_files)} archivos de texto/markdown de 'aportaciones'")
+    print(f"📊 Total de documentos cargados: {len(all_documents)}")
+    # Initialize the text splitter
+    text_splitter = RecursiveCharacterTextSplitter(
+        chunk_size=800, # Size of each chunk in characters
+        chunk_overlap=100, # Overlap between chunks in characters
+        length_function=len, # Function to calculate the length of the text
+        add_start_index=True, # Add start index to the chunks
+    )
+    # Split the documents into chunks
+    chunks = text_splitter.split_documents(all_documents)
+    print(f"Se crearon {len(chunks)} chunks de texto")
+    return chunks
+# Mantener función anterior para compatibilidad
+def chunk_pdfs() -> List[Document]:
+    """Función legacy para procesar solo PDFs"""
+    return chunk_all_documents()