Buckets:
Fuentes de Datos Reales en Oncología (Open & Registered Access)
Para construir un sistema OncoAgent robusto y libre de alucinaciones, necesitamos datos del mundo real. A continuación, presento la lista más exhaustiva de fuentes de datos oncológicos categorizadas por su utilidad para nuestro pipeline (Fine-Tuning vs. RAG) y su nivel de accesibilidad.
1. Datasets de NLP y Resúmenes Clínicos (Ideal para Fine-Tuning)
Estos datasets contienen texto libre clínico, ideal para entrenar a Llama 3.1 en razonamiento oncológico y extracción de entidades.
- PMC-Patients V2 (HuggingFace / GitHub)
- Volumen: ~250,000 resúmenes de pacientes reales.
- Origen: Extraídos de reportes de casos médicos en PubMed Central.
- Acceso: 🟢 Abierto (HuggingFace Hub).
- Uso en OncoAgent: Fundamental para generar el formato JSONL de instrucción y entrenar la lógica de "Patient-to-Article" (conectar un paciente con literatura).
- PubMedQA / MedQA / MedMCQA (HuggingFace)
- Volumen: Cientos de miles de pares de Pregunta/Respuesta biomédica.
- Origen: Exámenes médicos reales (USMLE) y abstracts de PubMed con respuestas de expertos.
- Acceso: 🟢 Abierto (HuggingFace Hub).
- Uso en OncoAgent: Validación de razonamiento y fine-tuning de QA clínico.
2. Bases de Conocimiento Clínico (Ideal para RAG Engine)
Documentos autoritativos que sirven como fuente de verdad para el sistema de recuperación vectorial.
- ESMO Clinical Practice Guidelines
- Origen: European Society for Medical Oncology, publicados en Annals of Oncology.
- Formato: PDFs de alta calidad (Living Guidelines).
- Acceso: 🟢 Abierto (Free/Open Access directamente en su web).
- Uso en OncoAgent: Fuente primaria de verdad para el RAG sin fricción de autenticación.
- NCCN Clinical Practice Guidelines in Oncology
- Origen: National Comprehensive Cancer Network.
- Formato: PDFs detallados estructurados en algoritmos.
- Acceso: 🟡 Registro Gratuito Requerido. Los PDFs deben descargarse manualmente tras iniciar sesión.
- Uso en OncoAgent: Estándar de oro en EE.UU. Requiere recolección manual previa.
3. Registros de Historias Clínicas Electrónicas (EHR / EMR)
Datos crudos de hospitales, ideales para pruebas de estrés de triaje con ruido real (laboratorios, notas de evolución).
- MIMIC-IV (PhysioNet)
- Volumen: Cientos de miles de admisiones hospitalarias (Beth Israel Deaconess Medical Center). Contiene un subconjunto masivo de pacientes oncológicos con notas clínicas de texto libre, patología y radiología.
- Acceso: 🔴 Controlado. Requiere firmar un Data Use Agreement (DUA) y completar el curso de ética CITI.
- Uso en OncoAgent: La mejor fuente de datos de historias clínicas crudas si logras la acreditación.
- Project Data Sphere
- Volumen: Datos a nivel de paciente de ensayos clínicos oncológicos históricos donados por farmacéuticas (Sanofi, Pfizer, etc.).
- Acceso: 🟡 Registro Requerido. Abierto a investigadores tras registro básico.
- Uso en OncoAgent: Excelente para evaluar líneas de tratamiento y toxicidad real.
4. Datos Genómicos y Patología (Multimodal)
Si el OncoAgent se expande a analizar perfiles moleculares para terapias dirigidas (Targeted Therapy).
- TCGA (The Cancer Genome Atlas) / Genomic Data Commons (GDC)
- Volumen: +11,000 pacientes (33 tipos de cáncer).
- Origen: NIH / NCI.
- Acceso: 🟢 Abierto para datos clínicos y mutaciones simples; 🔴 Controlado para genómica cruda.
- Uso en OncoAgent: Cruce de perfiles moleculares (ej. EGFR, ALK) con guías clínicas.
- AACR Project GENIE
- Volumen: +130,000 pacientes.
- Origen: Consorcio internacional. Relaciona secuenciación clínica con resultados del mundo real.
- Acceso: 🟢 Abierto a la comunidad investigadora mediante releases periódicos.
Estrategia para el Hackathon (Viabilidad vs. Tiempo): Dado el límite de tiempo, la mejor relación esfuerzo-beneficio es:
- Descargar ESMO Guidelines (sin fricción) para llenar ChromaDB.
- Descargar PMC-Patients V2 vía el SDK de HuggingFace para los casos de prueba de triaje. (Esto nos da 100% de realidad clínica en 10 minutos de procesamiento, sin esperar certificaciones éticas como las de MIMIC-IV).
Xet Storage Details
- Size:
- 4.61 kB
- Xet hash:
- bdee87442c6fc8021b696f4acee753208a0d98c064c7a24d7bdeb537cc051917
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.