Article

Aug 21, 2025

MedSigLIP bajo el microscopio: evaluación técnica del analizador de imágenes médicas de Google en histopatología

Resumen: Experimento In Silico de MedSigLIP (imagen) en un conjunto heterogéneo de casos histopatológicos y citológicos reales (base pública en Telegram y ejemplos de internet). El modelo mostró fortalezas claras en carcinomas con señales arquitecturales robustas (p. ej., gástrico pobremente diferenciado, colangiocarcinoma, adenocervical) y debilidades predecibles por dominio y sesgos de preentrenamiento (p. ej., confusiones con mama, errores en no neoplásicos/tejido normal y citología con artefactos). En escenarios binarios, aun cuando falló, dejó “no cáncer” como segunda opción, lo que sugiere generalización razonable y cierta incertidumbre calibrable. Promedio de notas en los casos evaluados: 14.6/20 (10 escenarios con calificación explícita).

MedSigLIP bajo el microscopio: evaluación técnica del analizador de imágenes médicas de Google en histopatología

Resumen ejecutivo (TL;DR)

Probamos MedSigLIP (imagen) en un conjunto heterogéneo de casos histopatológicos y citológicos reales (base pública en Telegram y ejemplos de internet). El modelo mostró fortalezas claras en carcinomas con señales arquitecturales robustas (p. ej., gástrico pobremente diferenciado, colangiocarcinoma, adenocervical) y debilidades predecibles por dominio y sesgos de preentrenamiento (p. ej., confusiones con mama, errores en no neoplásicos/tejido normal y citología con artefactos). En escenarios binarios, aun cuando falló, dejó “no cáncer” como segunda opción, lo que sugiere generalización razonable y cierta incertidumbre calibrable. Promedio de notas en los casos evaluados: 14.6/20 (10 escenarios con calificación explícita).

Introducción

MedSigLIP es un modelo multimodal de Google lanzado este año, con ~400M de parámetros para visión y ~400M para texto. En este experimento sólo evaluamos la rama visual, a modo de analizador de imágenes histopatológicas(y afines: IHQ y citología).

Descargamos los pesos y corremos inferencia local, integrándolo en nuestro IDE con un pipeline simple de predicción. Usamos tiles/imágenes casos reales de mi base pública de Telegram (cientos de tumores), y además URLs de imágenes disponibles en revistas, blogs y redes, para testear robustez a dominio externo (compresión, marcas de agua, variabilidad de escáner, resolución).

Importante: No comparamos “capacidad clínica global” con ChatGPT V5 Razonamiento (que integra texto, bibliografía, clínica, inferencia multimodal), ni con un patólogo experto ultraespecializado; aquí medimos la aptitud de representación visual de MedSigLIP como feature extractor / clasificador baseen histopatología.

Metodología

Preparación del entorno

  • Pesos: descargados y almacenados localmente.

  • Inferencia: pipeline propio en IDE, con preprocesamiento mínimo (redimensionado, normalización trivial).

  • Entrada: imágenes H&E, IHQ, citología y algunas fuentes de internet (distintos formatos, niveles de compresión/artefactos).

  • Estrategias de predicción:

    • Multiclase (lista de candidatos diagnósticos; top-1 + top-k razonado).

    • Binaria (“cáncer” vs “no cáncer”), para inspeccionar incertidumbre y sensibilidad a OOD (out-of-domain).

Nota: No se aplicó stain normalization (e.g., Macenko/Reinhard), TTA, ni agregación multi-escala; aquí el objetivo fue sondear “out-of-the-box” la capacidad de generalización.

Criterios de evaluación

  • Exactitud diagnóstica cualitativa: ¿la predicción top-1 coincide con el diagnóstico correcto?

  • Coherencia diferencial: ¿descarta de forma razonada diagnósticos implausibles dados los patrones arquitecturales/citológicos?

  • Comportamiento binario: ¿cómo se posiciona la probabilidad “cáncer/no cáncer”? ¿aparece “no cáncer” como alternativa cuando falla?

  • Calificación tipo patólogo (escala /20) para transmitir una intuición clínica del desempeño por caso.

Resultados por caso (con notas)

A continuación, cada escenario probando robustez a magnificación, modalidad (H&E vs IHQ vs citología), artefactosy candidatos distractores.

  1. Carcinoma basocelular (H&E)
    Resultado: Acertado. Reconoció arquitectura basalioide y descartó alternativas.
    Lectura técnica: Señales robustas (perlas, hendiduras, periferia en empalizada) suelen anclar bien en modelos foundation.
    Nota: 16/20.

  2. Carcinoma gástrico pobremente diferenciado (H&E)
    Resultado: Acertado y convincente.
    Lectura técnica: Aun sin glandularidad clásica, el patrón de atipia difusa + desorganización fue suficiente para la red.
    Nota: 19/20.

  3. Adenocarcinoma de colon (H&E)Fallo como carcinoma NST de mama
    Resultado: Error de clase; probable sesgo de corpus (sobre-representación de tiles de mama en el preentrenamiento).
    Lectura técnica: La red parece sobrerregular hacia “mama” ante patrones glandulares ambiguos; sugiere ajustar priors/reentrenar con negativos duros de colon.
    Nota: (no puntuada en origen; registramos el fallo cualitativo).

  4. IHQ p16 positiva en bloque (adenocarcinoma endocervical)
    Resultado: Acertado, pese a ser IHQ (no H&E).
    Lectura técnica: Asocia patrón p16 block-like con adenocervical; indicio de que su embedding codifica patrones cromogénicos/marcadores.
    Nota: 19/20.

  5. Adenocarcinoma endocervical, bajo aumento (H&E), resolución limitada
    Resultado: Acertado; descartó colon, próstata, mama.
    Lectura técnica: Robustez multi-escala mínima: aun con blur/MPP subóptimo, pudo leer arquitectura maligna global.
    Nota: 19/20.

  6. Espiradenoma ecrino (H&E, mediana potencia)
    Resultado: Fallo; predijo cáncer de próstata.
    Binaria: Predijo cáncer pero dejó “no cáncer” como segunda opción.
    Lectura técnica: Con poca señal citológica/arquitectural, la red cae en “atajos” semánticos (spurious correlations). El segundo lugar “no cáncer” sugiere incertidumbre útil.
    Nota: 13/20.

  7. Mastitis crónica (H&E)
    Resultado: Falso positivo a cáncer; en binaria mantuvo “no cáncer” como 2ª opción.
    Lectura técnica: La inflamación crónica + distorsiones puede simular malignidad para un modelo no calibrado; clave introducir clases inflamatorias en fine-tuning y abstención.
    Nota: 7/20.

  8. Cartílago normal (H&E)
    Resultado: Erróneo → “cáncer”, pero con probabilidades cercanas (modelo inseguro).
    Lectura técnica: Caso out-of-domain para un preentrenado pro-tumor; necesitamos detección OOD (energy-based/ODIN) y umbral de abstención.
    Nota: 7/20.

  9. Colangiocarcinoma (H&E, alta potencia)
    Resultado: Acertado; reconoció desmoplasia azul y arquitectura maligna glandular.
    Lectura técnica: Señales estromales + glandulares bien codificadas en embeddings.
    Nota: 19/20.

  10. Citología: metástasis ganglionar de adenocarcinoma endometrial
    Binaria: 62.35% “carcinoma” (acierta).
    Multiclase con distractores (“adenocarcinoma”, “citología normal”, “citología con necrosis”, “un árbol en un bosque”): elige necrosis (error); la probabilidad de “árbol en un bosque” fue baja (bien).
    Lectura técnica: Los artefactos + alta presencia de necrosis en el preentrenamiento sesgaron; sugiere incluir citología con artefactos en el fine-tuning y auxiliares de calidad (blur/noise detectors).
    Nota: 12/20.

  11. Carcinoma in situ de mama (imágenes de internet)
    Resultado: Desempeño relativamente bueno, pero confunde ~50% con invasivo.
    Lectura técnica: Shift de dominio (compresión, selección de ROI, marcas de agua) + sutileza de DCIS vs invasivo: requiere multi-escala + contexto del ducto y etiquetado fino.
    Nota: 15/20.

Promedio (casos con nota): 14.6/20 en 10 escenarios calificados.

Discusión técnica

1) Señales que aprende y dónde tropieza

  • Fuerte en: patrones arquitecturales netos (glandularidad maligna, desmoplasia, basalioide), marcadores IHQ “block-like” (p16) y contexto tumoral robusto.

  • Débil en:

    • No neoplásicos (mastitis) y tejido normal (cartílago): tiende a sobre-llamar “cáncer” → calibración y abstención imprescindibles.

    • Confusiones por sesgo de corpus (colon → mama NST): sugiere fine-tuning con negativos duros y reponderación de clases.

    • Citología con artefactos: desplaza la predicción hacia necrosis; debe entrenarse con ruido realista y QAde imagen.

2) Binaria vs multiclase

  • La binaria reveló una propensión a la detección de malignidad (sensibilidad alta pero especificidad subóptima), con un matiz útil: “no cáncer” aparecía como 2ª opción cuando dudaba → señal para un detector de abstención.

  • La multiclase expone sesgos de frecuencia (mama) y distractores (necrosis). Control: label smoothing, temperature scaling, top-k filtering, y listas jerarquizadas (p. ej., primero “órgano”, luego “patrón”).

3) OOD y calidad de imagen

  • Internet introduce compresión, reencuadres y marcas: sin normalización/ensembles, caen las fronteras finas (p. ej., DCIS vs invasivo).

  • Recomendado: stain norm, TTA, MIL/multi-escala, clasificadores de calidad (blur, artefacto, cobertura del ROI) antes de la decisión final.

4) Interpretabilidad y seguridad

  • Añadir saliency/attribution (Grad-CAM/RISE) ayudaría a validar que el modelo usa pistas histológicas(arquitectura/citología) y no artefactos.

  • Detección OOD (energy/MAHA/ODIN) y learning with abstention serían claves para evitar sobre-llamados en no neoplásicos/normal.

Cómo aprovechar MedSigLIP en investigación aplicada

Aunque aquí lo probamos como clasificador directo, su rol natural en patología computacional es como modelo basepara extraer embeddings a partir de los cuales entrenar un cabezal ligero (logistic regression/MLP/SVM) sobre datasets personalizados:

  1. Extracción de embeddings de tiles H&E/IHQ/citología.

  2. Fine-tuning ligero (o linear probing) con curación de negativos duros (mastitis, normal, inflamatorios específicos).

  3. Jerarquía: (i) detector órgano/sitio → (ii) benigno/maligno → (iii) subtipo.

  4. Calibración: temperature scaling, ECE/Brier, umbrales por clase.

  5. Abstención + OOD: integrar un “reject option” cuando la energía/confianza cruza el umbral.

  6. Evaluación robusta: cross-dominio (distintos escáneres/centros), multi-escala, y metrías clínicas (sensibilidad, especificidad, F1, AUC, NPV/PPV por escenario).

Limitaciones de esta evaluación

  • Muestra piloto: no es un benchmark masivo; los resultados orientan hipótesis para un estudio formal.

  • Sin normalización de color ni TTA: queríamos medir la capacidad base; el rendimiento puede mejorar con un pipeline más rico.

  • Etiquetas granularidad: algunos errores (p. ej., DCIS vs invasivo) requieren contexto de campo y ground truth con más detalle.

Contexto del año 2025

Este experimento es una muestra del ecosistema en ebullición: se multiplican los foundation models multimodales; es razonable pensar que grandes compañías ya operan modelos cerrados más potentes, entrenados con cómputo masivo y datos curados. Mientras tanto, la comunidad de patología computacional debe aprovechar el preentrenamiento (p. ej., >32 millones de tiles histológicos) y especializar sobre bases locales, manteniendo buenas prácticas de evaluación y seguridad.

Conclusiones

  • Fortalezas: reconoce bien arquitecturas tumorales claras (gastric PD, colangio), IHQ p16 y adenocervicalincluso con baja resolución.

  • Debilidades: sesgo a mama en glandulares ambiguos, falsos positivos en inflamatorios y normal, y sensibilidad a artefactos en citología.

  • Señales positivas: en fallos binarios, “no cáncer” emerge como 2ª opción —útil para rejilla de seguridad.

  • Próximos pasos: fine-tuning jerárquico, calibración, OOD, normalización de color, interpretabilidad, y evaluación multi-centro multi-escáner.

Llamado a la comunidad

  • Código/weights locales: integra MedSigLIP como extractor de embeddings y entrena tus cabezales con datos curados (incluye no neoplásicos y artefactos).

  • Evalúa en internet/domino externo con URLs para stress-test.

  • Comparte errores difíciles (mastitis, normal, citología con artefactos) para mejorar negativos duros de todos.

📺 Mira el video del experimento, suscríbete a mi canal de YouTube y sígueme en redes para más pruebas, tutoriales y análisis de modelos en patología.