MedSigLIP bajo el microscopio: evaluación técnica del analizador de imágenes médicas de Google en histopatología

Resumen: Experimento In Silico de MedSigLIP (imagen) en un conjunto heterogéneo de casos histopatológicos y citológicos reales (base pública en Telegram y ejemplos de internet). El modelo mostró fortalezas claras en carcinomas con señales arquitecturales robustas (p. ej., gástrico pobremente diferenciado, colangiocarcinoma, adenocervical) y debilidades predecibles por dominio y sesgos de preentrenamiento (p. ej., confusiones con mama, errores en no neoplásicos/tejido normal y citología con artefactos). En escenarios binarios, aun cuando falló, dejó “no cáncer” como segunda opción, lo que sugiere generalización razonable y cierta incertidumbre calibrable. Promedio de notas en los casos evaluados: 14.6/20 (10 escenarios con calificación explícita).

MedSigLIP bajo el microscopio: evaluación técnica del analizador de imágenes médicas de Google en histopatología

Resumen ejecutivo (TL;DR)

Probamos MedSigLIP (imagen) en un conjunto heterogéneo de casos histopatológicos y citológicos reales (base pública en Telegram y ejemplos de internet). El modelo mostró fortalezas claras en carcinomas con señales arquitecturales robustas (p. ej., gástrico pobremente diferenciado, colangiocarcinoma, adenocervical) y debilidades predecibles por dominio y sesgos de preentrenamiento (p. ej., confusiones con mama, errores en no neoplásicos/tejido normal y citología con artefactos). En escenarios binarios, aun cuando falló, dejó “no cáncer” como segunda opción, lo que sugiere generalización razonable y cierta incertidumbre calibrable. Promedio de notas en los casos evaluados: 14.6/20 (10 escenarios con calificación explícita).

Introducción

MedSigLIP es un modelo multimodal de Google lanzado este año, con ~400M de parámetros para visión y ~400M para texto. En este experimento sólo evaluamos la rama visual, a modo de analizador de imágenes histopatológicas(y afines: IHQ y citología).

Descargamos los pesos y corremos inferencia local, integrándolo en nuestro IDE con un pipeline simple de predicción. Usamos tiles/imágenes casos reales de mi base pública de Telegram (cientos de tumores), y además URLs de imágenes disponibles en revistas, blogs y redes, para testear robustez a dominio externo (compresión, marcas de agua, variabilidad de escáner, resolución).

Importante: No comparamos “capacidad clínica global” con ChatGPT V5 Razonamiento (que integra texto, bibliografía, clínica, inferencia multimodal), ni con un patólogo experto ultraespecializado; aquí medimos la aptitud de representación visual de MedSigLIP como feature extractor / clasificador baseen histopatología.

Metodología

Preparación del entorno

Pesos: descargados y almacenados localmente.
Inferencia: pipeline propio en IDE, con preprocesamiento mínimo (redimensionado, normalización trivial).
Entrada: imágenes H&E, IHQ, citología y algunas fuentes de internet (distintos formatos, niveles de compresión/artefactos).
Estrategias de predicción:
- Multiclase (lista de candidatos diagnósticos; top-1 + top-k razonado).
- Binaria (“cáncer” vs “no cáncer”), para inspeccionar incertidumbre y sensibilidad a OOD (out-of-domain).

Nota: No se aplicó stain normalization (e.g., Macenko/Reinhard), TTA, ni agregación multi-escala; aquí el objetivo fue sondear “out-of-the-box” la capacidad de generalización.

Criterios de evaluación

Exactitud diagnóstica cualitativa: ¿la predicción top-1 coincide con el diagnóstico correcto?
Coherencia diferencial: ¿descarta de forma razonada diagnósticos implausibles dados los patrones arquitecturales/citológicos?
Comportamiento binario: ¿cómo se posiciona la probabilidad “cáncer/no cáncer”? ¿aparece “no cáncer” como alternativa cuando falla?
Calificación tipo patólogo (escala /20) para transmitir una intuición clínica del desempeño por caso.

Resultados por caso (con notas)

A continuación, cada escenario probando robustez a magnificación, modalidad (H&E vs IHQ vs citología), artefactosy candidatos distractores.

Carcinoma basocelular (H&E)
Resultado: Acertado. Reconoció arquitectura basalioide y descartó alternativas.
Lectura técnica: Señales robustas (perlas, hendiduras, periferia en empalizada) suelen anclar bien en modelos foundation.
Nota: 16/20.
Carcinoma gástrico pobremente diferenciado (H&E)
Resultado: Acertado y convincente.
Lectura técnica: Aun sin glandularidad clásica, el patrón de atipia difusa + desorganización fue suficiente para la red.
Nota: 19/20.
Adenocarcinoma de colon (H&E) → Fallo como carcinoma NST de mama
Resultado: Error de clase; probable sesgo de corpus (sobre-representación de tiles de mama en el preentrenamiento).
Lectura técnica: La red parece sobrerregular hacia “mama” ante patrones glandulares ambiguos; sugiere ajustar priors/reentrenar con negativos duros de colon.
Nota: (no puntuada en origen; registramos el fallo cualitativo).
IHQ p16 positiva en bloque (adenocarcinoma endocervical)
Resultado: Acertado, pese a ser IHQ (no H&E).
Lectura técnica: Asocia patrón p16 block-like con adenocervical; indicio de que su embedding codifica patrones cromogénicos/marcadores.
Nota: 19/20.
Adenocarcinoma endocervical, bajo aumento (H&E), resolución limitada
Resultado: Acertado; descartó colon, próstata, mama.
Lectura técnica: Robustez multi-escala mínima: aun con blur/MPP subóptimo, pudo leer arquitectura maligna global.
Nota: 19/20.
Espiradenoma ecrino (H&E, mediana potencia)
Resultado: Fallo; predijo cáncer de próstata.
Binaria: Predijo cáncer pero dejó “no cáncer” como segunda opción.
Lectura técnica: Con poca señal citológica/arquitectural, la red cae en “atajos” semánticos (spurious correlations). El segundo lugar “no cáncer” sugiere incertidumbre útil.
Nota: 13/20.
Mastitis crónica (H&E)
Resultado: Falso positivo a cáncer; en binaria mantuvo “no cáncer” como 2ª opción.
Lectura técnica: La inflamación crónica + distorsiones puede simular malignidad para un modelo no calibrado; clave introducir clases inflamatorias en fine-tuning y abstención.
Nota: 7/20.
Cartílago normal (H&E)
Resultado: Erróneo → “cáncer”, pero con probabilidades cercanas (modelo inseguro).
Lectura técnica: Caso out-of-domain para un preentrenado pro-tumor; necesitamos detección OOD (energy-based/ODIN) y umbral de abstención.
Nota: 7/20.
Colangiocarcinoma (H&E, alta potencia)
Resultado: Acertado; reconoció desmoplasia azul y arquitectura maligna glandular.
Lectura técnica: Señales estromales + glandulares bien codificadas en embeddings.
Nota: 19/20.
Citología: metástasis ganglionar de adenocarcinoma endometrial
Binaria: 62.35% “carcinoma” (acierta).
Multiclase con distractores (“adenocarcinoma”, “citología normal”, “citología con necrosis”, “un árbol en un bosque”): elige necrosis (error); la probabilidad de “árbol en un bosque” fue baja (bien).
Lectura técnica: Los artefactos + alta presencia de necrosis en el preentrenamiento sesgaron; sugiere incluir citología con artefactos en el fine-tuning y auxiliares de calidad (blur/noise detectors).
Nota: 12/20.
Carcinoma in situ de mama (imágenes de internet)
Resultado: Desempeño relativamente bueno, pero confunde ~50% con invasivo.
Lectura técnica: Shift de dominio (compresión, selección de ROI, marcas de agua) + sutileza de DCIS vs invasivo: requiere multi-escala + contexto del ducto y etiquetado fino.
Nota: 15/20.

Promedio (casos con nota): 14.6/20 en 10 escenarios calificados.

Discusión técnica

1) Señales que aprende y dónde tropieza

Fuerte en: patrones arquitecturales netos (glandularidad maligna, desmoplasia, basalioide), marcadores IHQ “block-like” (p16) y contexto tumoral robusto.
Débil en:
- No neoplásicos (mastitis) y tejido normal (cartílago): tiende a sobre-llamar “cáncer” → calibración y abstención imprescindibles.
- Confusiones por sesgo de corpus (colon → mama NST): sugiere fine-tuning con negativos duros y reponderación de clases.
- Citología con artefactos: desplaza la predicción hacia necrosis; debe entrenarse con ruido realista y QAde imagen.

2) Binaria vs multiclase

La binaria reveló una propensión a la detección de malignidad (sensibilidad alta pero especificidad subóptima), con un matiz útil: “no cáncer” aparecía como 2ª opción cuando dudaba → señal para un detector de abstención.
La multiclase expone sesgos de frecuencia (mama) y distractores (necrosis). Control: label smoothing, temperature scaling, top-k filtering, y listas jerarquizadas (p. ej., primero “órgano”, luego “patrón”).

3) OOD y calidad de imagen

Internet introduce compresión, reencuadres y marcas: sin normalización/ensembles, caen las fronteras finas (p. ej., DCIS vs invasivo).
Recomendado: stain norm, TTA, MIL/multi-escala, clasificadores de calidad (blur, artefacto, cobertura del ROI) antes de la decisión final.

4) Interpretabilidad y seguridad

Añadir saliency/attribution (Grad-CAM/RISE) ayudaría a validar que el modelo usa pistas histológicas(arquitectura/citología) y no artefactos.
Detección OOD (energy/MAHA/ODIN) y learning with abstention serían claves para evitar sobre-llamados en no neoplásicos/normal.

Cómo aprovechar MedSigLIP en investigación aplicada

Aunque aquí lo probamos como clasificador directo, su rol natural en patología computacional es como modelo basepara extraer embeddings a partir de los cuales entrenar un cabezal ligero (logistic regression/MLP/SVM) sobre datasets personalizados:

Extracción de embeddings de tiles H&E/IHQ/citología.
Fine-tuning ligero (o linear probing) con curación de negativos duros (mastitis, normal, inflamatorios específicos).
Jerarquía: (i) detector órgano/sitio → (ii) benigno/maligno → (iii) subtipo.
Calibración: temperature scaling, ECE/Brier, umbrales por clase.
Abstención + OOD: integrar un “reject option” cuando la energía/confianza cruza el umbral.
Evaluación robusta: cross-dominio (distintos escáneres/centros), multi-escala, y metrías clínicas (sensibilidad, especificidad, F1, AUC, NPV/PPV por escenario).

Limitaciones de esta evaluación

Muestra piloto: no es un benchmark masivo; los resultados orientan hipótesis para un estudio formal.
Sin normalización de color ni TTA: queríamos medir la capacidad base; el rendimiento puede mejorar con un pipeline más rico.
Etiquetas granularidad: algunos errores (p. ej., DCIS vs invasivo) requieren contexto de campo y ground truth con más detalle.

Contexto del año 2025

Este experimento es una muestra del ecosistema en ebullición: se multiplican los foundation models multimodales; es razonable pensar que grandes compañías ya operan modelos cerrados más potentes, entrenados con cómputo masivo y datos curados. Mientras tanto, la comunidad de patología computacional debe aprovechar el preentrenamiento (p. ej., >32 millones de tiles histológicos) y especializar sobre bases locales, manteniendo buenas prácticas de evaluación y seguridad.

Conclusiones

Fortalezas: reconoce bien arquitecturas tumorales claras (gastric PD, colangio), IHQ p16 y adenocervicalincluso con baja resolución.
Debilidades: sesgo a mama en glandulares ambiguos, falsos positivos en inflamatorios y normal, y sensibilidad a artefactos en citología.
Señales positivas: en fallos binarios, “no cáncer” emerge como 2ª opción —útil para rejilla de seguridad.
Próximos pasos: fine-tuning jerárquico, calibración, OOD, normalización de color, interpretabilidad, y evaluación multi-centro multi-escáner.

Llamado a la comunidad

Código/weights locales: integra MedSigLIP como extractor de embeddings y entrena tus cabezales con datos curados (incluye no neoplásicos y artefactos).
Evalúa en internet/domino externo con URLs para stress-test.
Comparte errores difíciles (mastitis, normal, citología con artefactos) para mejorar negativos duros de todos.

📺 Mira el video del experimento, suscríbete a mi canal de YouTube y sígueme en redes para más pruebas, tutoriales y análisis de modelos en patología.