
Microsoft ha presentado esta semana MAI-DxO, un agente de inteligencia artificial médica que ha logrado cifras de acierto sin precedentes en diagnósticos clínicos complejos. Con un 82,6 % de precisión en diagnósticos Top 1, frente al 20 % de los médicos humanos en las mismas condiciones, el sistema está siendo considerado el primer paso hacia la superinteligencia médica.
El estudio, realizado junto con el Hospital General de Massachusetts, evaluó a 21 médicos reales y más de 300 casos clínicos graves, sin acceso a Internet ni herramientas externas, para asegurar una comparación justa con la IA.
“No se trata de reemplazar al médico, sino de superarlo en precisión cuando más importa”, señala el equipo de Microsoft.
¿Qué hace diferente a MAI-DxO?
A diferencia de otros modelos, MAI-DxO es un sistema modular que puede combinar diferentes LLMs (incluido GPT-3 de OpenAI) y herramientas clínicas específicas. Según Microsoft, esta orquestación mejora la precisión sin disparar el coste computacional.
- Precisión Top 1: 82,6 %
- Precisión Top 3: 93,4 %
- Coste por diagnóstico: desde 3.000 $ hasta 7.000 $, según el modelo utilizado
- Reducción de pruebas innecesarias: 20–40 % en entornos simulados
Un sistema más barato y más preciso… en ciertos contextos
Aunque el coste por diagnóstico es alto (unos 3.000 $ en su versión base), Microsoft asegura que ya iguala o mejora la relación coste/eficiencia respecto a un médico humano, especialmente en casos de alta complejidad donde las pruebas suelen ser numerosas y costosas.
Con modelos más pequeños, el coste baja, pero también lo hace el rendimiento. Y en su versión más avanzada (alrededor de 7.000 $ por caso), los resultados son solo “ligeramente mejores”, lo que plantea un dilema de eficiencia económica.
¿Una comparación injusta?
El dato más comentado —el 20 % de acierto de los médicos humanos— debe matizarse: los facultativos evaluados no podían usar Internet ni ninguna herramienta diagnóstica, y basaron sus decisiones únicamente en su conocimiento clínico. Fue el mismo estándar usado por Google DeepMind en su estudio AMIE en enero de 2024, lo que permite comparar métricas, pero no representa la práctica clínica real.
Además, el modelo fue probado solo en pacientes graves, excluyendo casos comunes donde el juicio clínico es más eficiente y la sobreutilización de pruebas puede ser contraproducente.
¿Qué implica esto para el sector profesional?
Aunque hoy se aplique a medicina, esta arquitectura tiene enormes implicaciones para otros entornos expertos, como:
- Auditoría financiera
- Compliance legal
- Revisión de contratos
- Diagnóstico de riesgos empresariales
En todos estos escenarios, los “modelos orquestadores” que combinan IA generativa, bases de conocimiento y lógica autónoma pueden superar al profesional humano en precisión, consistencia y escalabilidad… si se diseñan adecuadamente.