IA médica con sesgos, Trump firma orden y LLMs que se auto-corrigen
Desde diagnósticos desiguales por género hasta la nueva orden ejecutiva de Trump sobre IA: lo que debes saber hoy.
Lo más importante de hoy en IA
El día estuvo marcado por investigación que incomoda: estudios muestran que los modelos más usados en medicina producen diagnósticos distintos dependiendo del género del paciente, y que las alucinaciones de los LLMs son detectables mucho antes de que salgan como output. En paralelo, Trump firmó una nueva orden ejecutiva sobre IA apenas dos semanas después de cancelar la anterior, lo que redefine el marco regulatorio en el mercado más grande del mundo. No fue un día de lanzamientos espectaculares, sino de evidencia acumulándose sobre los límites reales de los sistemas que ya están en producción.
Los LLMs diagnostican diferente según el género del paciente
Un paper publicado hoy en arXiv probó tres modelos —Gemini Flash, Claude Sonnet y GPT-mini— con el mismo perfil de síntomas neurológicos: dolor de cabeza persistente, visión borrosa, náuseas matutinas y alteraciones visuales. La única variable que cambió entre consultas fue el género y la edad declarada del paciente. El resultado es incómodo: los modelos produjeron recomendaciones de triaje distintas para síntomas idénticos, incluyendo cambios en el nivel de urgencia asignado.
Esto no es un problema menor de calibración. En contextos donde estos modelos se usan como apoyo en sistemas de salud —una realidad ya en varios países de América Latina— un sesgo sistemático en triaje puede derivar en que pacientes con los mismos síntomas reciban atención prioritaria o no dependiendo de factores que no deberían influir en el diagnóstico. El estudio probó siete combinaciones demográficas distintas (tres grupos etarios cruzados con género), lo que da peso estadístico a los hallazgos.
Para equipos que están construyendo o evaluando herramientas de IA en salud, la implicación práctica es directa: no alcanza con probar precisión diagnóstica sobre un perfil de paciente promedio. Es necesario auditar el comportamiento del modelo ante variaciones demográficas que, en teoría, no deberían afectar las recomendaciones clínicas.
Las alucinaciones están escritas en las capas intermedias del modelo
Otro paper relevante del día demuestra que las alucinaciones de los LLMs no aparecen de la nada en la capa de salida: están codificadas de forma linealmente separable en los estados ocultos de las capas intermedias del modelo, antes de que el texto sea generado. El estudio trabajó con tres modelos de entre 7B y 8B parámetros —Llama 3.1, Mistral 7B y Qwen 2.5— en cuatro benchmarks de veracidad, incluyendo TruthfulQA y HaluEval.
Lo que esto significa en términos prácticos es que es posible construir detectores de alucinación que actúen antes de que el modelo entregue una respuesta falsa, simplemente leyendo señales en capas intermedias con clasificadores lineales simples. No se necesita un segundo modelo grande ni un juez externo costoso. La señal ya está ahí, en la arquitectura.
Para developers que construyen aplicaciones con LLMs en producción, este hallazgo abre una dirección concreta: instrumentar los modelos para monitorear estados internos en tiempo de inferencia, no solo filtrar el output. Es un cambio de paradigma respecto al enfoque actual de detección post-generación.
Trump firma una nueva orden ejecutiva sobre IA
Menos de dos semanas después de revocar la orden ejecutiva anterior sobre inteligencia artificial, el presidente Donald Trump firmó una nueva. Según MIT Technology Review, la orden tiene cinco puntos centrales y mantiene el foco en promover el desarrollo de IA en Estados Unidos, aunque los detalles sobre mecanismos de supervisión y gobernanza todavía están siendo analizados por la comunidad.
El contexto importa: este movimiento ocurre en un momento en que la competencia con China en IA es uno de los ejes de política exterior más activos de la administración. Derogar y reemplazar una orden en tan poco tiempo sugiere tensiones internas sobre cómo equilibrar la desregulación que pide la industria con algún nivel de supervisión que justifique la narrativa de liderazgo nacional.
Para empresas latinoamericanas que exportan servicios tecnológicos a Estados Unidos o que usan infraestructura de modelos estadounidenses, los cambios regulatorios en Washington tienen efecto directo: pueden modificar qué datos pueden procesarse, bajo qué condiciones operan los proveedores de modelos, y qué estándares de cumplimiento se vuelven implícitamente necesarios para mantener contratos con clientes norteamericanos.
En pocas palabras
El patrón de hoy es el de una tecnología que ya está siendo usada en contextos de alto impacto —medicina, educación, infraestructura— pero cuya evaluación sigue siendo superficial. Detectar que un modelo alucina mirando solo el output, o que discrimina mirando solo el accuracy promedio, es insuficiente. La investigación publicada hoy apunta en la misma dirección: hay que abrir la caja, instrumentar los modelos desde adentro y auditar comportamiento diferencial, no solo rendimiento agregado. La orden de Trump es el ruido político del día, pero la señal real está en los papers: los modelos que ya tenemos en producción son más opacos y más sesgados de lo que queremos admitir.
Fuentes utilizadas: https://arxiv.org/abs/2606.03641, https://arxiv.org/abs/2606.02628, https://www.technologyreview.com/2026/06/03/1138322/the-download-trump-ai-order-smart-glasses-warfare/