Cuando la IA más inteligente falla en lo más básico

Los modelos más avanzados fallan en razonamiento espacial y social, y en China los trabajadores ya entrenan a sus propios reemplazos.

Lo más importante de hoy en IA

El día estuvo dominado por una paradoja incómoda: los LLMs más potentes del mercado siguen fallando en tareas que cualquier humano resuelve con facilidad, desde entender dónde está un objeto en el espacio hasta razonar en grupo bajo presión social. Al mismo tiempo, desde China llega una señal que el resto del mundo tarde o temprano tendrá que procesar: las empresas ya le están pidiendo a sus empleados que entrenen activamente a los agentes que los van a reemplazar. No es ciencia ficción, es una política corporativa en curso.

Los LLMs razonan peor cuando más piensan: el problema del Chain-of-Thought espacial

Durante los últimos años, el Chain-of-Thought (CoT) —esa técnica de pedirle al modelo que “piense paso a paso”— se convirtió en el estándar de oro para mejorar el desempeño en tareas complejas. Funciona muy bien para matemáticas y lógica formal. Un nuevo estudio que evaluó diecisiete modelos en trece benchmarks de razonamiento espacial visual encontró algo que contradice esa intuición: el CoT no solo no ayuda en tareas espaciales, sino que las empeora de forma consistente.

El problema es estructural. Cuando un modelo verbaliza su razonamiento sobre una imagen —describir posiciones, relaciones entre objetos, orientaciones— introduce errores en cada paso, y esos errores se acumulan. El razonamiento espacial parece depender de representaciones que no son fácilmente traducibles a lenguaje secuencial. Forzar al modelo a hacerlo en voz alta, por así decirlo, lo desconecta de la información visual que necesita.

Para quienes construyen productos con modelos multimodales —aplicaciones de arquitectura, diseño, manufactura, robótica, interfaces médicas con imágenes— esto tiene una implicación directa: usar CoT como default es un error en contextos visuales. Vale la pena evaluar qué tipo de razonamiento requiere tu caso de uso antes de aplicar la misma receta que funciona en texto.

Los agentes sociales todavía no saben jugar con otros: el benchmark SocialGrid

Un equipo de investigadores construyó SocialGrid, un entorno multi-agente inspirado en el juego Among Us, para evaluar cómo los LLMs se desempeñan cuando tienen que planear, ejecutar tareas y razonar socialmente al mismo tiempo —incluyendo detectar engaños y coordinar con otros agentes. El resultado más revelador: GPT-OSS-120B, el modelo abierto más capaz disponible hoy, no supera el 60% de precisión en completar tareas dentro de este entorno.

Esto importa porque la narrativa dominante en la industria asume que los agentes autónomos ya están listos para operar en entornos colaborativos complejos. SocialGrid sugiere que hay una brecha significativa entre el desempeño en benchmarks estáticos y el desempeño en situaciones donde hay múltiples actores, información incompleta y dinámicas sociales en juego. La coordinación real —no la simulada en un prompt— sigue siendo un problema abierto.

Para equipos que están evaluando implementar sistemas multi-agente en producción, este estudio es una advertencia concreta: los escenarios donde varios agentes deben colaborar, dividir tareas y verificar el trabajo de otros son considerablemente más difíciles de lo que los demos sugieren. Diseñar con esa limitación en mente desde el principio ahorra decepciones costosas después.

En China, los empleados ya entrenan a sus reemplazos — y están peleando contra eso

MIT Technology Review publicó hoy una historia que merece atención sostenida. En China, varias empresas tecnológicas están instruyendo formalmente a sus empleados para que “destilen” sus habilidades, flujos de trabajo y rasgos de personalidad en agentes de IA. El proyecto de GitHub llamado Colleague Skill, que facilitaba exactamente eso, generó una ola de reacción entre trabajadores que hasta hace poco se consideraban entusiastas de la IA.

La tensión que describe el artículo es nueva en su forma pero predecible en su lógica: la diferencia entre usar IA como herramienta y ser usado como dataset para tu propio reemplazo es enorme emocionalmente, aunque en términos técnicos el límite es difuso. Lo que está pasando en China es una versión acelerada y explícita de algo que en el resto de Latinoamérica y el mundo ocurre de forma más gradual y menos declarada cada vez que una empresa documenta procesos para automatizarlos.

Lo que hace relevante esta historia para profesionales en la región es la pregunta que deja abierta: ¿cuándo el conocimiento que compartes con una herramienta de IA deja de ser tuyo? Los developers que usan Copilot, los PMs que documentan sus procesos en Notion con IA integrada, los ejecutivos que usan asistentes para sintetizar reuniones — todos están, en alguna medida, contribuyendo a sistemas que aprenden de ellos. La diferencia con China hoy es de grado, no de naturaleza.

En pocas palabras

Lo que une las noticias de hoy es una misma grieta: la distancia entre lo que los modelos prometen y lo que entregan cuando el contexto se vuelve genuinamente complejo. Fallan en el espacio, fallan en lo social, y mientras tanto las empresas los despliegan como si esas fallas no existieran. El caso chino agrega una capa más incómoda: la velocidad con que la automatización pasa de ser una promesa abstracta a una política de recursos humanos concreta. El ciclo se está acortando, y quienes diseñan productos o lideran equipos necesitan procesar eso no como tendencia futura sino como presente operativo.


Fuentes utilizadas: https://arxiv.org/abs/2604.16060, https://arxiv.org/abs/2604.16022, https://www.technologyreview.com/2026/04/20/1136149/chinese-tech-workers-ai-colleagues/