La IA falla en lo básico: causalidad, empresas y graduados

Los modelos más avanzados no entienden causa y efecto, fallan en tareas IT reales, y el mundo ya empieza a notarlo.

GENERAL Newsletter

Hugenode

MAY 28, 2026

Los LLMs no entienden causa y efecto — y es un problema matemáticamente inevitable

Un nuevo paper en arXiv titulado Why LLMs Fail at Causal Discovery and How Interventional Agents Escape llega a una conclusión que debería sacudir a cualquier equipo que use modelos de lenguaje para análisis o toma de decisiones: la incapacidad de los LLMs para razonar causalmente no es un bug de entrenamiento, es una limitación fundamental. Los investigadores demuestran formalmente que técnicas de entrenamiento estándar — fine-tuning supervisado, optimización de preferencias directa (DPO) y aprendizaje en contexto — producen modelos que solo pueden aprender correlaciones, no relaciones de causa y efecto. Y los benchmarks lo confirman: incluso modelos ajustados específicamente para esta tarea se estancan rápidamente cuando los grafos causales ganan complejidad.

Esto no es un problema académico. Si usas un LLM para analizar por qué cayeron tus métricas de retención, por qué un segmento de usuarios convierte menos, o para cualquier razonamiento del tipo “si cambiamos X, qué pasa con Y”, el modelo está haciendo pattern matching estadístico disfrazado de análisis causal. La solución que propone el paper son agentes interventivos — sistemas que pueden actuar sobre el entorno y observar resultados reales, en lugar de inferir todo desde texto estático.

La implicación práctica es directa: si tu producto o proceso depende de que la IA te diga por qué algo pasó o qué pasaría si cambias algo, necesitas un diseño que incluya experimentación real, no solo consultas a un modelo. Los LLMs pueden ser una pieza del sistema, pero no el árbitro causal.

Los modelos frontera fallan en más del 50% de las tareas IT empresariales reales

IBM y Artificial Analysis publicaron ITBench-AA, el primer benchmark diseñado específicamente para evaluar agentes de IA en tareas IT del mundo real dentro de entornos empresariales. El resultado es brutal: los modelos más avanzados disponibles hoy obtienen menos del 50% de precisión en estas tareas. No se trata de preguntas teóricas — el benchmark evalúa flujos de trabajo agénticos reales: diagnóstico de incidentes, gestión de configuración, automatización de operaciones.

El problema central que revela el benchmark es la diferencia entre rendir bien en evaluaciones controladas y funcionar en entornos con estado, dependencias entre sistemas y consecuencias reales de los errores. Los agentes actuales son buenos para tareas discretas y bien definidas, pero se degradan cuando el contexto es ambiguo, los pasos son interdependientes y no hay una sola respuesta correcta que extraer de texto.

Para equipos de ingeniería y operaciones que evalúan adoptar agentes de IA para automatizar trabajo IT, este benchmark es una referencia concreta. Antes de comprometer presupuesto o arquitectura, vale la pena mapear sus casos de uso contra las categorías de ITBench-AA. Si los mejores modelos del mercado fallan en más de la mitad de esos escenarios, las expectativas de cronograma y confiabilidad deben ajustarse en consecuencia.

En un episodio que el MIT Technology Review incluyó en su AI Hype Index de esta semana, Eric Schmidt — ex CEO de Google — fue recibido con abucheos cuando le dijo a los graduados de la Universidad de Arizona que su misión es ayudar a dar forma a la IA. La anécdota podría parecer trivial, pero representa algo que los profesionales del sector deberían tomar en serio: la narrativa de que la IA es una oportunidad universal e inevitable está chocando con una generación que enfrenta un mercado laboral incierto y escucha promesas tecnológicas que no se han materializado en sus vidas.

Este no es un fenómeno aislado. La fatiga con el hype de IA está creciendo en capas distintas de la sociedad — desde trabajadores que ven sus roles amenazados sin una hoja de ruta clara de reentrenamiento, hasta usuarios finales que experimentan productos que sobre-prometen y sub-entregan. Que ocurra en una ceremonia de graduación, uno de los rituales de mayor carga simbólica sobre el futuro, le da un peso particular.

Para quienes construyen productos y comunican estrategias de IA hacia afuera — hacia clientes, empleados o stakeholders — la señal es clara: el lenguaje del hype ya tiene costo de credibilidad. Las audiencias están más dispuestas que antes a rechazar públicamente narrativas que perciben como desconectadas de su realidad. Comunicar con precisión qué hace la IA, en qué falla y para quién genera valor real dejó de ser una virtud opcional.

En pocas palabras

Lo que hoy revelan estas tres historias juntas es un patrón de maduración forzada. La investigación demuestra límites matemáticos. Los benchmarks empresariales exponen brechas de rendimiento. Y la reacción social indica que el contrato de confianza con la tecnología se está renegociando. El sector lleva dos años acelerando sobre la premisa de que los problemas actuales de los modelos son temporales — cuestión de escala, de más datos, de mejor ajuste fino. La evidencia de hoy sugiere que algunos de esos problemas son estructurales. Eso no significa que la IA no sea transformadora, sino que las organizaciones que ganaran en los próximos años serán las que construyan sobre sus capacidades reales, no sobre las proyectadas.

Fuentes utilizadas: https://arxiv.org/abs/2605.27567, https://huggingface.co/blog/ibm-research/itbench-aa, https://www.technologyreview.com/2026/05/28/1138053/the-ai-hype-index-ai-gets-booed-in-graduation-season/

La IA falla en lo básico: causalidad, empresas y graduados

Lo más importante de hoy en IA

Los LLMs no entienden causa y efecto — y es un problema matemáticamente inevitable

Los modelos frontera fallan en más del 50% de las tareas IT empresariales reales

Eric Schmidt abucheado: la primera señal de fatiga social con la IA

En pocas palabras