Millones de agentes de IA: el nuevo problema que nadie resolvió

DeepMind alerta sobre el caos de agentes interactuando en masa, y los LLMs fallan en ciberseguridad real. Lo que esto cambia para tu trabajo.

GENERAL Newsletter

Hugenode

JUN 11, 2026

Google DeepMind advierte sobre el caos de los agentes en masa

Google DeepMind está financiando investigación sobre un escenario que hasta hace poco parecía ciencia ficción pero que se está volviendo operativo: qué pasa cuando millones de agentes de IA distintos —construidos por distintas empresas, con distintos objetivos— empiezan a interactuar entre sí en internet sin supervisión humana directa. Rohin Shah, director de investigación en seguridad y alineación de AGI en DeepMind, describió el problema como uno de los riesgos emergentes más difíciles de anticipar precisamente porque no viene de un solo sistema sino de la interacción entre muchos.

El punto crítico aquí no es un agente rogue actuando solo, sino el comportamiento colectivo que emerge cuando sistemas diseñados para seguir instrucciones de otros agentes se encadenan en pipelines complejos. Un agente puede actuar perfectamente bien dentro de su dominio y aun así participar en cascadas de decisiones que nadie diseñó y nadie controla. Es el problema de coordinación más difícil de la IA aplicada: no hay un solo actor responsable, y los efectos son difusos.

Para developers y PMs que hoy están construyendo arquitecturas multi-agente, esto tiene implicaciones inmediatas. Antes de escalar un sistema donde los agentes se llaman entre sí o ejecutan tareas en nombre de otros agentes, vale la pena preguntarse: ¿quién audita las decisiones intermedias? ¿Hay un mecanismo de interrupción cuando el pipeline se desvía? DeepMind no publicó soluciones todavía, pero el solo hecho de que estén financiando esta línea de investigación señala que el problema es real y urgente.

Los LLMs de frontera aún no son confiables para ciberseguridad real

Un benchmark dual publicado en arXiv evaluó si los modelos de lenguaje más avanzados disponibles —incluyendo GPT-5.4, Claude Opus 4.6, Sonnet 4.6 y Gemini 3.1 Pro— están listos para operar en ciberseguridad. Los resultados son sobrios: ninguno alcanzó el nivel necesario para reemplazar procesos especializados. El benchmark combinó detección de vulnerabilidades a nivel de código fuente en C, Java y Python, y pruebas de seguridad en aplicaciones web reales con 118 vulnerabilidades documentadas distribuidas en más de 20 familias de CWE.

Un segundo estudio, también publicado esta semana, evaluó si agentes basados en modelos open-source corriendo en Ollama podían reemplazar herramientas estáticas de análisis de seguridad (SAST). La conclusión fue similar: los agentes generativos todavía generan demasiados falsos positivos y tienen recall insuficiente para ser usados como único mecanismo de detección en entornos de producción. Tienen valor como capa adicional, no como sustituto.

Lo que ambos estudios sugieren no es que la IA sea inútil en seguridad —ya hay casos de uso claros en triaje y asistencia— sino que la brecha entre “impresionante en demo” y “confiable en producción” sigue siendo enorme en dominios donde los errores tienen consecuencias reales. Si estás evaluando incorporar LLMs a tu pipeline de seguridad, el mensaje es claro: úsalos para acelerar el trabajo de analistas humanos, no para eliminar esa capa.

OpenAI y Oracle: la infraestructura enterprise se consolida

OpenAI anunció que sus modelos, incluido Codex, ahora son accesibles directamente a través de los compromisos de gasto existentes en Oracle Cloud. En términos prácticos, esto significa que empresas con contratos activos de Oracle pueden consumir la API de OpenAI y desplegar modelos sin abrir una relación comercial separada, y con los controles de gobernanza y seguridad que Oracle ya ofrece a sus clientes corporativos.

El movimiento forma parte de un patrón más amplio: los grandes proveedores de IA están buscando reducir la fricción de adopción enterprise integrándose con los ciclos de compra que las grandes organizaciones ya tienen activos. Para una empresa latinoamericana con presencia en Oracle, esto baja la barrera de entrada significativamente, tanto en procurement como en compliance.

El detalle relevante para equipos técnicos es que esto no cambia las capacidades de los modelos, pero sí cambia la conversación con áreas de compras y legal. Tener el consumo de IA dentro de un contrato enterprise existente simplifica la aprobación interna en organizaciones donde la velocidad de adopción ha estado limitada más por procesos que por voluntad técnica.

En pocas palabras

El patrón de hoy es el de una industria que aceleró el despliegue antes de resolver los problemas de escala. DeepMind reconoce que no entiende bien qué pasa cuando sus propios agentes interactúan en masa; los benchmarks de ciberseguridad muestran que los mejores modelos del mundo fallan en condiciones reales; y mientras tanto, OpenAI y Oracle trabajan para hacer más fácil que las empresas adopten esos mismos modelos a escala enterprise. No es contradicción —es la velocidad normal de la tecnología— pero sí es una señal para quienes toman decisiones: el riesgo hoy no viene de la IA que no funciona, sino de la IA que funciona bien en el 90% de los casos y nadie sabe qué hace en el 10% restante cuando los sistemas se encadenan entre sí.

Fuentes utilizadas: https://www.technologyreview.com/2026/06/11/1138794/google-deepmind-is-worried-about-what-happens-when-millions-of-agents-start-to-interact/, https://arxiv.org/abs/2605.23243, https://arxiv.org/abs/2606.11672, https://openai.com/index/openai-on-oracle-cloud

Millones de agentes de IA: el nuevo problema que nadie resolvió

Lo más importante de hoy en IA

Google DeepMind advierte sobre el caos de los agentes en masa

Los LLMs de frontera aún no son confiables para ciberseguridad real

OpenAI y Oracle: la infraestructura enterprise se consolida

En pocas palabras