Agentes en crisis: deriva, ataques y el problema de confiar en la IA

Tres frentes donde los agentes de IA fallan en producción: deriva de comportamiento, ataques coordinados y alucinaciones en RAG.

Lo más importante de hoy en IA

La investigación de hoy converge en un mensaje incómodo pero necesario: los agentes de IA que ya están en producción se comportan de maneras que nadie diseñó y que pocas organizaciones están monitoreando. No es un día de lanzamientos espectaculares, sino de señales de alerta que los equipos técnicos y de producto deberían tomar en serio antes de escalar sus sistemas.

Los agentes en producción se olvidan de las reglas — y nadie lo nota

Nautilus Compass, un paper publicado hoy en arXiv, documenta un problema que cualquier developer que haya trabajado con agentes de larga duración habrá intuido: los modelos “derivan” durante sesiones extensas. Olvidan restricciones que el usuario especificó al inicio, repiten errores que ya fueron corregidos, y en algunos casos “confabulan” acuerdos previos que nunca ocurrieron. Los autores lo llaman persona drift, y es especialmente difícil de detectar porque sucede de forma gradual, no de golpe.

Lo que hace relevante este trabajo para equipos en producción es el enfoque que propone: una solución de caja negra, es decir, que no requiere acceso a los pesos del modelo. Esto importa porque la mayoría de las organizaciones trabaja con APIs cerradas — Claude, GPT-4 — y no tiene la opción de inspeccionar el estado interno del sistema. Nautilus Compass actúa como una capa de memoria y detección que corre por encima del modelo, sin depender de su arquitectura interna.

La implicación práctica es directa: si tu equipo tiene agentes de coding, soporte o automatización que operan en sesiones largas, no puedes asumir que el comportamiento del turno 1 se mantiene en el turno 50. Necesitas mecanismos de verificación externa, y este paper ofrece una arquitectura concreta para construirlos.

Enjambres de agentes baratos pueden saltarse las defensas de los modelos más seguros

Un paper con título engañosamente técnico — “Position: AI Security Policy Should Target Systems, Not Models” — contiene una de las afirmaciones más provocadoras de la semana: los ataques coordinados de múltiples agentes ligeros pueden lograr, a costo efectivamente cero, lo que los ataques individuales no consiguen contra modelos frontier. Los investigadores presentan swarm-attack, un framework de código abierto donde varios agentes LLM pequeños coordinan mediante memoria compartida, exploración paralela y optimización evolutiva para encontrar bypasses de seguridad.

El argumento central del paper va más allá del ataque en sí: las políticas de seguridad en IA que se enfocan en restringir modelos específicos están apuntando al objetivo equivocado. Cuando las capacidades peligrosas emergen de la coordinación entre agentes baratos y abiertos, regular el modelo más poderoso del mercado no resuelve el problema. Es el sistema, no el componente, el vector de riesgo real.

Para product managers y equipos de seguridad, esto cambia el modelo mental. La pregunta ya no es solo “¿qué puede hacer este modelo?” sino “¿qué puede hacer una red de modelos mediocres trabajando juntos?”. Cualquier organización que esté construyendo sistemas multi-agente — y hoy son muchas — debería considerar este vector en su threat modeling.

Las alucinaciones en RAG son más frecuentes de lo que los benchmarks sugieren — y los humanos tampoco son el estándar de oro

Un estudio que compara las anotaciones originales de dos benchmarks clásicos de detección de alucinaciones (QAGS-C y SummEval) contra predicciones de Gemini 2.5 Flash y GPT-5 Mini llega a una conclusión que incomoda en ambas direcciones: los modelos modernos detectan alucinaciones que los anotadores humanos originales pasaron por alto, pero los benchmarks actuales subestiman sistemáticamente el rendimiento real de los LLMs porque fueron construidos con criterios humanos inconsistentes.

El problema concreto es que los humanos que anotaron esos datasets cometieron errores propios — omitieron casos de alucinación genuina, marcaron como erróneos fragmentos que eran correctos. Cuando un LLM de 2025 es evaluado contra esas anotaciones “de oro”, su score sufre por los errores del evaluador, no por sus propios fallos. Los autores proponen un esquema híbrido: LLM-first con adjudicación humana solo en los casos donde el modelo expresa baja confianza.

Para equipos que construyen pipelines RAG — que a estas alturas son la mayoría de los proyectos de IA empresarial — hay dos lecturas simultáneas: la buena es que sus sistemas probablemente alucinan menos de lo que los evals internos indican. La mala es que tampoco pueden confiar ciegamente en esos evals para tomar decisiones de deployment. Revisar la metodología de evaluación es tan urgente como mejorar el modelo.

En pocas palabras

El patrón que emerge hoy no es sobre capacidades nuevas sino sobre la fragilidad de los sistemas que ya existen. Los agentes derivan, los enjambres atacan por los flancos que nadie vigila, y las métricas que usamos para medir calidad están construidas sobre arena. La industria lleva dos años acelerando el deployment de agentes en producción, pero la infraestructura de confianza — monitoreo, evaluación, defensa sistémica — corre varios pasos atrás. El próximo gran problema de IA no va a anunciarse con un paper de DeepMind; va a aparecer silenciosamente en los logs de un sistema que nadie revisó en semanas.


Fuentes utilizadas: Nautilus Compass – Black-box Persona Drift Detection (https://arxiv.org/abs/2605.09863), AI Security Policy Should Target Systems, Not Models (https://arxiv.org/abs/2605.09504), Do Benchmarks Underestimate LLM Performance? (https://arxiv.org/abs/2605.08462)