El futuro del código, la ciencia y los agentes autónomos
Anthropic redefine cómo se escribe código, Google apuesta por IA científica y los agentes aprenden a evaluarse solos.
Lo más importante de hoy en IA
Hoy fue un día de conversaciones sobre el futuro próximo: qué pasa cuando la IA escribe la mayor parte del código, cuando los modelos científicos dejan de ser herramientas de apoyo y se convierten en generadores de hipótesis, y cuando los agentes autónomos empiezan a entrenarse a sí mismos. No hubo un solo lanzamiento dominante, sino una acumulación de señales que apuntan en la misma dirección: la IA está dejando de asistir y está empezando a actuar.
Anthropic y la pregunta incómoda sobre el código: ¿quién programa aquí?
En su evento para desarrolladores “Code with Claude” celebrado esta semana en Londres, Anthropic mostró una visión del desarrollo de software que incomodó a más de un asistente. La propuesta no era solo que Claude ayude a escribir código, sino que el flujo de trabajo completo —desde la idea hasta el despliegue— pueda orquestarse alrededor del modelo. Los developers en la sala fueron consultados sobre si habían “shipped” código reciente, y la conversación derivó rápidamente en cuánto de ese código lo había generado el modelo versus el humano.
Esto importa para cualquier equipo de producto o engineering porque redefine el rol del desarrollador. No se trata de saber si Claude puede escribir un endpoint funcional —ya puede. La pregunta real es qué parte del criterio técnico, de la arquitectura y de la decisión de qué construir sigue siendo responsabilidad del humano. Por ahora, esa frontera existe, pero Anthropic está empujando activamente para moverla.
La implicación práctica es concreta: si tu equipo todavía debate si “usar IA para programar” es trampa o ventaja competitiva, ese debate ya terminó. La industria lo resolvió sin esperarte.
Google DeepMind apuesta a que la IA puede hacer ciencia, no solo asistirla
En Google I/O de esta semana, Demis Hassabis, CEO de Google DeepMind, afirmó que estamos “parados en las estribaciones de la singularidad”. Más allá de la retórica, lo que mostró fue sustancial: una reconfiguración de cómo DeepMind concibe el rol de la IA en la ciencia. El cambio no es menor. Hasta hace poco, la narrativa era que los modelos aceleraban la investigación existente. Ahora la apuesta es que pueden identificar preguntas nuevas, generar hipótesis y diseñar experimentos.
Para un product manager o ejecutivo en sectores como biotech, materiales o farmacéutica, esto cambia el análisis de inversión en herramientas de IA. No se trata ya de eficiencia operativa —reducir horas de revisión de literatura o automatizar reportes— sino de capacidad generativa: ¿puede este sistema encontrar algo que ningún humano habría buscado?
El riesgo es que la promesa supere a la evidencia disponible. Los modelos actuales aún cometen errores sistemáticos en razonamiento cuantitativo básico (los benchmarks muestran tasas de acierto de apenas 50-53% en tareas de física elemental), lo que hace necesario mantener supervisión experta en cualquier pipeline científico serio.
Los agentes que se afinan solos: FT-Dojo y el fin del fine-tuning manual
Un paper publicado esta semana introduce FT-Dojo, un entorno benchmark diseñado para evaluar si los agentes de lenguaje pueden encargarse autónomamente del proceso de fine-tuning de otros modelos. La tarea incluye curación de datos, configuración de entrenamiento y diagnóstico iterativo del comportamiento del modelo —todo lo que hoy consume semanas de trabajo especializado en proyectos de IA verticales.
El contexto es relevante: adaptar un LLM a un dominio específico —salud, legal, manufactura— sigue siendo caro, lento y dependiente de expertise escaso. FT-Dojo plantea si ese proceso puede convertirse en una tarea de agente, donde el sistema gestiona sus propias iteraciones de mejora con supervisión mínima. Complementando esto, otro trabajo publicado hoy propone directamente “compilar” workflows agénticos dentro de los pesos del modelo, eliminando la necesidad de orquestadores externos y reduciendo costos operativos en dos órdenes de magnitud frente a arquitecturas actuales como LangGraph o CrewAI.
Para equipos que están evaluando despliegues de IA en dominos especializados, esto tiene implicaciones de build vs. buy: si el fine-tuning se puede automatizar y los workflows se pueden “hornear” en el modelo, la barrera de entrada para modelos propios baja significativamente. No es para mañana, pero tampoco es ciencia ficción distante.
En pocas palabras
Lo que une las noticias de hoy es un desplazamiento del control. Anthropic quiere que el desarrollador supervise, no que escriba. DeepMind quiere que el científico valide, no que genere hipótesis. FT-Dojo quiere que el ingeniero de ML revise, no que configure. El patrón es consistente: la IA absorbiendo las capas de ejecución y dejando al humano en las capas de juicio. El problema es que “juicio” es difícil de definir, difícil de medir y muy fácil de subdelegar sin darse cuenta. Esa es la tensión real de 2026, y ninguno de estos sistemas la resuelve —solo la vuelve más urgente.
Fuentes utilizadas: MIT Technology Review - The Download (https://www.technologyreview.com/2026/05/22/1137845/the-download-coding-future-steroid-olympics-ai-science/), MIT Technology Review - Google I/O y ciencia (https://www.technologyreview.com/2026/05/22/1137813/google-i-o-showed-how-the-path-for-ai-science-is-shifting/), ArXiv - FT-Dojo (https://arxiv.org/abs/2603.01712), ArXiv - Compiling Agentic Workflows (https://arxiv.org/abs/2605.22502), ArXiv - Agentic Physical AI (https://arxiv.org/abs/2512.23292)