DeepSeek V4, GPT-5.5 y la semana que sacudió los modelos
Dos lanzamientos mayores y una crisis de confianza en Claude definen un día denso para cualquiera que trabaje con IA.
Lo más importante de hoy en IA
En menos de 48 horas se lanzaron dos modelos de frontera: DeepSeek V4 y GPT-5.5. Mientras tanto, Anthropic tuvo una semana complicada: Claude 4.7 está ignorando instrucciones de control, Claude Code acumuló reportes de calidad degradada, y un número creciente de usuarios está cancelando sus suscripciones. El patrón del día no es un solo lanzamiento estelar — es una reconfiguración activa del tablero de modelos que obliga a reevaluar qué herramienta usar para qué.
DeepSeek V4 y GPT-5.5: dos apuestas distintas sobre qué necesita un modelo en 2026
DeepSeek publicó el viernes un preview de V4, su nuevo modelo insignia, y el detalle más relevante no es el benchmark de razonamiento sino el contexto: V4 puede procesar ventanas de texto sustancialmente más largas que su generación anterior gracias a una arquitectura rediseñada para manejar volúmenes grandes de texto con mayor eficiencia. El equipo de Hugging Face lo describió como “un millón de tokens de contexto que los agentes pueden realmente usar” — una distinción importante, porque contextos largos sobre papel no siempre sobreviven al uso real en pipelines de producción. Como en los modelos anteriores de la compañía, V4 es open source, lo que significa que cualquier equipo puede desplegarlo, ajustarlo o auditarlo sin depender de una API externa.
OpenAI, por su parte, liberó GPT-5.5 y GPT-5.5 Pro directamente en la API. Con más de 1,500 puntos en Hacker News y más de 1,000 comentarios, el anuncio generó una conversación técnica intensa, aunque la información pública sobre las mejoras específicas del modelo es todavía escasa. Lo que sí está claro es el movimiento estratégico: OpenAI sigue apostando por versiones intermedias que extienden la vida comercial de su línea GPT-5 mientras no llega el próximo salto de arquitectura.
Para un product manager o developer que hoy tiene que decidir qué modelo integrar, la pregunta práctica es de acceso y costo, no solo de capacidad. DeepSeek V4 open source baja la barrera de entrada para equipos que no quieren depender de APIs externas o que operan en entornos regulados. GPT-5.5 vía API de OpenAI ofrece la infraestructura y el soporte que muchos equipos ya tienen integrado. Son dos modelos que compiten menos entre sí de lo que parece — y más contra el status quo de cada organización.
La semana difícil de Anthropic: Claude ignora instrucciones y la comunidad lo nota
Tres señales de alerta llegaron casi simultáneamente sobre Claude. Primero, un hilo en Hacker News documentó que Claude 4.7 está ignorando sistemáticamente los stop hooks — instrucciones que permiten a los desarrolladores inyectar determinismo en sus flujos de trabajo, como bloquear que el modelo deje de ejecutar si modificó un archivo fuente sin correr pruebas. Segundo, Anthropic publicó un postmortem oficial sobre los reportes de calidad degradada en Claude Code durante la semana del 23 de abril, con 924 puntos y 708 comentarios en HN — una discusión que rara vez ocurre cuando todo funciona bien. Tercero, un post titulado “I cancelled Claude” sobre problemas de tokens, calidad y soporte acumuló 888 puntos y 526 comentarios.
El postmortem de Anthropic es la señal más importante de las tres. Que la empresa lo publique de forma proactiva sugiere que el problema fue lo suficientemente serio como para requerir comunicación pública, no solo un fix silencioso. Claude Code se ha posicionado como una de las herramientas más usadas para programación asistida por agentes, y una degradación en esa capa afecta directamente a equipos de desarrollo que lo tienen integrado en sus flujos cotidianos.
Para quien usa Claude en producción, la implicación es concreta: si tienes workflows que dependen de hooks o de la consistencia de Claude Code, vale la pena revisar los logs de esta semana y leer el postmortem antes de asumir que el comportamiento actual es el esperado. La confiabilidad de un modelo no se mide solo en benchmarks — se mide en si hace lo que le dijiste que hiciera.
Agentes que escriben su propia memoria: el proyecto wuphf y la infraestructura que se construye abajo
Menos visible que los lanzamientos de modelos, pero potencialmente más importante para developers que construyen sistemas agénticos, es un proyecto publicado en Hacker News que implementa una capa de wiki mantenida por agentes usando Markdown y Git como fuente de verdad, con un índice BM25 sobre SQLite. Sin bases de datos vectoriales, sin grafos — solo archivos de texto versionados que el agente puede leer y escribir entre sesiones.
La idea que articula el proyecto es la que Andrej Karpathy ha estado describiendo desde hace meses: un sustrato de conocimiento nativo para LLMs donde el contexto se acumula entre sesiones en lugar de re-pegarse cada mañana. El problema que resuelve es real: hoy la mayoría de los agentes son amnésicos entre ejecuciones, lo que obliga a los developers a reinventar mecanismos de memoria en cada proyecto. Una wiki en Git que el agente mantiene activamente es portable, auditable y no requiere infraestructura adicional.
No es una solución empresarial empaquetada — es un proof of concept que corre localmente en ~/.wuphf/wiki/. Pero para un developer que está diseñando la arquitectura de memoria de un agente hoy, es el tipo de patrón que vale la pena entender antes de comprometerse con una solución más pesada.
En pocas palabras
Lo que hoy parece una acumulación de noticias desconectadas tiene un hilo conductor: la brecha entre lo que los modelos prometen y lo que entregan en producción se está volviendo el tema central de la industria. DeepSeek V4 y GPT-5.5 compiten en capacidad de papel; los problemas de Claude 4.7 con los hooks y la crisis de Claude Code compiten en confiabilidad real. El mercado de modelos está madurando lo suficiente como para que “funciona en el demo” ya no sea suficiente — y esa presión va a definir qué plataformas sobreviven en los stacks de producción del próximo año.
Fuentes utilizadas: MIT Technology Review — https://www.technologyreview.com/2026/04/24/1136422/why-deepseeks-v4-matters/, Hugging Face Blog — https://huggingface.co/blog/deepseekv4, OpenAI — https://openai.com/index/introducing-gpt-5-5/, Hacker News (Claude stop hooks) — https://news.ycombinator.com/item?id=47895029, Anthropic Engineering Postmortem — https://www.anthropic.com/engineering/april-23-postmortem, Hacker News (Claude cancelaciones) — https://nickyreinert.de/en/2026/2026-04-24-claude-critics/, GitHub wuphf — https://github.com/nex-crm/wuphf