GPT-4o ve pero no entiende: el problema de la visión en IA

Los modelos multimodales fallan en tareas básicas de visión por computadora, OpenAI entra a las finanzas y el RAG necesita menos ruido.

GENERAL Newsletter

Hugenode

MAY 5, 2026

GPT-4o puede describir una foto, pero no segmentar ni detectar como lo haría un modelo especializado

Un benchmark publicado en arXiv evaluó a los principales modelos multimodales —GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL y Llama 3.2— en tareas estándar de visión por computadora: segmentación semántica, detección de objetos, clasificación de imágenes, estimación de profundidad y cálculo de normales de superficie. Los resultados son incómodos: el rendimiento en estas tareas queda muy por debajo de lo que modelos especializados más pequeños logran sin esfuerzo.

El problema de fondo es conceptual. Estos modelos fueron entrenados para responder preguntas en lenguaje natural sobre imágenes —y en eso son notablemente buenos— pero la comprensión visual que implica segmentar cada píxel de una escena o estimar con precisión la geometría de un objeto requiere algo diferente. No es que los modelos “vean mal”: es que el tipo de entendimiento que desarrollaron no es el mismo que exige la visión por computadora clásica.

Para developers que están evaluando si usar GPT-4o o un modelo similar como reemplazo de un pipeline de computer vision, esta investigación es una señal de alerta concreta. Si tu caso de uso involucra detección de objetos en producción, segmentación de imágenes médicas o análisis geométrico, los modelos de frontera actuales no son la herramienta correcta todavía. La combinación de un modelo especializado para percepción y un LLM para razonamiento sigue siendo la arquitectura más robusta en estos contextos.

OpenAI y PwC van por la función financiera de las grandes empresas

OpenAI anunció una colaboración con PwC para llevar agentes de IA a la función del CFO en empresas grandes. El objetivo declarado es automatizar flujos de trabajo financieros, mejorar la calidad de los pronósticos, fortalecer controles internos y, en términos más amplios, “modernizar la oficina del director financiero”. PwC actuaría como implementador y asesor, mientras OpenAI aporta la infraestructura de modelos.

El movimiento es significativo por lo que señala sobre la dirección del mercado enterprise. Hasta hace poco, los casos de uso de IA en finanzas corporativas se limitaban a automatización de reportes o análisis de datos estructurados. Entrar al territorio del CFO —donde se toman decisiones de planeación, control y cumplimiento— es un salto en complejidad y en riesgo regulatorio. PwC le da a OpenAI algo que ningún modelo puede generar solo: credibilidad institucional frente a juntas directivas y auditores.

Para product managers y ejecutivos en empresas medianas y grandes de América Latina, esto tiene implicaciones prácticas en el corto plazo. Las grandes consultoras ya están empaquetando estas soluciones, lo que significa que la conversación sobre automatización financiera con IA dejará de ser opcional en muchas organizaciones. Entender qué pueden y qué no pueden hacer estos agentes —especialmente en contextos regulatorios locales que difieren del mercado estadounidense— será una ventaja competitiva real.

El RAG necesita un rediseño: cuando el lector es un modelo, el ruido es más peligroso

Un paper de perspectiva publicado en arXiv plantea un argumento que vale la pena tomar en serio: los sistemas de recuperación de información fueron diseñados pensando en usuarios humanos, que toleran cierto nivel de ruido y pueden ignorar resultados irrelevantes. Cuando quien consume esa información es un LLM, las reglas cambian por completo. Los modelos tienen presupuestos de atención limitados y son especialmente vulnerables al ruido: la información irrelevante o engañosa no es un inconveniente menor, es una causa directa de alucinaciones y errores de razonamiento.

La propuesta central del paper es adoptar una perspectiva de “denoising primero”: antes de pasarle contexto a un modelo, el pipeline de recuperación debe filtrar activamente el ruido, no solo rankear por similitud semántica. Esto implica repensar métricas, arquitecturas de reranking y la forma en que se construyen los índices de búsqueda cuando el consumidor final es un agente o un LLM en un flujo RAG.

Para developers que están construyendo sistemas RAG hoy, el takeaway es inmediato: la calidad del contexto importa más que la cantidad. Un retriever que devuelve diez fragmentos mediocres es más dañino que uno que devuelve tres fragmentos precisos. Optimizar el pipeline de recuperación con lógica de filtrado explícita —no solo embeddings y cosine similarity— es probablemente la mejora de mayor impacto que se puede hacer en un sistema RAG existente sin tocar el modelo base.

En pocas palabras

El patrón de hoy es una tensión entre expectativa y realidad. Los modelos multimodales prometen comprensión total del mundo visual, pero fallan en las tareas más estructuradas de ese dominio. El RAG promete contexto enriquecido, pero sin denoising activo introduce más problemas de los que resuelve. Y la entrada de OpenAI al territorio del CFO promete automatización financiera, pero lo hace apoyada en una consultora tradicional para ganar legitimidad institucional. La IA de 2026 sigue siendo enormemente capaz y, al mismo tiempo, frágil en los bordes. Los profesionales que entiendan exactamente dónde están esos bordes son los que van a tomar las mejores decisiones de adopción.

Fuentes utilizadas: https://arxiv.org/abs/2507.01955, https://openai.com/index/openai-pwc-finance-collaboration, https://arxiv.org/abs/2605.00505

GPT-4o ve pero no entiende: el problema de la visión en IA

Lo más importante de hoy en IA

GPT-4o puede describir una foto, pero no segmentar ni detectar como lo haría un modelo especializado

OpenAI y PwC van por la función financiera de las grandes empresas

El RAG necesita un rediseño: cuando el lector es un modelo, el ruido es más peligroso

En pocas palabras