Saltar al contenido principal
ItsChijong
en
Inicio
ES10 min de lectura

Orquestación agéntica: el patrón de gerente que se está comiendo silenciosamente la IA B2B

Una IA que lo hace todo está muerta. Las empresas que están ganando envían orquestadores multi-agente que parecen más un equipo pequeño que un chatbot. La versión honesta: patrones que funcionan, costos que muerden, y dónde los operadores LATAM tienen ventaja.

El marco más útil para pensar IA en 2026 no es "el modelo ya es lo suficientemente listo." Es: el modelo finalmente es lo suficientemente bueno para ser un trabajador, pero solo dentro de una estructura que decide en qué trabaja, en qué orden, con qué datos y bajo qué supervisión. Esa estructura es lo que la gente llama "orquestación agéntica." Es el patrón que se está comiendo silenciosamente la categoría B2B de IA.

Este post es la versión honesta de dónde está funcionando, dónde se está rompiendo, y qué cambia para los operadores LATAM en específico.

Por qué "un solo chatbot grande" dejó de ganar

Durante dos años, el deployment por defecto fue: tomar un modelo fuerte, darle algunas herramientas, escribir un system prompt largo y rezar para que se las arregle solo. Los clientes vieron demos que parecían mágicos. Después intentaron flujos reales y vieron al mismo agente único olvidarse del objetivo en el paso 40, alucinar una fila de base de datos, o ignorar silenciosamente una restricción del prompt.

El propio equipo de investigación de Anthropic reportó un aumento de 90.2% en desempeño en tareas internas de investigación cuando pasaron de un solo agente Opus-4 a un Opus-4 líder más sub-agentes Sonnet-4. El mejor modelo individual, solo, perdió contra un equipo coordinado de modelos más baratos haciendo trabajo acotado. El argumento ya no es "usa el modelo más inteligente." Es "construye la forma correcta del trabajo."

Las formas tienen nombres ahora. La taxonomía consenso 2025–2026 viene principalmente de "Building Effective Agents" de Anthropic más el cookbook de OpenAI sobre agent handoffs.

Los patrones nombrados, en español plano

  • Prompt chaining (encadenamiento de prompts). Una secuencia de llamadas al LLM donde la salida de cada paso alimenta al siguiente. Úsalo cuando una tarea se descompone limpiamente: extraer → categorizar → resumir → redactar. Barato, predecible, fácil de depurar.
  • Routing (enrutamiento). Un clasificador (LLM o basado en reglas) manda cada solicitud a un prompt o agente downstream especializado. El patrón "preguntas fáciles a un modelo chico, preguntas difíciles a un modelo de frontera" es una instancia de routing. La palanca de costo más grande en agentes en producción.
  • Parallelization (paralelización). El mismo input se abre a múltiples workers. Dos sabores: sectioning (dividir subtareas independientes entre agentes) y voting (correr la misma tarea N veces y agregar). Voting es tu palanca de confiabilidad para salidas de alto riesgo.
  • Orchestrator-worker (también llamado supervisor / lead-subagent). Un LLM central descompone dinámicamente la tarea, lanza workers, sintetiza los resultados. El patrón que usa el sistema de investigación de Anthropic. La forma correcta cuando el trabajo no se puede pre-planear.
  • Evaluator-optimizer (evaluador-optimizador). Un "doer" produce salida; un "juez" la califica contra una rúbrica; el doer revisa. Cierra el lazo en calidad al costo de más tokens. Úsalo donde la calidad importa más que la latencia.
  • Plan-execute. Un planificador emite un plan ordenado; un ejecutor más barato lo recorre paso por paso. Más barato que ReAct para horizontes largos porque el modelo caro solo planea una vez.
  • ReAct (Reason + Act). Pensamiento / llamada-a-herramienta / observación intercalados en un solo loop. El baseline de 2022; sigue siendo el punto correcto de arranque para tareas cortas.
  • Reflection / Reflexion. El agente critica su propia salida y reintenta. Variante de evaluator-optimizer en un solo agente. Útil, caro.
  • Swarm / handoff. Agentes pares se transfieren control con funciones de handoff explícitas; solo las instrucciones de un agente están "activas" a la vez. El vocabulario del Agents SDK de OpenAI. Bueno para experiencias de "mesa de especialistas" (agente de ventas → agente de soporte → agente de cobros).

Si tu equipo no le ha puesto nombres a los patrones que envía, empieza ahí. No puedes depurar lo que no puedes etiquetar.

Lo que en realidad se ha enviado, con números

Los casos honestos del registro público:

  • Klarna (soporte fintech). Su asistente de IA manejó 2.3M de conversaciones en su primer mes, equivalente a unos 700 agentes de tiempo completo. CSAT subió 47%. Tiempo de resolución bajó a 2 minutos. Ahorro estimado de $60M para Q3 2025. Después en mayo 2025 Klarna lo regresó hacia un híbrido "estilo Uber" con humanos en el loop cuando los casos complejos de empatía mostraron los límites. El caso más citado y más honesto de la categoría.
  • Sierra (plataforma de customer experience, valuada en $10B en septiembre 2025). Chime: tasa de resolución pasó de 40% a 70%+. Hertz: tasa de deflection de 10% a 70%+ en seis semanas.
  • Harvey (legal). Cerca de $100M ARR para agosto 2025; los matters activos saltaron 36× en 18 meses. En mayo 2025 pivotearon hacia un orquestador multi-modelo que rutea entre OpenAI / Google / Anthropic según el tipo de query.
  • BDO Colombia (finanzas / nómina, LATAM). Construido sobre Microsoft Copilot Studio + Power Platform: reducción de 50% en carga de trabajo, 99.9% de precisión en los tipos de solicitud manejados. Uno de los pocos despliegues agénticos LATAM documentados públicamente (fuente).
  • Santander + Visa lanzaron el primer sistema de pagos end-to-end con agentes de IA en América Latina en marzo 2026.

Si quieres la fuente específica de cualquiera de estos, las referencias al final del post enlazan a cada uno.

La crítica honesta

Ahora la parte que no aparece en el marketing.

Iceberg de costo. Los deployments agénticos usan 20–30× más tokens que los flujos de genAI vainilla. Los loops multi-turno crecen tokens cuadráticamente. Un loop Reflexion-10 es alrededor de 50× una sola pasada. Agentes sin restricciones pueden gastar $5–8 por tarea en modelos de frontera.

Techo de confiabilidad. Las evaluaciones propias de Anthropic y de Galileo ponen el éxito de agentes en tareas reales complejas alrededor del 50%. Gartner predice que más del 40% de proyectos agénticos serán cancelados para fines de 2027. No porque la tecnología sea mala; es porque la mayoría de equipos los envían en formas que fallan en silencio.

Fallas en cascada. Una sola inferencia mala en el paso 3 de un plan de 50 pasos se propaga. El incidente de Replit en julio 2025 (un agente borró una base de datos de producción a pesar de instrucciones explícitas de freeze) es el ejemplo canónico. 88% de organizaciones reportaron al menos un incidente de seguridad relacionado con agentes en 2025.

Deriva de contexto. Para el paso 40 a 50 de una tarea larga, el agente pierde el agarre del objetivo. Los agentes de larga duración necesitan checkpoints explícitos de "recuérdame qué estoy haciendo," o se desvían.

Pesadilla de depuración. Comportamientos emergentes multi-agente requieren tooling de observabilidad nuevo: caminos de decisión, logs de mensajes agente-a-agente, trazas de llamadas a herramientas. Sin eso, los post-mortems toman días.

Overhead de coordinación. Los sistemas multi-agente seguido gastan más compute en agentes esperándose entre ellos que en el trabajo real. El patrón que la mayoría copia de Twitter — cinco agentes en un swarm — usualmente es más lento y más caro que el patrón orchestrator-worker que recomienda la literatura.

La lectura honesta: los sistemas agénticos funcionan, y fallan en formas a las que los operadores no están acostumbrados. Si tu equipo trata al agente como una API determinística, tus post-mortems serán confusos.

Dónde tiene una ventaja injusta el operador LATAM

Esta es la parte que los posts de Silicon Valley no van a escribir.

La brecha de adopción es amplia y bien definida. Cerca del 95% de las firmas sudamericanas tocan IA generativa de alguna forma (Bain, mayo 2025). Pero solo el 14% tiene un proyecto agéntico en producción según data regional. Esa brecha de 81 puntos es la oportunidad completa.

Los patrones cost-aware no son opcionales. Los contratos B2B en LATAM son más chicos que en NA / EU. El titular "el agente cuesta $5 por tarea" pega más fuerte aquí. Eso hace que routing, plan-execute y evaluator-optimizer con ejecutores de tier barato sean las arquitecturas por defecto, no nice-to-haves. Los operadores LATAM forzados a la disciplina de costo construyen sistemas agénticos más esbeltos en promedio.

La cobertura del español es genuinamente buena. Los modelos de frontera tienen buen desempeño en español en 2026. El trabajo de ingeniería que queda es vocabulario regional, portugués para Brasil, handoffs ES↔EN en flujos de operaciones, y unos casos de borde de lenguas indígenas. Resoluble. Vale la pena hacerlo.

Menos arrastre regulatorio, por ahora. Aún no se ha enviado un equivalente LATAM al EU AI Act. Estrategias nacionales de IA están emergiendo pero el ritmo regulatorio sigue siendo más lento que el de Bruselas. Hay una ventana de 12–18 meses donde enviar agentes en producción es estructuralmente más fácil aquí que en Europa.

Bancos y consultoras son el canal. Santander+Visa, NTT-Data+AWS, BDO. Los compradores son partnership-led, no VC-led. Pitchea sistemas agénticos como plomería para un partner de canal existente, no como una SaaS app en una tarjeta.

Cómo elegir el patrón correcto

La guía práctica aburrida, en orden:

  1. Empieza con prompt chaining y routing. Cubren el 70% de los casos B2B reales. Son baratos. Son depurables.
  2. Suma evaluator-optimizer donde la calidad de salida no es negociable. Legal, médico, financiero. Paga el costo de tokens.
  3. Llega a orchestrator-worker solo cuando la estructura de la tarea genuinamente no se puede saber por adelantado. Investigación, flujos complejos de ciclo de venta, negociación multi-documento de contratos.
  4. Evita swarms a menos que necesites específicamente un UX de "mesa de especialistas." Son un demo hermoso y un post-mortem brutal.
  5. Instrumenta todo. Si no puedes reproducir una corrida fallida de punta a punta, no tienes un sistema agéntico. Tienes una caja negra que ocasionalmente te avergüenza.

Cierre

Las empresas que ganen los próximos dos años de IA B2B no van a ser las que tengan los modelos más inteligentes. Van a ser las que tengan el trabajo mejor formado.

Eso es buena noticia para los operadores LATAM, porque la forma del trabajo está cuello-de-botella en juicio, no en ingeniería. El pensamiento de ingeniería industrial — flujos de proceso, throughput, cuellos de botella, controles de calidad — es exactamente el músculo que esta categoría premia. Los modelos son globales. Las operaciones son locales. La orquestación es donde se encuentran los dos.


Referencias