Agentic AI

Sistemas basados en LLM que razonan, usan herramientas externas y ejecutan acciones en el mundo real — frente al chatbot tradicional que solo responde texto. La frontera de las startups YC del batch reciente: dejaron de construir wrappers de GPT y empezaron a construir agentes que sustituyen flujos completos.

Definición operativa

Un agente típico cumple tres requisitos:

  1. Razona sobre el estado de la tarea (no responde reactivamente).
  2. Usa herramientas externas (APIs, búsquedas, llamadas telefónicas, ejecución de código).
  3. Ejecuta acciones que cambian el mundo (procesa un pago, envía un mensaje, modifica código).

Chatbot ≠ agente. Wrapper de GPT ≠ agente. La diferencia operacional es ¿puede equivocarse con consecuencias? Si sí, es agente.

Casos canónicos (YC batch reciente)

Fuente: yc-root-access-ai-y-agentes Q6.

Atención al cliente

  • Giga (DoorDash): agente habla con cliente y simultáneamente llama al repartidor para coordinar.
  • Parahelp: lee políticas de empresa, decide elegibilidad de reembolso, se conecta a Stripe y devuelve el dinero sin humano.

Ventas y operaciones

  • Simple AI: telefónica para Omaha Steaks. 30% mejor upsell que humanos entrenados.
  • HappyRobot: agentes llaman a camioneros para negociar fletes, ajustándose a pausas/interrupciones.
  • Juicebox: reclutamiento autónomo — evaluar perfiles → calificar → contactar.

Programación

  • Greptile: entiende toda la base de código, revisa PRs. 20.000 bugs en una semana.
  • Momentic: QA — el agente navega la web como usuario, no escribes test code.
  • Conductor: orquesta múltiples agentes en paralelo (lo que el usuario está usando ahora en este workspace).
  • Emergent: app builder multi-agente (diseño, seguridad, deploy).
  • Diode: diseño automatizado de PCBs.

Por qué funcionan ahora y no en 2022

  • Modelos buenos en tool use: Claude/GPT-4+ pueden invocar funciones con suficiente fiabilidad.
  • context-engineering: las técnicas de curación de contexto hacen que el agente no se ahogue en loops largos.
  • Inference barata: corre cientos de iteraciones del agente sin quebrar la economía.

Limitaciones reales

  • Acumulación de errores en loops largos — sin checkpoints/compactación, drift garantizado.
  • No-determinismo de salida — pruebas exhaustivas difíciles; QA requiere otros agentes (Momentic).
  • Costo en tareas largas — un agente “pensando” 10 minutos puede costar $5-20 en API.
  • Riesgo de acciones irreversibles — pagos, emails, código en producción. Necesita guardrails humanos en el loop.

Conexiones

  • context-engineering — disciplina necesaria para que los agentes funcionen en escala.
  • vibe-coding — vibe-coding con LLMs en IDE es agentic AI a escala uno. Los agentes amplían el patrón a flujos completos.
  • ia-y-desarrollo — agentes son la siguiente capa del topic: ya no es “código como output”, es “trabajo completo como output”.
  • bc-6-estado-ai-2025 — el draft del usuario sobre MCPs y agentes ya anticipaba esto; ahora con ejemplos concretos para citar.
  • ai-course-vibecoding-bootcamp — gap pedagógico: el bootcamp debería tener módulo sobre construir agentes simples, no solo escribir prompts.

Preguntas abiertas

  • ¿Qué framework usar para construir agentes? Q6 menciona varias startups pero no compara stacks (LangGraph vs CrewAI vs custom). Brecha sin cubrir en este notebook.
  • ¿Los agentes obsoletan a los Product Engineers? Pregunta abierta: si Greptile revisa PRs y Momentic hace QA, ¿qué queda al humano? Probablemente: definir el problema, diseñar el sistema, decidir riesgo aceptable. Pero la lista shrinks.
  • Negocio agencia/SaaS agéntico: el usuario tiene draft ai-agency-100k-framework-4-pasos. ¿Hace sentido pivotar a “agency que construye agentes para PYME LATAM”? Diferenciación frente a competencia US: idioma + zona horaria + nichos hispanos.

Fuentes