Agent memory

La capa que retiene contexto entre sesiones del agente, transformándolo de “asistente genérico” en “agente que conoce tu dominio”. Frame consolidado del cluster digests inbox 2026-04 a 2026-05: los agentes que fallan en producción fallan por falta de memoria, no por falta de inteligencia del modelo (Emerging AI 2026-05-06).

Los cuatro tipos (Emerging AI 2026-05-03)

TipoQué retieneEjemplo
Working memoryContexto activo de la tarea actualBuffer de la sesión actual del LLM
EpisodicEventos pasados específicos”El usuario pidió X el martes pasado”
SemanticConocimiento abstracto extraído”Este usuario prefiere respuestas cortas”
ProceduralPatrones de ejecución aprendidos”Para tarea Y, primero ejecuto A → B → C”

RAG (Retrieval-Augmented Generation) es el caso particular más usado de semantic memory — base vectorial + retrieval + augmented prompt. Pero RAG sin las otras 3 capas produce el patrón “el agente recuerda el documento pero olvida que ya hablamos del documento”.

Frame práctico — Slack agents (Byte-Sized Design 2026-05-08)

“How Slack Keeps a Team of AI Agents from Losing the Plot”

  • Canal de contexto compartido entre agentes. Sin memoria por defecto → caos.
  • Orquestación stateful: cada agente escribe a un canal central antes de terminar la tarea.
  • Sistema diseñado para escalar: no reinventar contexto en cada llamada.

El patrón Slack convierte la memoria de “estado interno por agente” en “estado externo compartido” — análogo a sacar variables locales a un store global cuando crece el equipo.

El handoff packet (Emerging AI 2026-05-15)

En arquitecturas multi-agente (Collector → Builder → Checker → Sender), el poder está en el handoff packet — el blob estructurado que pasa de un agente al siguiente.

Cada agente necesita:

  1. Job card clara.
  2. Herramientas mínimas (no toda la caja).
  3. Handoff packet estructurado (formato auditable).
  4. Logs visibles.

“El poder está en el handoff, no en el número de agentes.”

Conecta directamente con el frame de agentic-patterns: no es cuántos agentes, sino qué se pasa entre ellos.

Sin RAG, el agente es “dumb” (Emerging AI 2026-05-03)

“Your AI Agent Is Dumb Without RAG”

  • Sin RAG, el agente solo conoce lo que vio en training. Datos > 6 meses son invisibles.
  • RAG es la diferencia entre asistente genérico y agente que conoce tu dominio.
  • Arquitectura básica: embedding → vector store → retrieval → augmented prompt.

Pero RAG es la capa semántica, no toda la memoria. Un agente con RAG pero sin episodic memory olvida la conversación anterior con el mismo usuario.

Memoria + reglas simples > prompting complejo (Emerging AI 2026-05-06)

“The AI Agent Stack You Actually Need in 2026”

  • Stack útil = memoria persistente + skills especializados + reglas simples (no prompts complejos).
  • Simple rules > complex prompting para comportamiento confiable y auditable.
  • El 80% del valor viene de la capa de memoria bien diseñada, no del modelo elegido.

Tesis fuerte: si el agente “no funciona”, la primera hipótesis no es “cambiar el modelo” — es “auditar la capa de memoria”.

Tensión con context window infinito

ByteByteGo EP210 (2026-04-11) documenta: los context windows llegaron a 1M tokens — los agentes ya pueden razonar sobre codebases enteros. ¿Esto deprecia agent memory?

No — context window grande es working memory infinita por sesión, pero:

  1. Episodic entre sesiones sigue requiriendo store externo.
  2. Costo por token sigue escalando linealmente — 1M tokens × por llamada es económicamente inviable.
  3. Lost-in-the-middle problem documentado: el modelo presta menos atención al material central del context window.

La memoria externa no es workaround del context window — es arquitectura más eficiente que el “todo en prompt”.

Conexiones

  • mcp-protocol — los MCP servers pueden exponer memoria persistente como recurso versionado.
  • agentic-patterns — el catálogo de 9 patrones (Neo Kim) asume memoria como dimensión arquitectónica.
  • vibe-coding — el techo del vibe coding empieza cuando el agente “olvida” decisiones tomadas en sesión anterior. Memoria es palanca para extender el techo sin volver a empleo full-time de devs.
  • comprehension-debt — paradoja productiva: cuanto mejor la memoria del agente, mayor tentación de delegation mode → más comprehension debt. La memoria del agente no sustituye la del humano que firma el PR.

Posición en el wiki

Update mayo 2026 — AI Engineer Conference 2025

ai-engineer-agentes-mcp-evals-agregada aporta dos palancas operativas concretas para memoria persistente fuera del context window:

Filesystem como memoria explícita

Los agentes externalizan recuerdos guardando planes, listas de tareas y decisiones de diseño en archivos persistentes (agent.md, claude.md, agents.md) dentro de su entorno de trabajo. El agente lee estos archivos cuando necesita refrescar memoria, en lugar de arrastrar todo el historial conversacional.

Es memoria semántica + procedural materializada en filesystem auditable. Ventajas vs base vectorial:

  • Versionable con git — auditas qué cambió en la memoria entre commits.
  • Editable por humanos — el equipo puede corregir directamente, no entrenar.
  • Compatible con mcp-protocol — los archivos pueden exponerse como Resources MCP.

Es el patrón canónico del vibe-coding maduro.

Compactación intencional como puente entre sesiones

Cuando la conversación se desvía o se aproxima al límite del context:

  1. Pedir al agente que comprima información vital en un documento markdown (plan vivo, estado actual).
  2. Iniciar sesión completamente nueva con ese markdown como semilla.
  3. El markdown actúa como bridge memory — memoria episódica destilada.

Ver también context-engineering para la disciplina general que esta práctica implementa.

Sub-agentes con contexto en blanco

Variante de la memoria por aislamiento: el agente principal delega tareas que consumirían mucho contexto (leer doc extensa, buscar en código) a sub-agentes con ventana en blanco. El sub-agente ejecuta, devuelve solo la observación final. El contexto principal se mantiene limpio.

Es gestión de memoria por particionado — análogo a process isolation en sistemas operativos.

Fuentes

Preguntas abiertas

  • ¿Hay estándar abierto para handoff packets (análogo a MCP para tools)?
  • ¿Cómo se mide “calidad de memoria” en un agente? Ningún episodio del batch propone métrica.
  • ¿La memoria del agente conserva confidentiality cuando varios usuarios comparten el mismo agente?