Karpathy — LLM Wiki pattern

Resumen

Documento abstracto (no implementación concreta) que describe el patrón LLM Wiki: un knowledge base personal mantenido incrementalmente por un agente LLM, con tres capas (raw / wiki / schema), tres operaciones (ingest / query / lint), e idea central de síntesis que compone, en contraste con RAG que reconstruye en cada consulta.

Tesis fundacionales

  1. El LLM incrementalmente construye y mantiene un wiki persistente entre sesiones, en vez de redescubrir desde cero cada query (RAG).
  2. Tres capas con propiedad distinta:
    • raw/ inmutable (verdad)
    • wiki/ 100% del LLM (síntesis)
    • Schema file (CLAUDE.md / CLAUDE.md) — contrato co-evolucionado
  3. Humano cura, LLM escribe. División de trabajo clara.
  4. Obsidian como IDE, LLM como programador, wiki como codebase.
  5. Casos de uso amplios: personal (psicología/hábitos), investigación, leer libros, equipos (Slack, transcripts), due diligence, etc.
  6. index.md (contenido) + log.md (tiempo) como navegación mínima; suficiente a escala moderada (~100 fuentes).
  7. Linaje conceptual: Memex de Vannevar Bush (1945) — lo que faltaba era quién hiciera la maintenance. El LLM resuelve eso.

Operaciones definidas

  • Ingest: leer → discutir con humano → resumir en sources/ → actualizar entidades/conceptos/topics → contradicciones → log.
  • Query: leer index → responder con citas → opcionalmente archivar en answers/.
  • Lint: contradicciones, huérfanas, conceptos mencionados sin página, claims obsoletos, gaps.

Decisiones abiertas en el documento

  • Estructura de directorios específica — “depende de tu dominio”.
  • Schema conventions — “co-evoluciona con tu LLM”.
  • Tooling extra (search engines, CLI) — opcional, solo si escala.

Conexiones

Decisiones adoptadas aquí (respecto a lo abierto en el documento)

  • Ejes temáticos fijos (#personal, business, engineering, crypto, content) — no estaba en el documento; lo añadimos al iniciar.
  • Feedback loop obligatorio en Query — no está en Karpathy; se tomó de carlos-azaustre-segundo-cerebro.
  • Lint separado en Lint + Health check — refinamiento propio inspirado en Carlos.
  • Ideas de contenido derivadas en cada topic — refinamiento propio (el usuario es creator).
  • Contador de fuentes por topic en el index — refinamiento propio (inspirado en Carlos).

Gaps del documento fundacional

  • No discute el feedback loop (Carlos lo introduce).
  • No propone frecuencia de lint / health check (Carlos lo automatiza, nosotros dejamos invocación manual).
  • No distingue producción propia vs consumo (el wiki actual sí — los posts del usuario tienen un tratamiento especial).

Datos de impacto verificados (post-WebSearch 2026-04-18)

  • Tweet original en X: 16M+ views.
  • Gist en GitHub: 5000+ stars en los primeros días.
  • El propio wiki de Karpathy (sobre un único topic de investigación) había crecido a ~100 artículos / 400,000 palabras — más largo que una tesis PhD — sin que él escribiera ninguno directamente.
  • Replicación rápida del patrón: tutoriales de MindStudio, blog Starmorph, Plaban Nayak (Level Up Coding), Mehul Gupta (Data Science in Your Pocket), Kunal Ganglani, AIMaker Substack, Urvil Joshi (Medium), entre otros.

⚠ Crítica destacada (de los comentarios al gist)

Argumento contra el uso del término “wiki”:

Wikis tradicionales tienen curación humana, historial versionado con autoría, provenance de fuentes y supervisión editorial. Este sistema genera contenido sin audit trails ni trazabilidad de cada summary a las source sentences específicas que lo respaldan.

Counter-argumento: “wiki” denota información enlazada y navegable. La crítica de “poca confiabilidad / inmaduro” es más precisa que el debate semántico.

Tensión que aplica a este wiki: nuestro schema marca source_file en frontmatter y enlaces [[wikilink]] entre páginas, pero no tenemos trazabilidad línea-por-línea. Una afirmación en un topic puede venir de la síntesis de 5 fuentes sin atribución por oración. Estado: vigente, no resuelta.

Esta tensión está documentada en pkm-segundo-cerebro como gap del patrón general.