Karpathy — LLM Wiki pattern
Resumen
Documento abstracto (no implementación concreta) que describe el patrón LLM Wiki: un knowledge base personal mantenido incrementalmente por un agente LLM, con tres capas (raw / wiki / schema), tres operaciones (ingest / query / lint), e idea central de síntesis que compone, en contraste con RAG que reconstruye en cada consulta.
Tesis fundacionales
- El LLM incrementalmente construye y mantiene un wiki persistente entre sesiones, en vez de redescubrir desde cero cada query (RAG).
- Tres capas con propiedad distinta:
raw/inmutable (verdad)wiki/100% del LLM (síntesis)- Schema file (CLAUDE.md / CLAUDE.md) — contrato co-evolucionado
- Humano cura, LLM escribe. División de trabajo clara.
- Obsidian como IDE, LLM como programador, wiki como codebase.
- Casos de uso amplios: personal (psicología/hábitos), investigación, leer libros, equipos (Slack, transcripts), due diligence, etc.
- index.md (contenido) + log.md (tiempo) como navegación mínima; suficiente a escala moderada (~100 fuentes).
- Linaje conceptual: Memex de Vannevar Bush (1945) — lo que faltaba era quién hiciera la maintenance. El LLM resuelve eso.
Operaciones definidas
- Ingest: leer → discutir con humano → resumir en
sources/→ actualizar entidades/conceptos/topics → contradicciones → log. - Query: leer index → responder con citas → opcionalmente archivar en
answers/. - Lint: contradicciones, huérfanas, conceptos mencionados sin página, claims obsoletos, gaps.
Decisiones abiertas en el documento
- Estructura de directorios específica — “depende de tu dominio”.
- Schema conventions — “co-evoluciona con tu LLM”.
- Tooling extra (search engines, CLI) — opcional, solo si escala.
Conexiones
- Topic: pkm-segundo-cerebro
- Este wiki es una instancia del patrón. Toda la estructura (
raw/,wiki/{sources,concepts,topics,entities,answers}/,CLAUDE.md,index.md,log.md) viene directamente de aquí. - Variantes posteriores: carlos-azaustre-segundo-cerebro (implementación con cron + VPS), nick-spisak-7-pasos-2nd-brain (destilación didáctica + agent-browser).
Decisiones adoptadas aquí (respecto a lo abierto en el documento)
- Ejes temáticos fijos (#personal, business, engineering, crypto, content) — no estaba en el documento; lo añadimos al iniciar.
- Feedback loop obligatorio en Query — no está en Karpathy; se tomó de carlos-azaustre-segundo-cerebro.
- Lint separado en Lint + Health check — refinamiento propio inspirado en Carlos.
- Ideas de contenido derivadas en cada topic — refinamiento propio (el usuario es creator).
- Contador de fuentes por topic en el index — refinamiento propio (inspirado en Carlos).
Gaps del documento fundacional
- No discute el feedback loop (Carlos lo introduce).
- No propone frecuencia de lint / health check (Carlos lo automatiza, nosotros dejamos invocación manual).
- No distingue producción propia vs consumo (el wiki actual sí — los posts del usuario tienen un tratamiento especial).
Datos de impacto verificados (post-WebSearch 2026-04-18)
- Tweet original en X: 16M+ views.
- Gist en GitHub: 5000+ stars en los primeros días.
- El propio wiki de Karpathy (sobre un único topic de investigación) había crecido a ~100 artículos / 400,000 palabras — más largo que una tesis PhD — sin que él escribiera ninguno directamente.
- Replicación rápida del patrón: tutoriales de MindStudio, blog Starmorph, Plaban Nayak (Level Up Coding), Mehul Gupta (Data Science in Your Pocket), Kunal Ganglani, AIMaker Substack, Urvil Joshi (Medium), entre otros.
⚠ Crítica destacada (de los comentarios al gist)
Argumento contra el uso del término “wiki”:
Wikis tradicionales tienen curación humana, historial versionado con autoría, provenance de fuentes y supervisión editorial. Este sistema genera contenido sin audit trails ni trazabilidad de cada summary a las source sentences específicas que lo respaldan.
Counter-argumento: “wiki” denota información enlazada y navegable. La crítica de “poca confiabilidad / inmaduro” es más precisa que el debate semántico.
⚠ Tensión que aplica a este wiki: nuestro schema marca
source_fileen frontmatter y enlaces[[wikilink]]entre páginas, pero no tenemos trazabilidad línea-por-línea. Una afirmación en un topic puede venir de la síntesis de 5 fuentes sin atribución por oración. Estado: vigente, no resuelta.
Esta tensión está documentada en pkm-segundo-cerebro como gap del patrón general.