RL RanceLee Tutorials
← Retour aux tutoriels

La méthode Karpathy : construire un wiki personnel avec les LLM

Récemment, un Gist d’Andrej Karpathy a beaucoup circulé dans la communauté tech. Après l’avoir lu, ma première pensée a été : cette idée a un lien plus profond avec Obsidian que la plupart des gens ne le pensent. Cet article parle de cela.


Qui est Karpathy

Si vous suivez le monde de l’IA, ce nom devrait vous être familier. Mais si vous ne le connaissez pas beaucoup, je pense qu’il vaut la peine de l’expliquer d’abord.

Karpathy n’est pas le genre de « leader de l’IA qui gère des produits dans une grande entreprise » ; il est vraiment l’un des piliers du domaine du deep learning.

Il a fait son doctorat à Stanford sous la direction de Fei-Fei Li – la personne qui a dirigé ImageNet et a essentiellement lancé la vision par ordinateur moderne. Après avoir quitté le groupe de Fei-Fei Li, Karpathy est allé chez OpenAI en tant que l’un de ses cofondateurs. En 2017, Tesla l’a débauché pour diriger le système de perception visuelle d’Autopilot.

Pendant ses années chez Tesla, beaucoup de gens connaissent maintenant le résultat : Tesla était presque la seule entreprise de conduite autonome à l’époque qui insistait sur une approche purement visuelle – pas de lidar, juste des caméras + des réseaux de neurones. Cette approche a été vivement critiquée à l’époque comme étant trop radicale. Les résultats sont ensuite devenus clairs pour tout le monde.

Il a quitté Tesla en 2022, est brièvement retourné chez OpenAI en 2023, puis est reparti pour lancer son propre projet d’éducation en IA, karpathy.ai.

Ce que je trouve intéressant chez lui, ce n’est pas seulement son CV, mais le fait qu’il maintient un état rare : capable de faire de l’ingénierie de classe mondiale, tout en étant prêt à passer du temps à écrire des articles et à enregistrer des cours pour expliquer la logique sous-jacente de la technologie aux gens ordinaires.

Ses nanoGPT et micrograd sur GitHub sont des réimplémentations minimales de GPT et de la rétropropagation, spécialement conçues pour que les gens ordinaires comprennent vraiment. Son cours CS231n sur YouTube a enseigné le deep learning à d’innombrables personnes.

Alors quand il a écrit un Gist sur GitHub à propos de « l’utilisation des LLM pour gérer des bases de connaissances », cela s’est rapidement répandu dans la communauté tech. Je pense que cela vaut la peine d’être lu attentivement.

Ce qu’il a dit

Le Gist s’intitule LLM Wiki: A pattern for building personal knowledge bases with LLMs. Le lien original :

https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f

Son point de départ est un sentiment que beaucoup de gens ont eu : Votre base de connaissances ne cesse de croître, mais ce que vous pouvez réellement utiliser ne cesse de diminuer.

Vous mettez des articles en signet, vous prenez des notes de lecture dans Notion, vous construisez un tas de notes dans Obsidian, mais la prochaine fois que vous avez besoin d’une certaine connaissance, la probabilité de la trouver n’est pas élevée. Ce n’est pas que vous ne pouvez pas la trouver – c’est trop dispersé, il n’y a pas de liens entre elles. Même si vous les trouvez, ce sont des fragments que vous devez assembler vous-même.

Il attribue ce problème aux lacunes de deux solutions existantes :

Premièrement : l’approche des signets.
Vous jetez le texte original dedans, vous ne faites rien, et vous vous fiez entièrement à la recherche. Le problème est que la recherche trouve des documents, pas des réponses. Vous devez encore lire, comprendre et synthétiser vous-même.

Deuxièmement : l’approche RAG (Retrieval-Augmented Generation).
Vous fournissez un tas de documents à l’IA, qui récupère et génère des réponses à la volée. C’est bien mieux que les signets, mais c’est toujours temporaire, on repart de zéro à chaque fois, sans accumulation.

Son LLM Wiki proposé est une idée différente : Ne laissez pas l’IA s’organiser temporairement pendant la recherche ; laissez plutôt l’IA maintenir en continu un Wiki en constante évolution.

Comment fonctionne LLM Wiki

L’architecture entière comporte trois couches :

Sources brutes
Ce sont les choses que vous lisez habituellement : articles, livres, sous-titres de vidéos, notes de réunion. Elles sont stockées ici telles quelles, en tant que matière première.

Le Wiki
Un ensemble de fichiers Markdown, chacun correspondant à un sujet, un concept ou une entité. Par exemple, vous pourriez avoir une page « Machine Learning - Surapprentissage », une page « Notes de lecture - Être dans le jeu », et une page « Personnes - Feynman ».

Ces fichiers ne sont pas écrits par vous ; ils sont écrits et maintenus en continu par l’IA. Chaque fois que de nouveaux documents arrivent, l’IA met à jour les pages pertinentes ; des références croisées sont établies entre les pages ; si des contradictions surgissent, elles sont signalées.

Le Schéma
Une configuration qui indique à l’IA « à quoi ce Wiki devrait ressembler ». Par exemple, quels champs chaque note doit contenir, comment organiser, ce qui constitue une note orpheline, quels concepts nécessitent leur propre page.

Ensuite, trois opérations principales :

Ingestion
Chaque fois que de nouveaux documents arrivent, l’IA les lit et met à jour 10 à 15 pages du Wiki. Pas seulement en créer de nouvelles, mais aussi mettre à jour le contenu existant, ajouter des références croisées et signaler les domaines qui nécessitent une confirmation supplémentaire.

Requête
Vous posez une question, et l’IA synthétise une réponse à partir du Wiki. Le point clé : si la requête elle-même produit de nouvelles intégrations précieuses, l’IA les réécrit également dans le Wiki. En d’autres termes, plus vous l’utilisez, plus le Wiki s’enrichit.

Lint
C’est une opération qu’il mentionne spécifiquement, et je pense que c’est la partie la plus intelligente du schéma. L’IA effectue périodiquement un contrôle de santé sur l’ensemble du Wiki :

  • Y a-t-il deux pages avec un contenu contradictoire ?
  • Y a-t-il des déclarations obsolètes ?
  • Y a-t-il des pages orphelines sans aucun autre lien vers elles ?
  • Y a-t-il des références croisées manifestement manquantes ?

Faire ces choses manuellement serait fastidieux et presque impossible à maintenir. Mais pour l’IA, c’est un pur travail de routine.

La répartition des tâches est la suivante :

Les humains sont responsables de : la curation (choisir ce qui mérite d’être inclus), le jugement critique (cette conclusion est-elle correcte ?), la supervision (réviser périodiquement les mises à jour de l’IA)
L’IA est responsable de : la comptabilité – références croisées, maintien de la cohérence, nettoyage des nœuds orphelins, mise en forme

Il utilise le terme : bookkeeping. Ce mot est bien choisi. Il ne s’agit pas de laisser l’IA penser à votre place, mais de confier à l’IA les tâches de maintenance que vous savez que vous devriez faire mais que vous remettez toujours à plus tard.

Pourquoi les utilisateurs d’Obsidian devraient y prêter une attention particulière

J’ai remarqué quelque chose récemment : certains de mes amis dans la communauté des programmeurs, qui n’étaient pas intéressés par Obsidian auparavant, ont commencé à l’utiliser les uns après les autres.

Quand on leur demande pourquoi, les réponses sont généralement les mêmes : parce qu’il est tellement adapté pour travailler avec l’IA. Fichiers locaux, Markdown brut, pas de verrouillage – c’étaient auparavant des préférences de niche, mais maintenant elles sont devenues des avantages. Des outils comme Claude Code peuvent lire et écrire directement un Vault Obsidian sans aucune configuration supplémentaire ; ce que l’IA peut faire, elle le fait directement.

Le Gist de Karpathy, d’une certaine manière, rend cela encore plus clair.

J’utilise Obsidian moi-même depuis un certain temps, et après avoir lu ce Gist, j’ai eu un fort sentiment :

Le Wiki qu’il décrit est essentiellement un Vault Obsidian maintenu activement par une IA.

Pensez-y : quel est le cœur d’Obsidian ? Un tas de fichiers Markdown locaux, reliés par des liens bidirectionnels.

Quel est le cœur de LLM Wiki ? Un tas de fichiers Markdown, plus une IA qui vous aide à créer et maintenir des liens, intégrer du contenu et effectuer des contrôles de santé.

Le support sous-jacent est exactement le même. Un Vault Obsidian est presque l’implémentation la plus naturelle d’un LLM Wiki.

Les choses que vous faites manuellement maintenant – créer des liens bidirectionnels pour les notes, écrire des Maps of Content (MOC), organiser et archiver périodiquement – une partie significative de celles-ci peut être effectuée par l’IA en tant que « travail de comptabilité » dans la conception LLM Wiki.

Permettez-moi de vous donner mon propre exemple : après avoir fini d’écrire un article, l’étape de création et d’organisation des liens bidirectionnels est maintenant gérée par une Skill. L’IA scanne mon vault de notes, trouve les articles connexes et ajoute automatiquement des liens bidirectionnels. Avant, je remettais toujours cette étape à plus tard, mais maintenant je ne m’en soucie presque plus.

Le LLM Wiki de Karpathy va encore plus loin : non seulement l’exécuter une fois après avoir écrit un article, mais maintenir l’ensemble de la base de connaissances dans un état continuellement mis à jour, avec l’Ingestion, la Requête et le Lint automatisés.

Bien sûr, il y a aussi des voix qui pensent que cette approche pose problème.

Certains dans la communauté tech ont fait une comparaison avec le Zettelkasten : le Zettelkasten traditionnel souligne que l’acte d’écrire activement des notes est en soi le processus de compréhension – pas de collecte, mais la construction de connexions par l’écriture. Si l’IA résume et crée des associations pour vous, ce processus de compréhension ne disparaît-il pas ? Vous obtenez une base de connaissances bien rangée, mais n’y a-t-il rien dans votre cerveau ?

C’est une vraie question, et je pense qu’il n’y a pas de réponse standard.

Mais pour les utilisateurs d’Obsidian, mon propre jugement est : ces deux choses ne sont pas contradictoires, à condition que vous clarifiez quelles tâches sont « vraiment besoin de réflexion » et lesquelles sont « comptabilité ennuyeuse ».

Par exemple :

  • Lire un article, extraire les idées principales, écrire vos propres sentiments et réflexions → c’est de la réflexion, doit être fait par vous-même
  • Vérifier quelles notes n’ont pas été liées depuis trois mois → c’est de la comptabilité, tout à fait raisonnable de déléguer à l’IA
  • Synthétiser plusieurs sources autour d’un concept → l’IA peut faire un brouillon, vous révisez
  • Maintenir les champs frontmatter d’un tas de notes → c’est du pur travail de routine, l’IA le fait

Le vrai risque n’est pas que vous arrêtiez de penser parce que vous utilisez l’IA, mais que vous assimiliez « faire résumer cet article par l’IA » à « j’ai lu cet article ».

Tant que vous pouvez faire cette distinction, l’approche LLM Wiki est en fait une extension assez précieuse pour les utilisateurs d’Obsidian.

Prochaines étapes

Le Gist de Karpathy en est actuellement au stade de « proposer un bon modèle, mais ne pas fournir d’outil prêt à l’emploi. »

Quelques personnes dans la communauté ont commencé à implémenter cette idée dans différentes directions, mais c’est encore très tôt.

Je prévois de mettre à niveau sérieusement ma propre configuration : d’abord réorganiser mon vault de notes Obsidian selon l’approche LLM Wiki, puis pousser plus loin ma Skill existante de liens bidirectionnels, en essayant d’ajouter une logique d’Ingestion et de Lint pour en faire une Skill plus complète.

En utilisant Claude Code + Vault Obsidian, je vais parcourir tout le processus du début à la fin – voir ce qui fonctionne, quels sont les pièges, et ce qui nécessite une refonte. Si cela fonctionne, je conditionnerai le tout et le partagerai, afin que d’autres puissent l’utiliser directement sans avoir à tout construire à partir de zéro.

Le prochain chapitre couvrira ce processus pratique.

Résumé

Ce que nous avons appris aujourd’hui :

  1. Karpathy est un chercheur en deep learning de Stanford, le leader de l’approche purement visuelle de Tesla pour Autopilot, et un cofondateur d’OpenAI, actuellement concentré sur l’éducation en IA.
  2. LLM Wiki est un modèle où « l’IA maintient activement la base de connaissances », par opposition à la récupération passive dans le RAG.
  3. L’architecture principale comporte trois couches : Sources brutes → Wiki (collection de fichiers Markdown) → Schéma (définition de la structure).
  4. Trois opérations : Ingestion (ingérer et mettre à jour) / Requête (interroger et réécrire) / Lint (contrôle de santé).
  5. La répartition principale des tâches : les humains font la curation et le jugement, l’IA fait la « comptabilité » – références croisées, maintien de la cohérence, nettoyage des nœuds orphelins.

Points clés à retenir :

  • Un Vault Obsidian est lui-même une collection de fichiers Markdown, hautement cohérente avec le support de LLM Wiki, ce qui en fait presque l’implémentation la plus naturelle.
  • Les liens bidirectionnels et les MOC que vous créez manuellement maintenant sont exactement les références croisées maintenues automatiquement par l’IA dans LLM Wiki.
  • S’inquiéter que « l’IA pense à votre place » est raisonnable, mais c’est différent du fait que l’IA fasse de la « comptabilité » – ne les confondez pas.
  • Ce modèle n’a actuellement aucun outil prêt à l’emploi ; vous devez le construire vous-même.
  • Le prochain chapitre présentera une implémentation pratique ; si cela fonctionne, il sera conditionné en tant que Skill et partagé.