RL RanceLee的博客
← 返回主页
● Obsidian教程

Obsidian教程20:Karpathy——用 LLM 构建个人知识库的一种模式

最近有一篇 Gist 在技术圈传得很广,作者是 Andrej Karpathy。我看了一遍,第一个念头是:这个思路和 Obsidian 的关系,比大多数人意识到的要深。

这篇就来聊聊这件事。


Karpathy 是谁

如果你平时关注 AI 圈,这个名字应该不陌生。但如果你不太了解他,我觉得有必要先说一说。

Karpathy 不是那种"在大公司里管理产品的 AI 负责人",他是深度学习领域里真正意义上的自己人。

他在斯坦福读博,导师是李飞飞——就是那个主导了 ImageNet、把现代计算机视觉整个推开的人。Karpathy 从李飞飞那里出来,然后去了 OpenAI,成为联合创始人之一。2017 年特斯拉挖走了他,让他主导 Autopilot 的视觉感知系统。

特斯拉那几年,他做的事情现在很多人已经知道结果了:特斯拉是当时几乎唯一一家坚持纯视觉路线的自动驾驶公司,不用激光雷达,只用摄像头 + 神经网络。这个路线在当时被很多人批评,觉得太激进。后来的结果大家也看到了。

2022 年他从特斯拉离开,2023 年短暂重返 OpenAI,然后又再度出走,开始做自己的 AI 教育项目 karpathy.ai。

我觉得他有意思的地方,不只是这些履历,而是他一直保持着一种很少见的状态:既能做世界顶级的工程,又愿意花时间写文章、录课程,把那些技术背后的底层逻辑解释给普通人听。

他在 GitHub 上的 nanoGPT 和 micrograd,都是用最精简的代码重新实现 GPT 和反向传播,专门为了让普通人能真正读懂。他在 YouTube 上的 CS231n 课程,已经教会了无数人深度学习。

所以他在 GitHub Gist 上写了一篇关于"用 LLM 管理知识库"的文章,然后迅速在技术社区扩散,我觉得值得认真看一遍。


他说了什么

这篇 Gist 的标题叫 LLM Wiki: A pattern for building personal knowledge bases with LLMs,翻译过来大概是"用 LLM 构建个人知识库的一种模式"。原文地址:

https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f

他的出发点是一个很多人都有过的感受:你的知识库越来越大,但能真正用上的越来越少。

你收藏了文章,用 Notion 记了读书笔记,用 Obsidian 建了一堆笔记,但下次需要某个知识点的时候,你能找到的概率其实没多高。不是找不到,是太分散了,而且彼此之间没有关联,找到了也是一块一块的碎片,要自己重新拼。

他把这个问题归结为两种解法的不足:

第一种:收藏夹模式。
原文丢进去,什么都不做,全靠搜索。问题是搜索找到的是文档,不是答案,你还得自己读、自己理解、自己综合。

第二种:RAG 模式(检索增强生成)。
你给 AI 提供一堆文档,AI 检索之后临时给你生成答案。这已经比收藏夹好很多,但每次都是临时的,每次都从零开始,没有积累。

他提出的 LLM Wiki,是一个不一样的思路:不要让 AI 在搜索时临时整理,而是让 AI 持续维护一个不断更新的 Wiki。


LLM Wiki 是怎么运作的

整个架构分三层:

Raw Sources(原始资料)
就是你平时读的东西:文章、书、视频字幕、会议记录。这些东西原封不动地放在这里,是原材料。

The Wiki(知识库本体)
一组 Markdown 文件,每个文件对应一个主题、概念或实体。比如你有一个"机器学习-过拟合"页面,一个"读书记录-置身事内"页面,一个"人物-费曼"页面。

这些文件不是你写的,是 AI 写的,并且持续维护的。每次有新资料进来,AI 会更新相关页面;不同页面之间会建立交叉引用;如果出现矛盾,会被标注出来。

The Schema(结构定义)
一份告诉 AI “这个 Wiki 应该长什么样"的配置。比如每篇笔记要包含哪些字段、怎么组织、什么叫孤立笔记、哪些概念需要独立成页。


然后是三个核心操作:

Ingest(摄入)
每次有新资料进来,AI 读取它,然后更新 10 到 15 个 Wiki 页面。不只是新建,还会更新已有内容,补充交叉引用,标记需要进一步确认的地方。

Query(查询)
你提问,AI 在 Wiki 里综合答案。关键是:这次查询本身如果产生了有价值的新整合,AI 也会把它写回 Wiki。也就是说,你用得越多,Wiki 本身就越丰富。

Lint(检查)
这是他特别提到的一个操作,我觉得也是这个方案里最聪明的地方。AI 定期对整个 Wiki 做健康检查:

  • 有没有两个页面内容互相矛盾?
  • 有没有声明已经过时?
  • 有没有孤立页面,没有任何其他页面链接到它?
  • 有没有明显缺失的交叉引用?

这些事情,你自己手动做会很烦,而且几乎不可能坚持。但对 AI 来说,这就是纯体力活。


整个分工思路是这样的:

人类负责: 策展(选什么东西值得放进来)、批判性判断(这个结论对不对)、监督(定期审查 AI 做的更新)
AI 负责: 簿记——交叉引用、一致性维护、孤立节点清理、格式整理

他用了一个词:bookkeeping(簿记)。这个词选得很准。不是让 AI 替你思考,而是把那些你知道该做、但一直拖着没做的维护工作,交给 AI 来执行。


为什么 Obsidian 用户应该特别关注这个

有一件事我最近也注意到了:我认识的一些编程圈的朋友,原本对 Obsidian 不太感兴趣,最近陆陆续续开始用了。

问他们为什么,答案大差不差:因为它太适合跟 AI 配合了。 本地文件、纯 Markdown、无锁定——这些在以前是小众偏好,现在反而成了优势。Claude Code 这类工具可以直接读写 Obsidian Vault,不需要任何额外配置,AI 能做的事情直接就能做。

Karpathy 的这篇 Gist,某种程度上把这件事说得更清楚了。

我自己用 Obsidian 已经用了一段时间,看完这篇 Gist 之后有一个很强的感觉:

他描述的那个 Wiki,本质上就是一个被 AI 主动维护的 Obsidian Vault。

你想想,Obsidian 的核心是什么?一堆本地 Markdown 文件,加上双链把它们连起来。

LLM Wiki 的核心是什么?一堆 Markdown 文件,加上 AI 帮你建立和维护链接、整合内容、做健康检查。

两者的底层载体完全一致。Obsidian Vault 几乎是 LLM Wiki 最自然的落地形式。

你现在手动做的那些事情——给笔记建双链、写 MOC、定期整理归档——在 LLM Wiki 的设计里,相当大一部分都是可以让 AI 来做的"簿记工作”。

说个自己的例子:我现在写完文章之后,双链的建立和整理这一步,已经是用一个 Skill 来处理的了。AI 扫一遍笔记库,帮我找出相关联的文章,自动补上双链。这个步骤我之前每次都拖着不做,现在基本不用操心了。

Karpathy 的 LLM Wiki,只是把这件事做得更彻底:不只是在写完文章之后跑一遍,而是让整个知识库持续处于被维护的状态,Ingest、Query、Lint 全部自动化。


当然,也有一些声音认为这个思路有问题。

技术社区里有人提出了一个 Zettelkasten 的对比:传统 Zettelkasten 强调的是主动写笔记本身就是理解的过程,不是收集,而是在写作中建立联系。如果 AI 替你总结、替你建立关联,那这个理解过程是不是就消失了?你得到的是一个整洁的知识库,但你的大脑里是不是什么都没有?

这是一个真实的问题,我觉得没有标准答案。

但对 Obsidian 用户来说,我自己的判断是:这两件事其实不矛盾,前提是你弄清楚哪些事情是"真正需要思考的",哪些是"烦人的簿记"。

比如:

  • 读一篇文章,提炼核心观点,写下自己的感受和反思 → 这是思考,应该自己做
  • 检查哪些笔记三个月没有被链接过 → 这是簿记,交给 AI 完全合理
  • 在一个概念下面综合多个来源的说法 → 可以让 AI 起草,自己审核
  • 维护一堆笔记的 frontmatter 字段 → 这是纯体力活,AI 做

真正的风险,不是用了 AI 你就不思考了,而是你把"让 AI 总结这篇文章"当成了"我读完了这篇文章"。

只要能区分这个,LLM Wiki 的思路对 Obsidian 用户来说,其实是一个相当有价值的扩展。


下一步

Karpathy 的 Gist 目前还处于"提出了一个好模式,但没有给出一个开箱即用的工具"的阶段。

社区里已经有几个人开始在不同方向上实现这个想法,但都还很早期。

我自己接下来打算认真升级一下:先把自己的 Obsidian 笔记库按照 LLM Wiki 的思路重新梳理一遍,再把现有的双链 Skill 往前推一步,尝试把 Ingest 和 Lint 的逻辑也加进去,做成一个更完整的 Skill。

用 Claude Code + Obsidian Vault,从头到尾跑一遍这个流程——看看哪里顺,哪里有坑,哪里需要重新设计。如果跑通了,我会把整套东西整理好分享出来,让大家可以直接拿去用,不用自己从头搭。

下期就写这个实操过程。


总结

今天学到了什么:

  1. Karpathy 是斯坦福出身的深度学习研究者,特斯拉 Autopilot 纯视觉路线的主导者,也是 OpenAI 联创之一,目前专注 AI 教育
  2. LLM Wiki 是一种"让 AI 主动维护知识库"的模式,区别于被动检索的 RAG
  3. 核心架构分三层:原始资料 → Wiki(Markdown 文件集合)→ Schema(结构定义)
  4. 三个操作:Ingest(摄入更新)/ Query(查询并回写)/ Lint(健康检查)
  5. 核心分工是:人类做策展和判断,AI 做"簿记"——交叉引用、一致性维护、孤立节点清理

核心要点:

  • Obsidian Vault 本身就是一堆 Markdown 文件,和 LLM Wiki 的载体高度一致,几乎是最自然的落地形式
  • 你现在手动做的双链和 MOC,在 LLM Wiki 里就是 AI 自动维护的交叉引用
  • 担心"AI 替你思考"是合理的,但这和让 AI 做"簿记"是两件事,不要混在一起
  • 这个模式目前没有开箱即用的工具,需要自己搭
  • 下期会实操一遍,如果跑通了会整理成 Skill 分享

如果觉得有帮助,记得关注这个系列!