从数据采集到知识库 & Skills 的完整方法论
融合 Karpathy LLM Wiki + 女娲人物 Skill 蒸馏 + Claude Code 智能体引擎
传统数字分身 ≈ 一个模仿你风格的聊天机器人。我们做的不一样:
数字分身 = 你的知识库(Wiki)+ 你的思维模型(Skills)+ 你的数据资产(Raw)→ LLM 驱动的智能体
Karpathy 的核心洞察:不要每次让 AI"检索"你的文档,而是让 AI 先把你的数据"编译"成一个结构化的 Wiki,然后持续维护它。
🔬 传统 RAG:用户提问 → 向量检索 → 拼凑片段 → 回答(无记忆、无成长)
✨ 本方案:原始数据 → LLM 编译 → 结构化 Wiki → 级联更新 → 越用越聪明
| 层 | 目录 | 比喻 | 说明 |
|---|---|---|---|
| Raw(原始层) | 录音笔记/、微信笔记/、学习笔记/、邮件/ | 源代码 | 不可变原始素材,按来源和时间归档 |
| Wiki(知识层) | 经 LLM 编译的结构化知识页面 | 编译产物 | 实体页、概念页、索引页、日志页 |
| Skills(智能层) | Skills + CLAUDE.md | 可执行程序 | 基于 Wiki 蒸馏出的思维模型和决策框架 |
▲ 管道全景架构图 — 录音 · 社交 · 学习三大管道汇聚于 Claude Code 引擎(AI 生成)
工具链:聆犀AI录音卡 → SonicNoteAsr Obsidian 插件 → 火山引擎 ASR → 录音笔记/
| 场景 | 采集内容 | 产出物 |
|---|---|---|
| 🏫 课堂 | 教授授课、课堂讨论、Q&A | 章节摘要 + 知识点卡片 + 待深入问题 |
| 🤝 会议 | 商业讨论、战略会议、项目复盘 | 决策记录 + 行动项 + 分歧点标注 |
| 🎤 演讲/活动 | 行业分享、圆桌讨论 | 关键观点提取 + 演讲者思维框架 |
| 💭 自言自语 | 个人思考、灵感碎片 | 想法卡片 → 后续发酵 |
① 录音 → AI录音卡自动采集,上传至云端
② 转写 → SonicNoteAsr 插件触发 ASR,生成逐字稿 + 说话人标注
③ LLM 总结 → Claude 按模板生成结构化笔记
④ 入库 → 自动写入 录音笔记/ 目录,Markdown 格式
工具链:wx-cli / wechat-exporter → 微信笔记/ → Claude Code 分析
💡 关键原则:微信数据不进 Wiki,只从中提取「永久价值」——观点、决策、关系、承诺。原始聊天记录留在 Raw 层。
工具链:qmailmanager726 / agently-mail / tencent-exmail
| 提取维度 | 说明 |
|---|---|
| 项目时间线 | 从邮件往来重建项目关键节点 |
| 承诺与交付 | 你答应了什么、什么时候交付、交付了没有 |
| 关键联系人 | 高频邮件联系人的角色、关系、历史 |
| 正式决策 | 合同、报价、确认函中的关键条款 |
工具链:手动笔记 + Claude Code 辅助整理 + Zotero 桥接
深化策略:Zotero 文献 → Claude Code Zotero 桥接 → 自动生成文献笔记;课程录像 → AI录音卡 → ASR 转写 → 知识卡片;实践项目 → 项目复盘 → 经验提炼 → 方法论沉淀。
在 Vault 根目录的 CLAUDE.md 中定义系统规则——角色定义、目录约定、Ingest 规则、风格规则、安全规则。它是整个数字分身系统的「宪法」。
▲ 女娲(Nuwa)核心蒸馏流程 — 从全量数据到可运行的人物 Skill(AI 生成)
| 模块 | 内容 |
|---|---|
| 心智模型 | 5-7 个核心思维模型(第一性原理、长期主义、系统思维…) |
| 决策启发式 | 8-10 条决策规则,每条标注数据来源(微信对话日期等) |
| 表达 DNA | 语言风格、常用句式、说服模式 |
| 知识域地图 | 深度区(专家级)、广度区(了解)、盲区(自知不知) |
| 价值观排序 | 如:诚实 > 效率、长期 > 短期 |
| 来源证据 | 微信关键片段、录音关键表达、邮件决策模式(脱敏后) |
💡 这里的结构与现有 Skill 生态一致。查看已有的 Buffett、Steve Jobs、Mao Zedong 等 Skills 的结构,女娲生成的个人 Skill 遵循相同的框架,可以无缝融入 Skill 生态。
目标:搭好架子,让数据开始流动
| # | 任务 | 工具 | 预计时间 |
|---|---|---|---|
| 1 | 在 Obsidian Vault 中创建 Wiki/ 和 Skills/ 目录 | Obsidian | 10 分钟 |
| 2 | 配置 CLAUDE.md 规则文件 | 手动 + Claude Code | 30 分钟 |
| 3 | 配置 AI 录音卡 + SonicNoteAsr 插件 | Obsidian 插件 | 30 分钟 |
| 4 | 验证录音→转写→入库全流程 | 录音卡 + Claude Code | 1 小时 |
| 5 | 配置微信数据管道(wx-cli) | 终端 | 1 小时 |
| 6 | 配置邮件管道 | qmailmanager726 | 30 分钟 |
| 7 | 建立每日数据采集习惯 | 自律 | 持续 |
持续 2 周的录音笔记积累 → 导出近 3 个月微信核心对话 → 首次 Ingest → 检查 Wiki 编译结果 → 手动补充修正。
确保 Raw 层 50+ 篇素材 → 调用女娲 Skill 蒸馏 → 审查 → 测试对话 → 迭代 2-3 轮直到满意。
建立周常 Ingest 例程 → 月常 Lint 健康检查 → Query → Archive 回填 → 打包 Skills + Wiki → 准备发布。
| 产物 | 格式 | 说明 |
|---|---|---|
| 个人 Skill | .md + CLAUDE.md | 可在 Claude Code / Codex 中一键加载 |
| 知识库 Wiki | Markdown 目录 | 结构化的知识页面,人类可读、AI 可解析 |
| 知识语料包 | 经脱敏的精选文本 | 用于 fine-tune 或 RAG 的参考数据 |
| 数字分身 API | REST/WebSocket | 封装后的查询接口,供第三方调用 |
| 原则 | 本方案的实现 |
|---|---|
| 显式(Explicit) | 所有知识在 Obsidian Markdown 中可见可编辑,不是向量黑箱 |
| 你的(Yours) | 数据存在本地 Vault,不经任何第三方 AI 厂商中转存储 |
| File over App | 纯 Markdown + YAML,换什么工具都能读写 |
| BYOAI | Claude Code 是当前引擎,但架构不绑定——换 Codex/Gemini/开源模型均可 |
⛔ Raw 层数据绝不上云:微信聊天记录、个人邮件、私人录音留在本地
✅ Wiki 层可选择性发布:编译后的结构化知识页面,经脱敏后可以公开
🔐 分层授权:不同的人看到不同的分身深度——公开版 / 群组版 / 私密版
你的数字分身是你的延伸,不是你本人。它应该诚实地标注为「AI 辅助构建的数字分身」,而非冒充本人。在商业场景中(如付费咨询),应明确告知对方正在与数字分身交互。
| 工具 | 用途 | 状态 |
|---|---|---|
| Claude Code | AI 智能体引擎,维护 Wiki + 蒸馏 Skill | ✅ 已配置 |
| 聆犀AI录音卡 | 录音采集硬件 | ✅ 已有 |
| SonicNoteAsr | Obsidian 插件,ASR 转写 + LLM 总结 | ✅ 已开发 |
| 火山引擎 ASR | 语音转文字 | ✅ 已接入 |
| wx-cli | 微信数据导出 | 🔧 可用 |
| qmailmanager726 | QQ邮箱管理 | ✅ 已配置 |
| huashu-nuwa(女娲) | 从数据蒸馏人物 Skill | ✅ 可用 |
| claude-mem | 跨会话记忆注入 | ✅ 已配置 |
| Obsidian | 知识中枢 + Vault | ✅ 主工作环境 |
| Zotero + 桥接 | 文献管理 → 笔记 | 🔧 已配置 |