构建个人本地数字分身 — 完整方法论

Section 01

核心理念：你的数字分身是一个「编译型」知识系统

不是聊天机器人，是「你的第二大脑」

传统数字分身 ≈ 一个模仿你风格的聊天机器人。我们做的不一样：

数字分身 = 你的知识库（Wiki）+ 你的思维模型（Skills）+ 你的数据资产（Raw）→ LLM 驱动的智能体

Karpathy 的核心洞察：不要每次让 AI"检索"你的文档，而是让 AI 先把你的数据"编译"成一个结构化的 Wiki，然后持续维护它。

🔬 传统 RAG：用户提问 → 向量检索 → 拼凑片段 → 回答（无记忆、无成长）

✨ 本方案：原始数据 → LLM 编译 → 结构化 Wiki → 级联更新 → 越用越聪明

三层架构：Raw → Wiki → Skills

层	目录	比喻	说明
Raw（原始层）	录音笔记/、微信笔记/、学习笔记/、邮件/	源代码	不可变原始素材，按来源和时间归档
Wiki（知识层）	经 LLM 编译的结构化知识页面	编译产物	实体页、概念页、索引页、日志页
Skills（智能层）	Skills + CLAUDE.md	可执行程序	基于 Wiki 蒸馏出的思维模型和决策框架

Section 02

数据采集层：五条管道全面接入

管道全景

▲ 管道全景架构图 — 录音 · 社交 · 学习三大管道汇聚于 Claude Code 引擎（AI 生成）

管道一：AI 录音卡 — 声音→文字→知识

工具链：聆犀AI录音卡 → SonicNoteAsr Obsidian 插件 → 火山引擎 ASR → 录音笔记/

场景	采集内容	产出物
🏫 课堂	教授授课、课堂讨论、Q&A	章节摘要 + 知识点卡片 + 待深入问题
🤝 会议	商业讨论、战略会议、项目复盘	决策记录 + 行动项 + 分歧点标注
🎤 演讲/活动	行业分享、圆桌讨论	关键观点提取 + 演讲者思维框架
💭 自言自语	个人思考、灵感碎片	想法卡片 → 后续发酵

工作流

① 录音 → AI录音卡自动采集，上传至云端
② 转写 → SonicNoteAsr 插件触发 ASR，生成逐字稿 + 说话人标注
③ LLM 总结 → Claude 按模板生成结构化笔记
④ 入库 → 自动写入 录音笔记/ 目录，Markdown 格式

# 录音笔记/2026-07-01-华科EMBA战略管理课程.md date: 2026-07-01 source: 录音 course: 华科EMBA-战略管理 speakers: [张教授, 学员A, 学员B] duration: 120min tags: [战略管理, 课堂, EMBA] status: 已总结

管道二：微信数据 — 社交关系→能力圈→人脉图谱

工具链：wx-cli / wechat-exporter → 微信笔记/ → Claude Code 分析

💬

聊天记录

思维方式、决策过程、社交网络的实时日志

🔄

朋友圈

兴趣圈层、信息消费习惯

👥

群聊

专业领域、协作模式

💡 关键原则：微信数据不进 Wiki，只从中提取「永久价值」——观点、决策、关系、承诺。原始聊天记录留在 Raw 层。

管道三：邮件数据 — 正式沟通→项目脉络→承诺追踪

工具链：qmailmanager726 / agently-mail / tencent-exmail

提取维度	说明
项目时间线	从邮件往来重建项目关键节点
承诺与交付	你答应了什么、什么时候交付、交付了没有
关键联系人	高频邮件联系人的角色、关系、历史
正式决策	合同、报价、确认函中的关键条款

管道四：学习资料 — 书本/论文/课程→知识卡片

工具链：手动笔记 + Claude Code 辅助整理 + Zotero 桥接

深化策略：Zotero 文献 → Claude Code Zotero 桥接 → 自动生成文献笔记；课程录像 → AI录音卡 → ASR 转写 → 知识卡片；实践项目 → 项目复盘 → 经验提炼 → 方法论沉淀。

Section 03

知识编译层：Karpathy Wiki 架构落地

Obsidian Vault 目录结构

Obsidian Vault/ │ ├── 录音笔记/ ← Raw：不可变原始素材 ├── 微信笔记/ ← Raw：微信数据（按日期） ├── 学习笔记/ ← Raw：学习素材 ├── 工作笔记/ ← Raw/混合：项目相关 │ ├── Wiki/ ← 🆕 编译后的知识层（核心新建） │ ├── index.md ← 全局导航索引（自动维护） │ ├── log.md ← 操作日志（append-only） │ ├── entities/ ← 实体页面（人、组织、产品、项目） │ ├── concepts/ ← 概念页面（理论、框架、方法论） │ ├── decisions/ ← 决策日志（关键决策+理由+结果） │ ├── projects/ ← 项目页面（当前+历史） │ └── queries/ ← 常问问题（自然语言→答案，持续回填） │ ├── Skills/ ← 🆕 可执行智能层（核心新建） │ ├── profile.md ← 个人能力画像 │ ├── thinking.md ← 思维模型与决策框架 │ ├── style.md ← 表达风格 DNA │ └── knowledge.md ← 专业知识域地图 │ ├── CLAUDE.md ← 规则层：告诉 Claude Code 如何维护 └── .claude/ ← Claude Code 配置

四大核心操作

📥

Ingest（摄入）

读取新素材 → 判断合并/新建 → 分布式写入 → 级联更新 → 冲突标注 → 追加日志

🔍

Query（查询）

定位 Wiki 页面 → 遍历实体/概念/决策 → 综合回答 → 引用来源 → 自动回填 Q&A

📚

Archive（回填）

高频查询 → 自动升级为正式 Wiki 页面。系统「越用越聪明」的关键机制

🩺

Lint（健康检查）

修复断链 → 报告孤立页面 → 标记过期内容 → 检查 index.md 一致性

CLAUDE.md 规则层

在 Vault 根目录的 CLAUDE.md 中定义系统规则——角色定义、目录约定、Ingest 规则、风格规则、安全规则。它是整个数字分身系统的「宪法」。

Section 04

智能蒸馏层：用女娲（Nuwa）Skills 构建思维模型

女娲造人：从「你」的数据中蒸馏一个「你」

▲ 女娲（Nuwa）核心蒸馏流程 — 从全量数据到可运行的人物 Skill（AI 生成）

蒸馏输出结构

模块	内容
心智模型	5-7 个核心思维模型（第一性原理、长期主义、系统思维…）
决策启发式	8-10 条决策规则，每条标注数据来源（微信对话日期等）
表达 DNA	语言风格、常用句式、说服模式
知识域地图	深度区（专家级）、广度区（了解）、盲区（自知不知）
价值观排序	如：诚实 > 效率、长期 > 短期
来源证据	微信关键片段、录音关键表达、邮件决策模式（脱敏后）

💡 这里的结构与现有 Skill 生态一致。查看已有的 Buffett、Steve Jobs、Mao Zedong 等 Skills 的结构，女娲生成的个人 Skill 遵循相同的框架，可以无缝融入 Skill 生态。

Section 05

全链路工作流：从今天开始的实操指南

第一阶段：基建（第 1-2 周）

目标：搭好架子，让数据开始流动

#	任务	工具	预计时间
1	在 Obsidian Vault 中创建 Wiki/ 和 Skills/ 目录	Obsidian	10 分钟
2	配置 CLAUDE.md 规则文件	手动 + Claude Code	30 分钟
3	配置 AI 录音卡 + SonicNoteAsr 插件	Obsidian 插件	30 分钟
4	验证录音→转写→入库全流程	录音卡 + Claude Code	1 小时
5	配置微信数据管道（wx-cli）	终端	1 小时
6	配置邮件管道	qmailmanager726	30 分钟
7	建立每日数据采集习惯	自律	持续

第二阶段：播种（第 3-4 周）

持续 2 周的录音笔记积累 → 导出近 3 个月微信核心对话 → 首次 Ingest → 检查 Wiki 编译结果 → 手动补充修正。

第三阶段：蒸馏（第 5-6 周）

确保 Raw 层 50+ 篇素材 → 调用女娲 Skill 蒸馏 → 审查 → 测试对话 → 迭代 2-3 轮直到满意。

第四阶段：闭环（第 7-8 周）

建立周常 Ingest 例程 → 月常 Lint 健康检查 → Query → Archive 回填 → 打包 Skills + Wiki → 准备发布。

Section 06

部署与发布：从本地到社区平台

可部署产物清单

产物	格式	说明
个人 Skill	.md + CLAUDE.md	可在 Claude Code / Codex 中一键加载
知识库 Wiki	Markdown 目录	结构化的知识页面，人类可读、AI 可解析
知识语料包	经脱敏的精选文本	用于 fine-tune 或 RAG 的参考数据
数字分身 API	REST/WebSocket	封装后的查询接口，供第三方调用

技术部署路径

本地 Obsidian Vault │ ├── 路径 A：Claude Code Skills 生态 │ └── 发布为公开 Skill → 其他 Claude Code 用户可直接加载 │ ├── 路径 B：数字分身社区平台 │ └── 打包 Skills + Wiki → API 封装 → 社区平台托管 │ └── 路径 C：独立部署 └── Wiki Markdown + Skills 定义 → 自建 API → 任意 LLM 后端

Section 07

关键原则与注意事项

Karpathy 四大数据主权原则

原则	本方案的实现
显式（Explicit）	所有知识在 Obsidian Markdown 中可见可编辑，不是向量黑箱
你的（Yours）	数据存在本地 Vault，不经任何第三方 AI 厂商中转存储
File over App	纯 Markdown + YAML，换什么工具都能读写
BYOAI	Claude Code 是当前引擎，但架构不绑定——换 Codex/Gemini/开源模型均可

隐私与安全红线

⛔ Raw 层数据绝不上云：微信聊天记录、个人邮件、私人录音留在本地

✅ Wiki 层可选择性发布：编译后的结构化知识页面，经脱敏后可以公开

🔐 分层授权：不同的人看到不同的分身深度——公开版 / 群组版 / 私密版

你的数字分身是你的延伸，不是你本人。它应该诚实地标注为「AI 辅助构建的数字分身」，而非冒充本人。在商业场景中（如付费咨询），应明确告知对方正在与数字分身交互。

Section 08

附录：工具清单速查

工具	用途	状态
Claude Code	AI 智能体引擎，维护 Wiki + 蒸馏 Skill	✅ 已配置
聆犀AI录音卡	录音采集硬件	✅ 已有
SonicNoteAsr	Obsidian 插件，ASR 转写 + LLM 总结	✅ 已开发
火山引擎 ASR	语音转文字	✅ 已接入
wx-cli	微信数据导出	🔧 可用
qmailmanager726	QQ邮箱管理	✅ 已配置
huashu-nuwa（女娲）	从数据蒸馏人物 Skill	✅ 可用
claude-mem	跨会话记忆注入	✅ 已配置
Obsidian	知识中枢 + Vault	✅ 主工作环境
Zotero + 桥接	文献管理 → 笔记	🔧 已配置

核心理念：你的数字分身是一个「编译型」知识系统

不是聊天机器人，是「你的第二大脑」

三层架构：Raw → Wiki → Skills

数据采集层：五条管道全面接入

管道全景

管道一：AI 录音卡 — 声音→文字→知识

工作流

管道二：微信数据 — 社交关系→能力圈→人脉图谱

管道三：邮件数据 — 正式沟通→项目脉络→承诺追踪

管道四：学习资料 — 书本/论文/课程→知识卡片

知识编译层：Karpathy Wiki 架构落地

Obsidian Vault 目录结构

四大核心操作

CLAUDE.md 规则层

智能蒸馏层：用女娲（Nuwa）Skills 构建思维模型

女娲造人：从「你」的数据中蒸馏一个「你」

蒸馏输出结构

全链路工作流：从今天开始的实操指南

第一阶段：基建（第 1-2 周）

第二阶段：播种（第 3-4 周）

第三阶段：蒸馏（第 5-6 周）

第四阶段：闭环（第 7-8 周）

部署与发布：从本地到社区平台

可部署产物清单

技术部署路径

关键原则与注意事项

Karpathy 四大数据主权原则

隐私与安全红线

附录：工具清单速查

演变路线图