华科EMBA / 数字分身方法论
Personal Digital Twin Blueprint
◆ Digital Twin Blueprint ◆

构建个人本地数字分身

从数据采集到知识库 & Skills 的完整方法论
融合 Karpathy LLM Wiki + 女娲人物 Skill 蒸馏 + Claude Code 智能体引擎

📅 2026-07-01 🏷️ AI数字分身 📂 方法论 / 本地部署 🔖 Personal Digital Twin
Section 01

核心理念:你的数字分身是一个「编译型」知识系统

不是聊天机器人,是「你的第二大脑」

传统数字分身 ≈ 一个模仿你风格的聊天机器人。我们做的不一样:

数字分身 = 你的知识库(Wiki)+ 你的思维模型(Skills)+ 你的数据资产(Raw)→ LLM 驱动的智能体

Karpathy 的核心洞察:不要每次让 AI"检索"你的文档,而是让 AI 先把你的数据"编译"成一个结构化的 Wiki,然后持续维护它。

🔬 传统 RAG:用户提问 → 向量检索 → 拼凑片段 → 回答(无记忆、无成长)

本方案:原始数据 → LLM 编译 → 结构化 Wiki → 级联更新 → 越用越聪明

三层架构:Raw → Wiki → Skills

目录比喻说明
Raw(原始层)录音笔记/、微信笔记/、学习笔记/、邮件/源代码不可变原始素材,按来源和时间归档
Wiki(知识层)经 LLM 编译的结构化知识页面编译产物实体页、概念页、索引页、日志页
Skills(智能层)Skills + CLAUDE.md可执行程序基于 Wiki 蒸馏出的思维模型和决策框架
Section 02

数据采集层:五条管道全面接入

管道全景

管道全景架构图

▲ 管道全景架构图 — 录音 · 社交 · 学习三大管道汇聚于 Claude Code 引擎(AI 生成)

管道一:AI 录音卡 — 声音→文字→知识

工具链:聆犀AI录音卡 → SonicNoteAsr Obsidian 插件 → 火山引擎 ASR → 录音笔记/

场景采集内容产出物
🏫 课堂教授授课、课堂讨论、Q&A章节摘要 + 知识点卡片 + 待深入问题
🤝 会议商业讨论、战略会议、项目复盘决策记录 + 行动项 + 分歧点标注
🎤 演讲/活动行业分享、圆桌讨论关键观点提取 + 演讲者思维框架
💭 自言自语个人思考、灵感碎片想法卡片 → 后续发酵

工作流

录音 → AI录音卡自动采集,上传至云端
转写 → SonicNoteAsr 插件触发 ASR,生成逐字稿 + 说话人标注
LLM 总结 → Claude 按模板生成结构化笔记
入库 → 自动写入 录音笔记/ 目录,Markdown 格式

# 录音笔记/2026-07-01-华科EMBA战略管理课程.md date: 2026-07-01 source: 录音 course: 华科EMBA-战略管理 speakers: [张教授, 学员A, 学员B] duration: 120min tags: [战略管理, 课堂, EMBA] status: 已总结

管道二:微信数据 — 社交关系→能力圈→人脉图谱

工具链:wx-cli / wechat-exporter → 微信笔记/ → Claude Code 分析

💬
聊天记录
思维方式、决策过程、社交网络的实时日志
🔄
朋友圈
兴趣圈层、信息消费习惯
👥
群聊
专业领域、协作模式

💡 关键原则:微信数据不进 Wiki,只从中提取「永久价值」——观点、决策、关系、承诺。原始聊天记录留在 Raw 层。

管道三:邮件数据 — 正式沟通→项目脉络→承诺追踪

工具链:qmailmanager726 / agently-mail / tencent-exmail

提取维度说明
项目时间线从邮件往来重建项目关键节点
承诺与交付你答应了什么、什么时候交付、交付了没有
关键联系人高频邮件联系人的角色、关系、历史
正式决策合同、报价、确认函中的关键条款

管道四:学习资料 — 书本/论文/课程→知识卡片

工具链:手动笔记 + Claude Code 辅助整理 + Zotero 桥接

深化策略:Zotero 文献 → Claude Code Zotero 桥接 → 自动生成文献笔记;课程录像 → AI录音卡 → ASR 转写 → 知识卡片;实践项目 → 项目复盘 → 经验提炼 → 方法论沉淀。

Section 03

知识编译层:Karpathy Wiki 架构落地

Obsidian Vault 目录结构

Obsidian Vault/ │ ├── 录音笔记/ ← Raw:不可变原始素材 ├── 微信笔记/ ← Raw:微信数据(按日期) ├── 学习笔记/ ← Raw:学习素材 ├── 工作笔记/ ← Raw/混合:项目相关 │ ├── Wiki/ ← 🆕 编译后的知识层(核心新建) │ ├── index.md ← 全局导航索引(自动维护) │ ├── log.md ← 操作日志(append-only) │ ├── entities/ ← 实体页面(人、组织、产品、项目) │ ├── concepts/ ← 概念页面(理论、框架、方法论) │ ├── decisions/ ← 决策日志(关键决策+理由+结果) │ ├── projects/ ← 项目页面(当前+历史) │ └── queries/ ← 常问问题(自然语言→答案,持续回填) │ ├── Skills/ ← 🆕 可执行智能层(核心新建) │ ├── profile.md ← 个人能力画像 │ ├── thinking.md ← 思维模型与决策框架 │ ├── style.md ← 表达风格 DNA │ └── knowledge.md ← 专业知识域地图 │ ├── CLAUDE.md ← 规则层:告诉 Claude Code 如何维护 └── .claude/ ← Claude Code 配置

四大核心操作

📥
Ingest(摄入)
读取新素材 → 判断合并/新建 → 分布式写入 → 级联更新 → 冲突标注 → 追加日志
🔍
Query(查询)
定位 Wiki 页面 → 遍历实体/概念/决策 → 综合回答 → 引用来源 → 自动回填 Q&A
📚
Archive(回填)
高频查询 → 自动升级为正式 Wiki 页面。系统「越用越聪明」的关键机制
🩺
Lint(健康检查)
修复断链 → 报告孤立页面 → 标记过期内容 → 检查 index.md 一致性

CLAUDE.md 规则层

在 Vault 根目录的 CLAUDE.md 中定义系统规则——角色定义、目录约定、Ingest 规则、风格规则、安全规则。它是整个数字分身系统的「宪法」。

Section 04

智能蒸馏层:用女娲(Nuwa)Skills 构建思维模型

女娲造人:从「你」的数据中蒸馏一个「你」

女娲蒸馏流程图

▲ 女娲(Nuwa)核心蒸馏流程 — 从全量数据到可运行的人物 Skill(AI 生成)

蒸馏输出结构

模块内容
心智模型5-7 个核心思维模型(第一性原理、长期主义、系统思维…)
决策启发式8-10 条决策规则,每条标注数据来源(微信对话日期等)
表达 DNA语言风格、常用句式、说服模式
知识域地图深度区(专家级)、广度区(了解)、盲区(自知不知)
价值观排序如:诚实 > 效率、长期 > 短期
来源证据微信关键片段、录音关键表达、邮件决策模式(脱敏后)

💡 这里的结构与现有 Skill 生态一致。查看已有的 BuffettSteve JobsMao Zedong 等 Skills 的结构,女娲生成的个人 Skill 遵循相同的框架,可以无缝融入 Skill 生态。

Section 05

全链路工作流:从今天开始的实操指南

第一阶段:基建(第 1-2 周)

目标:搭好架子,让数据开始流动

#任务工具预计时间
1在 Obsidian Vault 中创建 Wiki/ 和 Skills/ 目录Obsidian10 分钟
2配置 CLAUDE.md 规则文件手动 + Claude Code30 分钟
3配置 AI 录音卡 + SonicNoteAsr 插件Obsidian 插件30 分钟
4验证录音→转写→入库全流程录音卡 + Claude Code1 小时
5配置微信数据管道(wx-cli)终端1 小时
6配置邮件管道qmailmanager72630 分钟
7建立每日数据采集习惯自律持续

第二阶段:播种(第 3-4 周)

持续 2 周的录音笔记积累 → 导出近 3 个月微信核心对话 → 首次 Ingest → 检查 Wiki 编译结果 → 手动补充修正。

第三阶段:蒸馏(第 5-6 周)

确保 Raw 层 50+ 篇素材 → 调用女娲 Skill 蒸馏 → 审查 → 测试对话 → 迭代 2-3 轮直到满意。

第四阶段:闭环(第 7-8 周)

建立周常 Ingest 例程 → 月常 Lint 健康检查 → Query → Archive 回填 → 打包 Skills + Wiki → 准备发布。

Section 06

部署与发布:从本地到社区平台

可部署产物清单

产物格式说明
个人 Skill.md + CLAUDE.md可在 Claude Code / Codex 中一键加载
知识库 WikiMarkdown 目录结构化的知识页面,人类可读、AI 可解析
知识语料包经脱敏的精选文本用于 fine-tune 或 RAG 的参考数据
数字分身 APIREST/WebSocket封装后的查询接口,供第三方调用

技术部署路径

本地 Obsidian Vault │ ├── 路径 A:Claude Code Skills 生态 │ └── 发布为公开 Skill → 其他 Claude Code 用户可直接加载 │ ├── 路径 B:数字分身社区平台 │ └── 打包 Skills + Wiki → API 封装 → 社区平台托管 │ └── 路径 C:独立部署 └── Wiki Markdown + Skills 定义 → 自建 API → 任意 LLM 后端
Section 07

关键原则与注意事项

Karpathy 四大数据主权原则

原则本方案的实现
显式(Explicit)所有知识在 Obsidian Markdown 中可见可编辑,不是向量黑箱
你的(Yours)数据存在本地 Vault,不经任何第三方 AI 厂商中转存储
File over App纯 Markdown + YAML,换什么工具都能读写
BYOAIClaude Code 是当前引擎,但架构不绑定——换 Codex/Gemini/开源模型均可

隐私与安全红线

Raw 层数据绝不上云:微信聊天记录、个人邮件、私人录音留在本地

Wiki 层可选择性发布:编译后的结构化知识页面,经脱敏后可以公开

🔐 分层授权:不同的人看到不同的分身深度——公开版 / 群组版 / 私密版

你的数字分身是你的延伸,不是你本人。它应该诚实地标注为「AI 辅助构建的数字分身」,而非冒充本人。在商业场景中(如付费咨询),应明确告知对方正在与数字分身交互。

Section 08

附录:工具清单速查

工具用途状态
Claude CodeAI 智能体引擎,维护 Wiki + 蒸馏 Skill✅ 已配置
聆犀AI录音卡录音采集硬件✅ 已有
SonicNoteAsrObsidian 插件,ASR 转写 + LLM 总结✅ 已开发
火山引擎 ASR语音转文字✅ 已接入
wx-cli微信数据导出🔧 可用
qmailmanager726QQ邮箱管理✅ 已配置
huashu-nuwa(女娲)从数据蒸馏人物 Skill✅ 可用
claude-mem跨会话记忆注入✅ 已配置
Obsidian知识中枢 + Vault✅ 主工作环境
Zotero + 桥接文献管理 → 笔记🔧 已配置
Section 09

演变路线图

Phase 1 · 当前
🌱 基础建设
本地数据采集
管道搭建完毕
Raw 层积累中
Phase 2 · 1个月后
🌿 Wiki 成型
50+ 知识页面
首次蒸馏运行
知识体系初现
Phase 3 · 3个月后
🌳 Skill v1.0
数字分身可对话
内部测试迭代
思维模型打磨
Phase 4 · 6个月后
🚀 平台发布
社区平台发布
知识付费变现
群组协作验证