本仓库同时包含两大部分:
- 备份工具代码(可复用抓取任意公众号已发文)
- 已完整备份的个人公众号《文不加点的张衔瑜》全文语料(可直接阅读、研究与再训练)
- 文章总目录(编年排序,含年度字数/图片合计、全局编号):
Wechat-Backup/文不加点的张衔瑜/目录.md
- 主题合集(按主题分类,含专题下的文章详情和格式规范):
Wechat-Backup/文不加点的张衔瑜/合集.md
- 语料主目录(含全部文章的 HTML/MD/images/meta):
Wechat-Backup/文不加点的张衔瑜/
🎯 本工具专为《文不加点的张衔瑜》个人公众号设计
- 定位:个人日记型公众号,记录日常生活、旅行见闻、思想火花与社会观察。
- 时间跨度与规模:累计八年写作,已备份八十万字、近四百篇图文(见
Wechat-Backup/
)。 - 学术与兴趣背景:哲学博士,关注与涉猎 AI、计算化学、生物医药、周易等领域,探索科技与哲学的边界(已在公众号完成个人职业兴趣认证)。
- 组织方式:按年份/日期自动归档;每篇含
HTML
、Markdown
、images/
与meta.json
,便于阅读、复用与研究。 - 使用目的:为自我存档、长期复盘、社会现场的自反式研究,以及后续的语料分析与个性化对话模型提供高质量素材。
- 备份工具代码:
- 脚本入口:
script/wx_publish_backup.py
- 配置示例:
env.json.EXAMPLE
(复制为env.json
后填写) - 文档:
script/README.md
、docs/TROUBLESHOOTING.md
- 脚本入口:
- 已备份语料(可直接阅读/研究/再训练):
- 主目录:
Wechat-Backup/文不加点的张衔瑜/
- 编年目录:
Wechat-Backup/文不加点的张衔瑜/目录.md
(按时间顺序) - 主题合集:
Wechat-Backup/文不加点的张衔瑜/合集.md
(按主题分类)
- 主目录:
原本计划通过官方渠道进行备份,于是我自己写作了 @xianyu564/wechat_official_backup 项目。
然而,微信官方在 2025年7月 停用了关键的 freepublishGetarticle
接口(/cgi-bin/freepublish/getarticle
),
这个时间点恰好比我开始备份的想法早了一个月。
git clone https://github.com/xianyu564/scrape-my-wechat-official-account.git
cd scrape-my-wechat-official-account
pip install -r requirements.txt
复制 env.json.EXAMPLE
为 env.json
,填写配置信息
cd script
python wx_publish_backup.py
面向想直接复用本工具的开发者:不改代码,配置好
env.json
即可跑通。
- 复制示例配置:
- 将项目根目录下的
env.json.EXAMPLE
复制为env.json
- 至少填写三项:
- 将项目根目录下的
{
"WECHAT_ACCOUNT_NAME": "你的公众号名称",
"COOKIE": "从浏览器开发者工具复制的Cookie",
"TOKEN": "发表记录页URL中的token值"
}
- 运行(任选其一):
- Windows PowerShell
py -3 script\wx_publish_backup.py
- macOS / Linux(终端)
python3 script/wx_publish_backup.py
- 输出位置:
- 文章会按年份落到
Wechat-Backup/<你的公众号名称>/YYYY/
下 - 每篇文章目录包含:
*.html
、*.md
、meta.json
、images/
- 文章会按年份落到
- 403 或“预检失败”:Cookie/Token 过期 → 重新抓取
- HTML 打开空白:用
python -m http.server
启动本地静态服务器后访问 - 速度过快被限流:适当调大
SLEEP_LIST
/SLEEP_ART
/IMG_SLEEP
pip install -r requirements.txt
说明:依赖详解见
requirements.txt
。
- 复制
env.json.EXAMPLE
为env.json
- 最少填写:
WECHAT_ACCOUNT_NAME
、COOKIE
、TOKEN
- 可选调整:
COUNT
、SLEEP_LIST
、SLEEP_ART
等速率参数
详细的 Cookie/Token 获取操作与截图:见
script/README.md
的“获取 Cookie 与 Token(简版)”。 完整参数说明与最佳实践:见docs/TROUBLESHOOTING.md
与script/README.md
。
cd script
python wx_publish_backup.py
备份文件将保存在 Wechat-Backup/<微信公众号名称>/
目录下:
Wechat-Backup/<微信公众号名称>/
├── 2025/
│ ├── 2025-08-26_文章标题1/
│ │ ├── 2025-08-26_文章标题1.html # 可双击离线打开
│ │ ├── 2025-08-26_文章标题1.md # 外链保留,适合 GitHub/Obsidian
│ │ ├── meta.json
│ │ └── images/
│ └── ...
└── _state.json # 已抓取链接指纹,供断点续传
- 主目录:
Wechat-Backup/文不加点的张衔瑜/
- 编年目录:
Wechat-Backup/文不加点的张衔瑜/目录.md
(按时间顺序浏览) - 主题合集:
Wechat-Backup/文不加点的张衔瑜/合集.md
(按主题分类浏览)
每篇文章目录包含:
*.html
、*.md
、meta.json
、images/
。编年目录提供年度字数/图片合计与全局编号;主题合集按年份与类别重新组织,便于主题式阅读。
本项目现已具备学术会议标准的语料分析系统,提供:
- 🎨 高质量词云生成: 覆盖2017-2025全年份,支持中文显示,备份于
.github/assets/wordclouds/
- 📈 科学级语言学分析: Zipf定律、Heaps定律、TF-IDF、词汇多样性等指标
- 🔤 智能分词与N-gram: 支持中英混合文本,可变长度n-gram分析
- 📋 自动化报告: 完整的数据驱动分析报告生成
- 🎓 学术标准: 符合WWW/SIGIR/ICWSM等顶级会议要求的性能基准测试与质量评估
快速开始分析:
cd analysis/
python main.py # 完整分析 + 可视化
学术级功能:
# 性能基准测试 (符合学术会议标准)
python analysis/benchmark_wordcloud.py
# 高级可视化 (多种学术配色方案)
python analysis/enhanced_wordcloud_viz.py
# 质量评估 (自动学术标准评分)
python analysis/evaluation_metrics.py
自定义词云生成:
# 特定时间段 (如 2020.08-2024.12)
python analysis/generate_wordclouds.py --start-date 2020-08-01 --end-date 2024-12-31
# 特定年份
python analysis/generate_wordclouds.py --years 2020,2021,2022,2023,2024
详细文档:analysis/README.md
| analysis/WORDCLOUD_GUIDE.md
- 从这里开始:
Wechat-Backup/文不加点的张衔瑜/目录.md
(编年浏览)或合集.md
(主题浏览) - 研究路线建议:见
docs/FUTURE_VISION.md
(“先获得感 → 认知/成长挖掘 → 语义检索/RAG → 个性化模型”) - 管理与进展:见
STATUS.md
(阶段性目标与完成度)
提示:若你希望进行词频/主题/年度分析,建议以
*.md
作为语料输入;若做版式与图片回看,使用*.html
更直观。
我们欢迎所有形式的贡献!请查看 贡献指南 了解如何参与项目开发。
- 🐛 报告Bug
- 💡 提出新功能建议
- 📝 改进文档
- 🔧 提交代码修复
- 🌟 给项目点星
本项目采用 贡献者公约 作为行为准则。我们致力于为每个人创造友好、包容的环境。
如果您发现了安全漏洞,请查看 安全政策 了解如何私下报告。
重要:请不要在公开渠道中报告安全漏洞。
本项目采用双重许可证:
- 代码: MIT License - 允许自由使用、修改和分发代码
- 内容: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International - 允许非商业用途的分享和改编
env.json
包含敏感信息,已添加到.gitignore
- 建议设置合理的抓取间隔,避免被限制访问
- 备份目录会自动创建,无需手动创建
- 请遵守微信公众平台的使用条款
- 版本: 1.1.0
- 状态: 活跃维护
- Python版本: 3.9+
本项目不仅是一个备份工具,更是个人知识资产的基础设施。基于仓库内已备份的八十万字、近四百篇个人文章,我们规划了以下发展方向:
- 利用个人写作风格和知识结构训练专属AI助手
- 保持与作者一致的表达方式和思维模式
- 传承个人在AI、计算化学、生物医药、周易等领域的知识
- 词频分析和写作风格研究
- 主题演化追踪和知识图谱构建
- 为内容创作和学术研究提供数据支持
💡 了解更多:详细的项目展望请查看 STATUS.md
🧭 同时建议阅读研究计划:FUTURE_VISION.md。该计划以“先获得感(词频/年度/主题)→ 认知与成长挖掘(人物/地点/情绪/价值观)→ 语义检索/RAG → 个性化模型”的顺序推进,并强调“自反式个人社会现场研究”和“兴趣导向的任务编排”。
遇到“预检失败/403、空白HTML、限速、断点续传”等问题,请参考:
docs/TROUBLESHOOTING.md
(完整指南)script/README.md
(平台命令对照与错误恢复速查)
- 含空格/括号/特殊字符的路径已在目录中做 URL 编码处理(如空格→
%20
,(
→%28
)。 - 本地直接打开 HTML 可能受浏览器策略限制,建议用
python -m http.server
启动静态服务器后访问。 - Windows 路径大小写与编码请遵循仓库现状,避免自行改名导致链接失效。
如果您需要帮助:
凡没有把我杀死的,都没有把我杀死。