本项目的缘起是由于查询 文化大革命时期 中使用到的大字报及官方通告等宣传物料,于是通过 Google 发现 https://ccradb.appspot.com/ 和 无产阶级图书馆 分别提供全文阅览及光盘版下载,但考虑到第一个站 appspot 已被 GFW 认证,而第二个站则需要 Windows 操作系统(本人Macos),使用和查询并不方便,于是想到了将其全站下载并开放在 Github 方便其他人查询使用。
因此诞生了本项目,如果熟悉 Python 和 Scrapy,写一个爬虫,只需要十几行代码,耗时半小时到若干小时不等,再配合 Gohugo 等静态网站生成器,可以很方便的利用 Github Pages 生成一个全新的没有被 GFW 认证的网站。
https://github.com/speechfree/wholesite-crawler
通过此工具爬取的整站目前有如下几个:
- ccradb 中国文化大革命文库 https://speechfree.github.io/cultural-revolution-database/
- xys 新语丝 https://speechfree.github.io/xys/
- letscorp 墙外楼 https://speechfree.github.io/letscorp/
欢迎各位添加新的爬虫