@hello_chris
@hello_chris
关注的小组(2)
动态 帖子 3 评论 23 短评 0 收到的赞 0 送出的赞 0
  1. hello_chris   在小组 2049BBS 发表文章

    请问群主有把腾讯大家的微信文章备份么

    如题,突然全部被屏蔽

  2. hello_chris   在小组 2049BBS 发表文章

    建议开辟一个板块专门号召大家收集整理这次武汉肺炎相关被删除的报道等

    虽然由 Github 这一个可以协作的平台,但因为其为程序员设计,导致交互体验让非程序员望而却步。提高了协作参与的门槛,但 2049 作为一个社区,除了不能上传附件外,交互较为顺畅。

    若能开辟一个板块号召大家收集整理资料,记录下这次事件中哪怕非常弱小的声音,也是非常有意义的一件事。

    另外,本人一直在做的项目,将页面生成 markdown 文档,通过 github api 及 gohugo 等静态页面生成器将网页备存保存,可参照“品葱精选”,https://github.com/Project-Gutenberg/Pincong https://project-gutenberg.github.io/Pincong/ 备份内容的同时,让墙内用户也可顺利访问。

  3. hello_chris   在小组 2049BBS 发表文章

    本人开发的全站爬虫\网站备份工具

    本项目的缘起是由于查询 文化大革命时期 中使用到的大字报及官方通告等宣传物料,于是通过 Google 发现 https://ccradb.appspot.com/ 和 无产阶级图书馆 分别提供全文阅览及光盘版下载,但考虑到第一个站 appspot 已被 GFW 认证,而第二个站则需要 Windows 操作系统(本人Macos),使用和查询并不方便,于是想到了将其全站下载并开放在 Github 方便其他人查询使用。

    因此诞生了本项目,如果熟悉 Python 和 Scrapy,写一个爬虫,只需要十几行代码,耗时半小时到若干小时不等,再配合 Gohugo 等静态网站生成器,可以很方便的利用 Github Pages 生成一个全新的没有被 GFW 认证的网站。

    https://github.com/speechfree/wholesite-crawler

    通过此工具爬取的整站目前有如下几个:

    1. ccradb 中国文化大革命文库 https://speechfree.github.io/cultural-revolution-database/
    2. xys 新语丝 https://speechfree.github.io/xys/
    3. letscorp 墙外楼 https://speechfree.github.io/letscorp/

    欢迎各位添加新的爬虫