文章
技术

集成式网页存档工具包:Wayback

Wayback 是一个强大的跨平台网页存档工具包,可以将源网页同时备份至 Internet Archivearchive.todayTelegraphIPFS,并将源网页生成的长截图、PDF 及其他文件上传到匿名网盘 AnonFilesCatbox

1 使用方法

1.1 使用公共实例

Wayback 提供了公共实例 https://wabarc.eu.orghttps://initium.eu.org/。(https://github.com/wabarc/statushttps://wabarcstatus.eu.org/ 可以查看公共示例的在线状态)

打开实例网站,在文本框内输入需要存档的源网页链接,完成后点击存档按钮即可。

Wayback 会自动将存档结果作为一条 Issue 添加到 GitHub 仓库 dropod/issues 的 Issue 区(这点类似于之前的 duty-machine)。效果图如下:

建议仅将 dropod/issues 当成信息的中转站,存档完成后及时取回结果另行保存或二次发布。

GitHub Issues 里的信息未经分类整理,鱼龙混杂,并不适合作为备份网页信息的获取来源。目前 Issues 区里混入了一些并无备份必要的中新网、新华网、人民网等红专网页,有五毛恶意灌水捣乱之嫌。GitHub Issues 也不适合作为稳定可靠的信息发布渠道,不排除之后有五毛/网军重施对付 duty-machine 的故技——提交带有违反 GitHub 平台条款内容的 issue 后向平台举报,致开发者被封号。参见:2047|duty-machine-bot:duty-machine项目被Github移除的状况和news项目新地址 , /t/11592

1.2 使用 Telegram bot

Telegram Bot https://t.me/wabarc_bot (由 @libgen 补充)

1.3 下载至本地使用

参考 Wayback 的 README.md 中的安装和使用说明,下载安装 Wayback 后将其作为命令行工具使用(类似 archivenow

1.4 在线部署使用

Wayback 可被部署到 GitHub 和 Heroku 上,参见:

2 使用场景

  • 将存档结果推送至 Telegram channel、Mastodon 或 GitHub Issues
  • 作为后台留驻服务与 IRC、Martix、Telegram bot、Discord bot、Mastodon 和 Twitter 交互
  • 作为 Tor 隐藏服务(Tor Hidden Service)运行

Telegram Bot Discord Bot Matrix Bot Matrix Room Tor Hidden Service World Wide Web

(由 @libgen 补充)


开发者的推特:Wayback Archiver(由 @libgen 补充)


本人对该项目的了解较为有限,感兴趣且有能力的7友可以自行探索 Wayback 的更多功能和用法。

菜单
  1. 狼狼醬 耶渣
    狼狼醬   私信可以,但我保留你亂罵的時候公開私信的權利。不算好的基督徒,深信左右都是膠的港獨。

    (十分感謝,可是下戴zip之後找不到.exe就不知怎麼辦了……)

  2. libgen 图书馆革命
    libgen   天堂应该是图书馆的模样。一个阅读诗歌的人要比不读诗歌的人更难被战胜。创造是一种拯救。创造拯救了创造者本身。

    非常好的项目。据我所知,作者应该是受端点星事件的触动而开发的,早前TA的 Twitter 个人说明里有声援端点星,近期也转载了他们出狱的消息。

    Telegram Bot 是最方便的:https://t.me/wabarc_bot

    另:https://te.legra.ph 没有被墙。

  3. 邹韬奋 外逃贪官CA
    邹韬奋   虽然韬光养晦,亦当奋起而争(拜登永不为奴:h.2047.one)

    @Wolfychan #157333 要安装Golang解释器吧。这玩意和python类似都是脚本代码,本身不能run。

  4. Antony  

    wabarc.eu.org: Application error

  5. libgen 图书馆革命
    libgen   天堂应该是图书馆的模样。一个阅读诗歌的人要比不读诗歌的人更难被战胜。创造是一种拯救。创造拯救了创造者本身。

    下面是各种使用场景:

    Telegram Bot Discord Bot Matrix Bot Matrix Room Tor Hidden Service World Wide Web

  6. Antony  

    不能自动存到 archive.today 有点遗憾

  7. Antony  
  8. libgen 图书馆革命
    libgen   天堂应该是图书馆的模样。一个阅读诗歌的人要比不读诗歌的人更难被战胜。创造是一种拯救。创造拯救了创造者本身。
  9. Antony  

    中央社的网页标题识别错误, https://www.cna.com.tw/news/firstnews/202109230388.aspx 是“英警告維權人士 避免前往與中國有引渡協議國家 | 國際 | 重點新聞 | 中央社 CNA”,却识别为“香港支聯會走入歷史 16日晚移除電子平台訊息 | 兩岸 | 重點新聞 | 中央社 CNA”。

  10. Antony  

    @libgen #170990 我试过了,的确不会自动存到archive.today,需打开archive.today网站手动存一下。

  11. libgen 图书馆革命
    libgen   天堂应该是图书馆的模样。一个阅读诗歌的人要比不读诗歌的人更难被战胜。创造是一种拯救。创造拯救了创造者本身。

    @Antony #171018 谢谢提醒,我比较常用互联网档案馆,因为有不同的时间戳。