文章
公告通知

关于2049bbs数据备份的一些备忘

thphd  ·  2020年8月27日 2047前站长

本站的旧帖子是从 2049bbs在github上的备份中还原而来的 https://github.com/2049bbs/2049bbs.github.io

这个备份并不是数据库备份,而是直接对页面内容进行了爬取,并整理为了yaml格式。

数据并非增量爬取,而是全站爬取,而且是每20分钟爬取一次。每次爬取后的yaml会commit并push到github上。

当2049删除或折叠楼的时候,爬虫会忽略掉这一楼,导致楼号错乱(更严重的是时间戳也会错乱),对此我站表示十分遗憾。

由于git会保留所有版本,因此从这些数据中,通过对比先后版本,理论上可以还原出被删除的帖子、评论 和 楼层,时间戳也可以修复。当然,前提是在两次备份之间创建的内容不能在第二次备份之前被删除。

我站决定对该备份repo进行数据清洗,清洗完毕的帖楼数据会择日合并到2047数据库中。

清洗过程将会消耗几天时间。

清洗可能会导致一些被删号的用户发表的内容重新见光。若原用户希望移除这些内容,请直接联系站长。

菜单
  1. thphd   2047前站长

    由于上述原因,请诸位暂时不要回复7月以前的帖子,管理员暂时不要移动7月以前的帖子。