当局已经放弃通过Tor爬取本站

thphd · 2020年9月14日 2047前站长

爬站很正常，通过tor爬就不正常，显然是为了隐藏自己。

被我这边封锁之后，先是调整了爬虫的参数，后来换了好几次爬虫程序，都被我一次又一次封锁。

搜索引擎会从公网爬，不会从tor爬，更不会因为爬不动而换爬虫程序，所以对方是想干嘛我清楚得很。

现在只有公网对爬虫开放，自带限速。tor端遇到爬虫是直接封杀。具体技术细节不说了，代码是开源的，有兴趣可以自己看。

小朋友

琳不可瑤混你們可不能混瑤哦！

瑤瑤不解，爲什麼搜索爬蟲會在暗網？

我只知道爬蟲是一種搜索引擎找網站用的工具，暗網不是要用“黃頁”那種東西的嗎，爲什麼有爬蟲？

2020年9月14日 /p/36496

菜单
thphd 2047前站长

@愛牛奶盒的人 #13438835 凡是自动化抓取网页的工具都叫爬虫，英文叫spider/crawler/bot，爬虫不一定是为搜索引擎服务，如果一个人想要复制别人的网站内容，也可能使用爬虫

2020年9月14日 /p/36497

菜单
抵抗者运动

习猪习抵抗者运动

为什么爬站就一定是匪共的人，站长不就是靠别人爬虫的数据恢复了 2049bbs 的大部分内容的吗？

2020年9月14日 /p/36507

菜单
thphd 2047前站长
@习猪习 #13502561 有本质区别的
- 别人爬2049是因为2049没有数据库备份，所以只能爬
- 别人爬2049，小二是默许的
- 爬2049的数据是公开到github上的
- 而2047有备份，所以没必要爬
- 爬没必要通过tor来爬
- 爬之前可以打个招呼
- 我在2047也不是第一次提这个事情，对方不搭理还变本加厉
2020年9月14日 /p/36508

菜单
抵抗者运动

习猪习抵抗者运动

比起下流事做尽的共匪，我认为正常人更需要隱藏自己，不过爬虫完全可以用免费的 CI 服务

2020年9月14日 /p/36509

菜单
抵抗者运动

习猪习抵抗者运动

@thphd #13503668 希望站长可以将备份频率提高一些，丢失一天的数据对于用户来说都是损失

2020年9月14日 /p/36510

菜单
抵抗者运动

习猪习抵抗者运动

既然备份都可以下载，那么站长将之前的备份都删除，只留最新版本的意义是什么？如果是出于删帖隐私保护的考量，匿名网站做好隐私保护应该是用户自己的事

2020年9月14日 /p/36511

菜单
抵抗者运动

习猪习抵抗者运动

处理用户数据的理念不同，站长请见谅

2020年9月14日 /p/36513

菜单
抵抗者运动

习猪习抵抗者运动

如果我是爬虫者，如何确保数据库备份的质量和频率稳定？
隔壁新品葱自从小二出事后，https://gitlab.com/pin-cong/data 的每周数据备份就没了

2020年9月14日 /p/36514

菜单
thphd 2047前站长

@习猪习 #13513874 品葱自己怂，没办法。他们现在的做法会招来不必要的爬虫。

2020年9月14日 /p/36516

菜单
白脸角鸮加帕里公园原政府前总理，加帕里图书馆馆长

@习猪习 #13509367 确实，这点有点让我生疑，毕竟之前的品葱曾经爆出过蒹葭苍苍事件，我赞同你的观点。

2020年9月15日 /p/36522

菜单
沉默的广场

@习猪习 #13513874 品葱帖子备份从2020年2月10号之后就不再更新了。原因似乎是有人注册了pincong.net，站长为了防止盗版，干脆不发布帖子备份。

直到4月20号之前，品葱备份里的用户数据还在更新，导入SQL数据可以看到users表。小二出事之后，品葱备份就彻底停更了

2020年9月15日 /p/36560

菜单
抵抗者运动

习猪习抵抗者运动

@沉默的广场 #13657387 感谢详细解释。这也太小心眼了吧

2020年9月15日 /p/36564

菜单
图书管理员

霏艺Faye 图书管理员

主要我不是做web的，很多東西不懂。。。

https://github.com/thphd/2047/blob/master/main.py def before_request(): 這個是過濾爬蟲的代碼

其實它降低爬蟲頻率就可以了。。。或者，隨機生成UA string也行。。。

可以試試，http的重定向，把爬蟲重定向到中共的外交部網站。。。

2020年9月15日 /p/36616

菜单
thphd 2047前站长

@霏艺Faye #13860023 最开始做了UA计数器，后来这帮孙子换了Tor Browser的UA，导致其他Tor用户被封锁

所以后来换了其他方式检测爬虫，现在一直正常没出什么问题。爬虫还是可以通过tor爬，只是速度限制到非常低

2020年9月15日 /p/36617

菜单
穿鞋的企鹅

@thphd #13864835 有备份他们还是要自己用爬虫，大概是备份不能保证不漏掉什么，而且显得自己很懒；而爬虫至少在写报告的时候可以显示自己尽力了，可以顺利交差。

2020年9月15日 /p/36622

菜单
抵抗者运动

习猪习抵抗者运动

@thphd #13864835 如果对方用的是 headless 的 Tor Browser ，怎么检测？

2020年9月16日 /p/36666

菜单
抵抗者运动

习猪习抵抗者运动

tor 上爬虫对于服务器的实际影响有多少（如果还远不到 DoS 的级别），为什么站长要费心防爬？

2020年9月16日 /p/36667

菜单
thphd 2047前站长

@习猪习 #14035248 已经查出来了，爬虫的真实控制者就是习猪习

2020年9月16日 /p/36686

菜单
抵抗者运动

习猪习抵抗者运动

@thphd #14093250 还真不是

2020年9月16日 /p/36705

菜单