爬站很正常,通过tor爬就不正常,显然是为了隐藏自己。
被我这边封锁之后,先是调整了爬虫的参数,后来换了好几次爬虫程序,都被我一次又一次封锁。
搜索引擎会从公网爬,不会从tor爬,更不会因为爬不动而换爬虫程序,所以对方是想干嘛我清楚得很。
现在只有公网对爬虫开放,自带限速。tor端遇到爬虫是直接封杀。具体技术细节不说了,代码是开源的,有兴趣可以自己看。
爬站很正常,通过tor爬就不正常,显然是为了隐藏自己。
被我这边封锁之后,先是调整了爬虫的参数,后来换了好几次爬虫程序,都被我一次又一次封锁。
搜索引擎会从公网爬,不会从tor爬,更不会因为爬不动而换爬虫程序,所以对方是想干嘛我清楚得很。
现在只有公网对爬虫开放,自带限速。tor端遇到爬虫是直接封杀。具体技术细节不说了,代码是开源的,有兴趣可以自己看。
瑤瑤不解,爲什麼搜索爬蟲會在暗網?
我只知道爬蟲是一種搜索引擎找網站用的工具,暗網不是要用“黃頁”那種東西的嗎,爲什麼有爬蟲?
为什么爬站就一定是匪共的人,站长不就是靠别人爬虫的数据恢复了 2049bbs 的大部分内容的吗?
比起下流事做尽的共匪,我认为正常人更需要隱藏自己,不过爬虫完全可以用免费的 CI 服务
既然备份都可以下载,那么站长将之前的备份都删除,只留最新版本的意义是什么? 如果是出于删帖隐私保护的考量,匿名网站做好隐私保护应该是用户自己的事
处理用户数据的理念不同,站长请见谅
如果我是爬虫者,如何确保数据库备份的质量和频率稳定?
隔壁新品葱自从小二出事后,https://gitlab.com/pin-cong/data 的每周数据备份就没了
主要我不是做web的,很多東西不懂。。。
https://github.com/thphd/2047/blob/master/main.py def before_request(): 這個是過濾爬蟲的代碼
其實它降低爬蟲頻率就可以了。。。 或者,隨機生成UA string也行。。。
可以試試,http的重定向,把爬蟲重定向到中共的外交部網站。。。
tor 上爬虫对于服务器的实际影响有多少(如果还远不到 DoS 的级别),为什么站长要费心防爬?