文章
江湖

当局已经放弃通过Tor爬取本站

thphd  ·  2020年9月14日 2047前站长

爬站很正常,通过tor爬就不正常,显然是为了隐藏自己。

被我这边封锁之后,先是调整了爬虫的参数,后来换了好几次爬虫程序,都被我一次又一次封锁。

搜索引擎会从公网爬,不会从tor爬,更不会因为爬不动而换爬虫程序,所以对方是想干嘛我清楚得很。

现在只有公网对爬虫开放,自带限速。tor端遇到爬虫是直接封杀。具体技术细节不说了,代码是开源的,有兴趣可以自己看。

菜单
  1. 琳不可瑤混 小朋友
    琳不可瑤混   你們可不能混瑤哦!

    瑤瑤不解,爲什麼搜索爬蟲會在暗網?

    我只知道爬蟲是一種搜索引擎找網站用的工具,暗網不是要用“黃頁”那種東西的嗎,爲什麼有爬蟲?

  2. thphd   2047前站长

    @愛牛奶盒的人 #13438835 凡是自动化抓取网页的工具都叫爬虫,英文叫spider/crawler/bot,爬虫不一定是为搜索引擎服务,如果一个人想要复制别人的网站内容,也可能使用爬虫

  3. 习猪习 抵抗者运动
    习猪习   抵抗者运动

    为什么爬站就一定是匪共的人,站长不就是靠别人爬虫的数据恢复了 2049bbs 的大部分内容的吗?

  4. thphd   2047前站长

    @习猪习 #13502561 有本质区别的

    • 别人爬2049是因为2049没有数据库备份,所以只能爬

    • 别人爬2049,小二是默许的

    • 爬2049的数据是公开到github上的

    • 而2047有备份,所以没必要爬

    • 爬没必要通过tor来爬

    • 爬之前可以打个招呼

    • 我在2047也不是第一次提这个事情,对方不搭理还变本加厉

  5. 习猪习 抵抗者运动
    习猪习   抵抗者运动

    比起下流事做尽的共匪,我认为正常人更需要隱藏自己,不过爬虫完全可以用免费的 CI 服务

  6. 习猪习 抵抗者运动
    习猪习   抵抗者运动

    @thphd #13503668 希望站长可以将备份频率提高一些,丢失一天的数据对于用户来说都是损失

  7. 习猪习 抵抗者运动
    习猪习   抵抗者运动

    既然备份都可以下载,那么站长将之前的备份都删除,只留最新版本的意义是什么? 如果是出于删帖隐私保护的考量,匿名网站做好隐私保护应该是用户自己的事

  8. 习猪习 抵抗者运动
    习猪习   抵抗者运动

    处理用户数据的理念不同,站长请见谅

  9. 习猪习 抵抗者运动
    习猪习   抵抗者运动

    如果我是爬虫者,如何确保数据库备份的质量和频率稳定?
    隔壁新品葱自从小二出事后,https://gitlab.com/pin-cong/data 的每周数据备份就没了

  10. thphd   2047前站长

    @习猪习 #13513874 品葱自己怂,没办法。他们现在的做法会招来不必要的爬虫。

  11. 白脸角鸮   加帕里公园原政府前总理,加帕里图书馆馆长

    @习猪习 #13509367 确实,这点有点让我生疑,毕竟之前的品葱曾经爆出过蒹葭苍苍事件,我赞同你的观点。

  12. 沉默的广场  

    @习猪习 #13513874 品葱帖子备份从2020年2月10号之后就不再更新了。原因似乎是有人注册了pincong.net,站长为了防止盗版,干脆不发布帖子备份。

    直到4月20号之前,品葱备份里的用户数据还在更新,导入SQL数据可以看到users表。小二出事之后,品葱备份就彻底停更了

  13. 习猪习 抵抗者运动
    习猪习   抵抗者运动
  14. 霏艺Faye 图书管理员
    霏艺Faye   图书管理员

    主要我不是做web的,很多東西不懂。。。

    https://github.com/thphd/2047/blob/master/main.py def before_request(): 這個是過濾爬蟲的代碼

    其實它降低爬蟲頻率就可以了。。。 或者,隨機生成UA string也行。。。

    可以試試,http的重定向,把爬蟲重定向到中共的外交部網站。。。

  15. thphd   2047前站长

    @霏艺Faye #13860023 最开始做了UA计数器,后来这帮孙子换了Tor Browser的UA,导致其他Tor用户被封锁

    所以后来换了其他方式检测爬虫,现在一直正常没出什么问题。爬虫还是可以通过tor爬,只是速度限制到非常低

  16. 穿鞋的企鹅  

    @thphd #13864835 有备份他们还是要自己用爬虫,大概是备份不能保证不漏掉什么,而且显得自己很懒;而爬虫至少在写报告的时候可以显示自己尽力了,可以顺利交差。

  17. 习猪习 抵抗者运动
    习猪习   抵抗者运动

    @thphd #13864835 如果对方用的是 headless 的 Tor Browser ,怎么检测?

  18. 习猪习 抵抗者运动
    习猪习   抵抗者运动

    tor 上爬虫对于服务器的实际影响有多少(如果还远不到 DoS 的级别),为什么站长要费心防爬?

  19. thphd   2047前站长
  20. 习猪习 抵抗者运动
    习猪习   抵抗者运动