文章
观点

有没有现成的工具能够完整抓取微信公众号内容-含图片

小二  ·  2020年1月7日 默认开启批量屏蔽受限用户发言功能,可在设置中手动取消。

因为微信公众号的图片是延迟加载,只有出现在屏幕窗口时图片才会显示,导致 archive.org 等网站无法保存照片,貌似使用 Selenium 等工具可以实现模拟浏览,但懒癌还是想问问有没有现成的工具,可以解决这个图片滑动加载的问题。

菜单
  1. chinatimeline  

    国内版权保护很差,所以网站都专门设计这种延迟就是为了防止爬虫和搜索引擎。

    Chrome上有一可以将网页保存成PNG或PDF文件的插件,保存的内容就是浏览器里显示的网页内容。

    https://www.printfriendly.com/extensions/chrome

    https://chrome.google.com/webstore/detail/take-webpage-screenshots/mcbpblocgmgfnpjjppndjkmgjaogfceg

  2. auntsam  

    1,自己浏览时可以用userscript预加载图片

    setTimeout(function(){
        document.querySelectorAll("img.img_loading").forEach(i=>{
            i.classList.remove("rich_pages");
            i.src = i.dataset.src;
        })
    }, 500);
    

    2,archive.md支持公众号图片,但这站背景存疑

    3,本地备份可用SingleFile

    以上都是针对个人的,我没有类似ArchiveTeleBot的自动化需求

  3. 小二   默认开启批量屏蔽受限用户发言功能,可在设置中手动取消。

    @chinatimeline #1 这项技术是用来提高页面加载速度和节省流量的,反爬一般不在这上面做文章。

  4. 小二   默认开启批量屏蔽受限用户发言功能,可在设置中手动取消。

    @auntsam #2 archive最近添加了限制,会有验证码,已经不能用于bot了。single file cli也不能避免滑动加载图片的问题。你说的方案一我研究下,感谢。

  5. 小二   默认开启批量屏蔽受限用户发言功能,可在设置中手动取消。

    使用 https://github.com/Y2Z/monolith 完美解决,可以保存微信图片。

    效果如下

    http://206.189.252.32:8083/

  6. 32WF  
  7. 小二   默认开启批量屏蔽受限用户发言功能,可在设置中手动取消。

    @32WF #7 感谢,你的这个工具对新手很好用,毕竟有可视化界面。