文章
技术

教你如何用5秒钟修复用浏览器下载下来的、会无限刷新的知乎快照

习羊羊与灰战狼  ·  2020年11月15日 稍有常识的懒羊羊

一、打开一个知乎页面(例如https://zhuanlan.zhihu.com/p/85591688

二、点击 ctrl+s

三、弹出的框框中选择“Webpage, complete(网页,全部)”,点击下载,你会得到一个以".html"为结尾的一个文件和一个文件夹。

四、点进下载下来的文件夹,删除带有“vendor”字样、结尾为".js"的文件。

完成!现在你的网页快照可以被正常查看了,不再会无限刷新了。

相关信息:

自19年上半年的某一天后,wayback machine开始“无法抓取”知乎的网页快照了。其实其页面中的数据并不是没有被抓取,而是页面中的一串脚本让你无法查看它。如果你要查看某个知乎的网页快照,它就会在加载部分信息之后直接强制重新加载网页,让你根本没法浏览。而在今年8月左右这个问题被wayback machine修复了,所以现在浏览任何知乎快照都不会出现“无限刷新”的问题了,即使是19年到今年8月之间的新快照。例如:https://web.archive.org/web/20191115014305/https://zhuanlan.zhihu.com/p/85591688

直到今天,用浏览器下载下来的、不经处理的知乎快照仍会出现“无限刷新”的问题,即使你尝试离线打开它也一样。

ctrl+s 是“保存当前页面”的快捷键。在IE、chrome、firefox等浏览器中,当你点击ctrl+s后,它给你两个选择:“Webpage, HTML only” 和 “Webpage, complete”。html ONLY 的选项会下载一个".html"文件,只含有文字和链接;而complete的选项会不仅会包含这个html文件,也会包含另一个文件夹,里面装着页面格式、脚本和所有图片。问题就出在complete这个选项上,因为它会把那一串让页面无限刷新的脚本也给下载下来。

**safari浏览器比较特殊,它下载下来的文件以".webarchive"结尾,特征类似archive.today的快照,包含页面格式和图片但是不包含脚本,所以不会出现这种问题。

archive.today的知乎快照则一直都没有出现此类问题,因为它的快照不像wayback machine一样含有脚本。

菜单