2022 年互联网时代(大局域网时代?),404 是标配。有些「敏感」内容,很可能前一秒正常浏览,下一秒刷新就是 HTTP 404 Not Found……有价值内容最好立刻马上截图、笔记软件抓取或者使用 SingleFile 之类浏览器插件离线保存。
「如何找回一个消失的网页?:https://uxtt.com/40」不过,对于有些还没有机会看上一眼就已经消失的网页,怎么找回?如何找回任意一个消失的网页?方法很多,比如:直接搜索、搜索引擎网页快照「https://2tool.top,这工具就狠不错」、微博、Twitter 等等。
这里只简单介绍一个不错的网站:互联网档案馆 - 网站时光机,最大缺点:国内网络需要加速才能正常访问。
「如何找回一个消失的网页?:https://uxtt.com/40」互联网档案馆(英语:Internet Archive)是美国一个由 Alexa 创始人布鲁斯特·卡利于 1996 年创办的非营利性、提供互联网多媒体资料文件阅览服务的数字图书馆,其使命是「普及所有知识」(英语:universal access to all knowledge.)。
互联网档案馆提供的数字资料包括:网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。迄至 2012 年 10 月,其信息储量达到 10PB(即 10240TB)。
网站时光机(英语:Wayback Machine)是万维网的数字档案馆,由互联网档案馆(英语:Internet Archive)创建,它允许用户「回到过去」,查看过去的网站的样子。自 2001 年推出以来,已有 6250 多亿页面被加入档案馆。
「如何找回一个消失的网页?:https://uxtt.com/40」使用方法很简单,只需要将网页地址输入,查询即可。右上角的黑色柱状条表明了存档的年份和数量的多少,页面中间的圆圈则表示网页存档量的多少,通过查询我们就可以大概知道某个网页变化历史。比如 google.com:
Internet Archive 是爬虫自动收录,不同的网站,其收录的数量和周期也不一样,大网站可能每天都会收录一次,小网站也可能会一年才收录一次,因此并不是所有 404 页面都能在网页时光机找到(比如微信公众号 404 文章),一些重要的网页,我们可以手动提交保存。
「如何找回一个消失的网页?:https://uxtt.com/40」从上面的截图可以看出 google.com 爬取频率很高,从 1998 年 11 月至今,已爬取保存至少 11625145 个网页快照。点击时光轴,选择相应时间节点即可看到网页当时模样,如 1998 年 12 月 2 日的 Google:
手动提交保存网页方法是在 https://web.archive.org/save/ 后面加入要保存的网页地址即可,比如 https://web.archive.org/save/https://uxtt.com,当然也可以进入网页时光机主页,输入网址, SAVE PAGE: