如何找回一个消失的网页？

流水

4 年前

2022 年互联网时代（大局域网时代？），404 是标配。有些「敏感」内容，很可能前一秒正常浏览，下一秒刷新就是 HTTP 404 Not Found……有价值内容最好立刻马上截图、笔记软件抓取或者使用 SingleFile 之类浏览器插件离线保存。

不过，对于有些还没有机会看上一眼就已经消失的网页，怎么找回？如何找回任意一个消失的网页？方法很多，比如：直接搜索、搜索引擎网页快照「https://2tool.top，这工具就狠不错」、微博、 Twitter 等等。

这里只简单介绍一个不错的网站：互联网档案馆 - 网站时光机，最大缺点：国内网络需要加速才能正常访问。

互联网档案馆（英语：Internet Archive）是美国一个由 Alexa 创始人布鲁斯特·卡利于 1996 年创办的非营利性、提供互联网多媒体资料文件阅览服务的数字图书馆，其使命是「普及所有知识」（英语：universal access to all knowledge.）。

互联网档案馆提供的数字资料包括：网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。迄至 2012 年 10 月，其信息储量达到 10PB（即 10240TB）。

网站时光机（英语：Wayback Machine）是万维网的数字档案馆，由互联网档案馆（英语：Internet Archive）创建，它允许用户「回到过去」，查看过去的网站的样子。自 2001 年推出以来，已有 6250 多亿页面被加入档案馆。

使用方法很简单，只需要将网页地址输入，查询即可。右上角的黑色柱状条表明了存档的年份和数量的多少，页面中间的圆圈则表示网页存档量的多少，通过查询我们就可以大概知道某个网页变化历史。比如 google.com：

Internet Archive 是爬虫自动收录，不同的网站，其收录的数量和周期也不一样，大网站可能每天都会收录一次，小网站也可能会一年才收录一次，因此并不是所有 404 页面都能在网页时光机找到（比如微信公众号 404 文章），一些重要的网页，我们可以手动提交保存。

从上面的截图可以看出 google.com 爬取频率很高，从 1998 年 11 月至今，已爬取保存至少 11625145 个网页快照。点击时光轴，选择相应时间节点即可看到网页当时模样，如 1998 年 12 月 2 日的 Google：

手动提交保存网页方法是在 https://web.archive.org/save/ 后面加入要保存的网页地址即可，比如 https://web.archive.org/save/https://uxtt.com，当然也可以进入网页时光机主页，输入网址， SAVE PAGE：

解压密码 1024 | 任何服务均有跑路风险，请注意防范！
备用节点：大哥云、魔戒、飞机云、搬瓦工JMS、极客云、扬帆云……