Archive.org:互联网档案馆
Archive.org:互联网档案馆
2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。

网站名称:Internet Archive(http://www.archive.org/index.php)
上线时间:1996年
网站地点:美国加州(San Francisco, CA)
Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如Google、Yahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。
但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。
此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。

以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。我想即便是网易自己或者我们这些工作在网易的人都有无数页面从未看过、备份。
Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。
虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。
最后,在2010年即将开始的时候,祝福所有网易科技和每日一站的网友们节日快乐!在2010年每日一站计划进行改版升级,也期待收到各位好的意见和建议(欢迎发邮件到tech2004@crop.netease.com,谢谢!)。(文飞翔)
Archive.org是一个非营利性数字图书馆,目标是“普及一切知识”,此网站存有26PB(大概两千七百万GB)大小的各种数字资料。
这个档案馆从1996年成立至今,收集了各种各样的网站,程序,应用,游戏,图片,语音等资料,其中存储的最多的是网页,截止现在他们已经存了两千八百亿个页面。
Archive.org的网页存储界面 而且每个小时都会抓去一次被收录网站的页面,让你清楚的知道发生的每一件事。 同时Archive.org一点都不流氓,遵守robots.txt爬虫协议,声明不允许被记录的网站他是不会抓取的~
比如百度申明不希望被收录,他就不收录
Robots协议是国际互联网界通行的道德规范,网站通过Robots协议告诉其他引擎哪些页面可以抓取,哪些页面不能抓取。
通过这个引擎你可以看到很多有趣好玩的东西,比如1999年刚刚成立,还是测试版的Google。
Archive.org:互联网档案馆 2009.12. :: 来源: 网易科技 作者:网易科技 ( 条评论 ) 2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。 网站名称:Internet Archive(http://www.archive.org/index.php) 上线时间:1996年 网站地点:美国加州(San Francisco, CA) Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如Google、Yahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。 但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。 此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。 以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。 Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。 虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。
互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发现自己的网站没有被收录,可以主动添加到互联网档案馆)。互联网档案馆位于美国旧金山,与Alexa一样诞生于1996年,是一家非赢利性的信息资源数据库,面向全球用户,免费、公开其收集的全部互联网信息资料。自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份” 一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。
Archive.org:互联网档案馆的更多相关文章
- 我是如何来做网站优化(Seo)的?(二)
在上一篇文章<我是如何来做网站优化(Seo)的?(一)>讲述了网站优化几个注意项目. 在我们日常网站维护中,难免会使用到各种工具,文章的第二节我们就来讲讲这些工具. 网站提交通道 百度站长 ...
- 如何在 Flickr 上找到又酷,又有趣,且版权自由的照片?
[编者按]本文作者为 Alex Walker,主要介绍在 Flickr 上进行照片搜索时的一些技巧.本文系国内 ITOM 管理平台 OneAPM 编译呈现. 我们一直都在寻找新奇的,与众不同的设计.图 ...
- 25个站长必备的SEO优化工具
搜索引擎抓取内容模拟器 可以模拟蜘蛛抓取指定网页,包括Text.Link.Keywords及Description信息等.http://www.webconfs.com/search-engine-s ...
- 网站搜索引擎优化SEO策略及相关工具资源
网站优化的十大奇招妙技 1. 选择有效的关键字: 关键字是描述你的产品及服务的词语,选择适当的关键字是建立一个高排名网站的第一步.选择关键字的一个重要的技巧是选取那些常为人们在搜索时所用到的关键字. ...
- Tiny C Compiler简介-wiki
Tiny C Compiler(缩写为TCC.tCc或TinyCC)是一个用于x86(16/32位)或x86-64(64位)系统的C编译器,开发者为Fabrice Bellard.软件是设计用于低级计 ...
- NLP(二十二)利用ALBERT实现文本二分类
在文章NLP(二十)利用BERT实现文本二分类中,笔者介绍了如何使用BERT来实现文本二分类功能,以判别是否属于出访类事件为例子.但是呢,利用BERT在做模型预测的时候存在预测时间较长的问题.因此 ...
- 类型检查和鸭子类型 Duck typing in computer programming is an application of the duck test 鸭子测试 鸭子类型 指示编译器将类的类型检查安排在运行时而不是编译时 type checking can be specified to occur at run time rather than compile time.
Go所提供的面向对象功能十分简洁,但却兼具了类型检查和鸭子类型两者的有点,这是何等优秀的设计啊! Duck typing in computer programming is an applicati ...
- 谁能成为数据储存领域领头羊?永久数据存储--NGK的终极使命!
区块链的目的是永远存储交易网络的历史.NGK技术团队能够永久存储其去中心化账本的副本.这是其日后能进行审计关键.一些著名的团队,如Solana和SKALE,现在正在为此与NGK进行最后的集成,我们预计 ...
- Docker基础和常用命令
Docker基础和常用命令 一,Docker 简介 1.1,什么是 Docker Docker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,nam ...
随机推荐
- (转载)Manacher'sAlgorithm: O(n)时间求字符串的最长回文子串
以下内容转载自:传送门 源于这两篇文章: http://blog.csdn.net/ggggiqnypgjg/article/details/6645824http://zhuhongcheng.wo ...
- 2019 年「计算机科学与工程学院」新生赛 暨ACM集训队选拔赛 # 1
T1 请问这还是纸牌游戏吗 https://scut.online/p/567 这道题正解据说是方根 这里先放着等以后填坑吧qwq 但是由于这道题数据是随机的 所以其实是有各种水法的(但是我比赛根本没 ...
- mac下使用iterm实现自动登陆
1.通过brew安装sshpass(手动安装也可以) ①brew安装sshpass brew install https://raw.githubusercontent.com/kadwanev/bi ...
- spring-第六篇之创建bean的3种方式
1.创建bean的方式有3种: 1>使用构造器创建bean,即设值注入.构造注入本质都是使用bean的构造器创建bean的. 2>使用静态工厂方法创建bean. 3>调用实例工厂方法 ...
- Codeforces 1091C (数学)
题面 传送门 分析 假设k是固定的,那访问到的节点编号就是\(1+(a·k \mod n )\),其中a为正整数. 通过找规律不难发现会出现循环. 通过题目中的图片我们不难发现 只有k=1,2,3,6 ...
- jar 启动脚本
前段时间用springboot做项目后,每次重新发布都好麻烦, 所以写了个脚本来配合jenkins 发布: #!/bin/bash APP_NAME=application.jar function ...
- C#使用Process启动exe程序,不弹出控制台窗口的方法
背景:使用wkhtmltopdf工具将html转换成pdf时,这个工具在进行转换时会弹出命令行窗口显示转换过程,但是在项目运行时弹出服务器突然弹出控制台窗口会很奇怪,尤其是当转换多个时.解决这个问题 ...
- smbspool - 将一个打印文件发送到一台SMB打印机
总览 SYNOPSIS smbspool {job} {user} {title} {copies} {options} [filename] 描述 DESCRIPTION 此程序是Samba(7)套 ...
- 微信小程序(17)-- RSA加密 解密 加签 验签
RSA加密 解密 加签 验签 /** * 注:区分RSA私钥的类型,有pkcs1和pkcs8.pkcs8格式的私钥主要用于Java中 pkcs1格式: -----BEGIN RSA PRIVATE K ...
- Kvm--02 安装centos6系统 ,kvm磁盘管理
目录 1.安装一个CentOS6的系统的虚拟主机 2.虚拟机的备份 3.企业案例: 4.Kvm磁盘管理 1.安装一个CentOS6的系统的虚拟主机 #上传一个CenOS6系统的镜像到/opt目录下 [ ...