Archive.org:互联网档案馆

 

2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。

网站名称:Internet Archive(http://www.archive.org/index.php)

上线时间:1996年

网站地点:美国加州(San Francisco, CA)

Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如GoogleYahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。

但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。

以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。我想即便是网易自己或者我们这些工作在网易的人都有无数页面从未看过、备份。

Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。

 

虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。

最后,在2010年即将开始的时候,祝福所有网易科技和每日一站的网友们节日快乐!在2010年每日一站计划进行改版升级,也期待收到各位好的意见和建议(欢迎发邮件到tech2004@crop.netease.com,谢谢!)。(文飞翔)

 
 
Archive.org是一个非营利性数字图书馆,目标是“普及一切知识”,此网站存有26PB(大概两千七百万GB)大小的各种数字资料。
这个档案馆从1996年成立至今,收集了各种各样的网站,程序,应用,游戏,图片,语音等资料,其中存储的最多的是网页,截止现在他们已经存了两千八百亿个页面。
Archive.org的网页存储界面 而且每个小时都会抓去一次被收录网站的页面,让你清楚的知道发生的每一件事。 同时Archive.org一点都不流氓,遵守robots.txt爬虫协议,声明不允许被记录的网站他是不会抓取的~
比如百度申明不希望被收录,他就不收录
Robots协议是国际互联网界通行的道德规范,网站通过Robots协议告诉其他引擎哪些页面可以抓取,哪些页面不能抓取。
通过这个引擎你可以看到很多有趣好玩的东西,比如1999年刚刚成立,还是测试版的Google。
 
Archive.org:互联网档案馆

2009.12. ::    来源: 网易科技    作者:网易科技 ( 条评论 )

  2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。

  网站名称:Internet Archive(http://www.archive.org/index.php)

  上线时间:1996年

  网站地点:美国加州(San Francisco, CA)

  Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如Google、Yahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。

  但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

  此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。

  以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。

  Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。

  虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。
互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发现自己的网站没有被收录,可以主动添加到互联网档案馆)。互联网档案馆位于美国旧金山,与Alexa一样诞生于1996年,是一家非赢利性的信息资源数据库,面向全球用户,免费、公开其收集的全部互联网信息资料。自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份” 一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。
 
 
 

Archive.org:互联网档案馆的更多相关文章

  1. 我是如何来做网站优化(Seo)的?(二)

    在上一篇文章<我是如何来做网站优化(Seo)的?(一)>讲述了网站优化几个注意项目. 在我们日常网站维护中,难免会使用到各种工具,文章的第二节我们就来讲讲这些工具. 网站提交通道 百度站长 ...

  2. 如何在 Flickr 上找到又酷,又有趣,且版权自由的照片?

    [编者按]本文作者为 Alex Walker,主要介绍在 Flickr 上进行照片搜索时的一些技巧.本文系国内 ITOM 管理平台 OneAPM 编译呈现. 我们一直都在寻找新奇的,与众不同的设计.图 ...

  3. 25个站长必备的SEO优化工具

    搜索引擎抓取内容模拟器 可以模拟蜘蛛抓取指定网页,包括Text.Link.Keywords及Description信息等.http://www.webconfs.com/search-engine-s ...

  4. 网站搜索引擎优化SEO策略及相关工具资源

    网站优化的十大奇招妙技 1. 选择有效的关键字: 关键字是描述你的产品及服务的词语,选择适当的关键字是建立一个高排名网站的第一步.选择关键字的一个重要的技巧是选取那些常为人们在搜索时所用到的关键字. ...

  5. Tiny C Compiler简介-wiki

    Tiny C Compiler(缩写为TCC.tCc或TinyCC)是一个用于x86(16/32位)或x86-64(64位)系统的C编译器,开发者为Fabrice Bellard.软件是设计用于低级计 ...

  6. NLP(二十二)利用ALBERT实现文本二分类

      在文章NLP(二十)利用BERT实现文本二分类中,笔者介绍了如何使用BERT来实现文本二分类功能,以判别是否属于出访类事件为例子.但是呢,利用BERT在做模型预测的时候存在预测时间较长的问题.因此 ...

  7. 类型检查和鸭子类型 Duck typing in computer programming is an application of the duck test 鸭子测试 鸭子类型 指示编译器将类的类型检查安排在运行时而不是编译时 type checking can be specified to occur at run time rather than compile time.

    Go所提供的面向对象功能十分简洁,但却兼具了类型检查和鸭子类型两者的有点,这是何等优秀的设计啊! Duck typing in computer programming is an applicati ...

  8. 谁能成为数据储存领域领头羊?永久数据存储--NGK的终极使命!

    区块链的目的是永远存储交易网络的历史.NGK技术团队能够永久存储其去中心化账本的副本.这是其日后能进行审计关键.一些著名的团队,如Solana和SKALE,现在正在为此与NGK进行最后的集成,我们预计 ...

  9. Docker基础和常用命令

    Docker基础和常用命令 一,Docker 简介 1.1,什么是 Docker Docker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,nam ...

随机推荐

  1. 【Unity 系统知识】 各种路径

    一.Assets下的Resources(Unity系统文件夹) :路径 Application.dataPath/Resources 可以使用Resources.Load("文件名字,注:不 ...

  2. POJ 3281 网络流 拆点保证本身只匹配一对食物和饮料

    如何建图? 最开始的问题就是,怎么表示一只牛有了食物和饮料呢? 后来发现可以先将食物与牛匹配,牛再去和饮料匹配,实际上这就构成了三个层次. 起点到食物层边的容量是1,食物层到奶牛层容量是1,奶牛层到饮 ...

  3. .net Datatable

    1. ROW remove vs delete datatable dt = new datatable() //fill 5 records for each row as datarow in d ...

  4. jmeter 添加header

    接口说明文档: article.fetch(通用转码服务) 通用转码服务,获取任意 url 的正文以及 title 等基本信息,仅支持 post 方法请求. 参数 参数 类型 是否必须 示例 其它说明 ...

  5. sql片段的定义

    <!-- sql片段 id 表示唯一标示 这里不加where是因为 sql片段只对单表查询才抽取出来 这样的重用性更高 --> <sql id="query_user_wh ...

  6. Codeforces - 1194F - Crossword Expert - 组合数学

    https://codeforc.es/contest/1194/problem/F 下面是错的. 看起来有点概率dp的感觉? 给你T秒钟时间,你要按顺序处理总共n个事件,每个事件处理花费的时间是ti ...

  7. axios 如何获取下载文件的进度条

    exportFun(){         let _that = this         const instance = this.axios.create({           onDownl ...

  8. 2019-9-2-git镜像仓库

    title author date CreateTime categories git镜像仓库 lindexi 2019-09-02 12:57:37 +0800 2018-2-13 17:23:3 ...

  9. vue,一路走来(16)--本地及手机调试

    闲暇时间记录一下如何绑定域名,实现本地及手机调试的过程.我的是微信开发项目,很多功能及操作都是基于微信来开发的,理所当然的就用到微信开发者工具了. 1.首先打开目录C:\Windows\System3 ...

  10. kafka2.3集群搭建

    环境: 3台centos7.4 3台zookeeper3.4.14 1. wget http://mirror.bit.edu.cn/apache/kafka/2.3.0/kafka_2.11-2.3 ...