从robots.txt開始网页爬虫之旅

做个网页爬虫或搜索引擎（下面统称蜘蛛程序）的各位一定不会陌生，在爬虫或搜索引擎訪问站点的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在server上什么文件是能够被查看的。

当一个搜索蜘蛛訪问一个网站时。它会首先检查该网站根文件夹下是否存在robots.txt，假设存在，搜索机器人就会依照该文件里的内容来确定訪问的范围；假设该文件不存在，全部的搜索蜘蛛将可以訪问网站上全部没有被口令保护的页面。

那我们应该如何使用robots.txt呢？

第一： robots.txt必须放置在一个网站的根文件夹下，并且文件名称必须所有小写。

第二：必须遵循下面语法：

最简单的 robots.txt 文件使用三条规则：

：User-Agent: 适用下列规则的漫游器（比方百度（Baiduspider）、Google（Googlebot））

：Disallow: 要拦截的网页（能够和）

：Allow: 同意语法（Disallow结合起来使用）

接下来让我们看下实际应用。

一般站点中不须要蜘蛛抓取的文件有：后台管理文件、程序文件、附件、图片、数据库文件、模板文件、样式表文件、编码文件、脚本文件我们能够写下面robots.txt内容：

User-agent: *

Disallow: /admin/ 后台管理文件

Disallow: /require/ 程序文件

Disallow: /attachment/ 附件

Disallow: /images/ 图片

Disallow: /data/ 数据库文件

Disallow: /template/ 模板文件

Disallow: /css/ 样式表文件

Disallow: /lang/ 编码文件

Disallow: /script/ 脚本文件

假设你想同意全部搜索引擎訪问站点的全部部分

1、你能够建立一个空白的文本文档。命名为robots.txt

2、User-agent: *

Disallow:

3、User-agent: *

Allow: /

假设你想禁止全部搜索引擎訪问站点的全部部分，把上面2中改成 Disallow: / 就能够了

假设你想禁止百度 User-agent: Baiduspider

假设你想禁止除Google外的一切搜索引擎

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

注：事实上并不是全部的爬虫都会遵从robots.txt协议的，由于我们能够制造恶意爬虫，哈哈

从robots.txt開始网页爬虫之旅的更多相关文章

Robots.txt - 禁止爬虫（转）
Robots.txt - 禁止爬虫 robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: v ...
Robots.txt - 禁止爬虫
robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: value.常见的规则行:User-A ...
IIS设置文件 Robots.txt 禁止爬虫
robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: value.常见的规则行:User-A ...
Robots.txt 协议详解及使用说明
一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”.网站通过Robots协议告诉搜索引擎哪 ...
在Prefetcher中取消robots.txt的限制
Robots.txt是一种专门用于搜索引擎网络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明该网站不想被 ...
Robots.txt 不让搜索引擎收录网站的方法
有没有担心过自己的隐私会在强大的搜索引擎面前无所遁形?想象一下,如果要向世界上所有的人公开你的私人日记,你能接受吗?的确是很矛盾的问题,站长们大都忧虑“如何让搜索引擎收录的我的网站?”,而我们还是要研 ...
robots.txt文件
网站通过一个符合Robots协议的robots.txt文件来告诉搜索引擎哪些页面可以爬取.Robots.txt协议全称“网络爬虫排除标准”.一般情况下,该文件以一行或多行User-agent记录开始, ...
robots.txt 让搜索引擎不再收录网站
有没有担心过自己的隐私会在强大的搜索引擎面前无所遁形?想象一下,如果要向世界上所有的人公开你的私人日记,你能接受吗?的确是很矛盾的问题,站长们大都忧虑“如何让搜索引擎收录的我的网站?”,而我们还是要研 ...
python 爬虫1 開始，先拿新浪微博開始
刚刚開始学. 目的地是两个.一个微博,一个贴吧存入的话,临时还没想那么多.先存到本地目录吧分词和推荐后面在整合 mysql mongodb hadoop redius 后面在用我最终知道为什么大 ...

随机推荐

MySQL简单使用
1.启动MySQL服务器实际上上篇已讲到如何启动MySQL.两种方法:一是用winmysqladmin,如果机器启动时已自动运行,则可直接进入下一步操作.二是在DOS方式下运行 d:/mysql/bi ...
【技术贴】解决Mysql启动服务报错1067 进程意外终止
无法启动MYSQL服务错误1067 进程意外终止. 我使用2013-10-25_appserv-win32-2.6.0.exe安装的MySql,结果服务起不来. 于是细心机智的我发现,在F:\stud ...
（转）未找到与约束ContractName Microsoft.VisualStudio.Text.ITextDocumentFactoryService~~导出！解决方案。
今天刚到公司,打开VS2012准备些个小程序练练手,结果打开C#控制台程序创建时弹出个出错警告,于是呼赶紧跑到百度娘那里问问. 百度一番之后,找到了两篇文章: vs2012建立c++项目为啥会这样? ...
asp.net 登陆后在ashx处理程序中获取不到Session
登录后存储Session,另一个页面Ajax请求 ashx页面,发现无法获取到Session,Session is NULL 使用“IReadOnlySessionState”这个接口就可以
使AspNetPager控件中文显示分页信息
在日常的编程过程中,很多学员对于使AspNetPager控件中文显示分页信息不是很清楚,本文将由达内的老师为各位学员介绍一下使AspNetPager控件中文显示分页信息的内容. AspNetPager ...
CrystalDiskMark 的使用方法
CrystalDiskMark 是一个测试你的硬盘或者存储设备的小巧硬盘测试工具.简单易于操作的界面让你随时可以测试你的存储设备,测试存储设备大小和测试数字都可以选择,还可测试可读和可写的速度. 具体 ...
C#功能扩张方式
有时候,为了完成一些window的一些操作,需要引入一些dll进行操作 1) 引入系统api进行操作,形如[DllImport("urlmon.dll", CharSet = C ...
产品设计中先熟练使用铅笔不要依赖Axure
在互联网产品领域,Axure已成为产品经理.产品设计师以及交互设计师的必备工具,从某种程度讲,Axure帮助我们建立低保真模型,便于与用户的需求验证,也帮助我们构思交互细节,使前端和开发人员更容易理解 ...
C# partial 局部类型
关键字partial是一个上下文关键字,只有和 class.struct.interface 放在一起时才有关键字的含义.因此partial的引入不会影响现有代码中名称为partial的变量.局部类型 ...
大型邮箱smtp服务器及端口收集
各大型邮箱smtp服务器及端口收集: 新浪邮箱smtp服务器外发服务器:smtp.vip.sina.com 收件服务器:pop3.vip.sina.com 新浪免费邮件外发服务器:smtp.sin ...

从robots.txt開始网页爬虫之旅

从robots.txt開始网页爬虫之旅的更多相关文章

随机推荐

热门专题