一、简介

Robots 协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。robots.txt 是搜索引擎访问网站的时候要查看的第一个文件。

当一个爬虫访问一个站点时，它会首先检查该站点根目录下是否存在 robots.txt，如果存在，爬虫就会按照该文件中的内容来确定访问的范围；如果该文件不存在，爬虫将能够访问网站上所有没有被口令保护的页面。百度官方建议，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用 robots.txt 文件。如果您希望搜索引擎收录网站上所有内容，请勿建立 robots.txt 文件。但 robots.txt 是一个协议而不是命令，也不是防火墙，无法阻止恶意闯入者。

表面来看，这个功能作用有限。从搜索引擎优化的角度来看，可以通过屏蔽页面，达到集中权重的作用，这也是优化人员最为看重的地方。另外屏蔽一些网站中比较大的文件，如：图片，音乐，视频等，节省服务器带宽。设置网站地图连接，方便引导蜘蛛爬取页面。

二、写法

robots.txt 文件放置在网站的根目录，文件名必须为小写字母。所有的命令第一个字母需大写，其余的小写。且命令之后要有一个英文字符空格。

先来看下淘宝的robots.txt的例子，http://www.taobao.com/robots.txt

User-agent: Baiduspider

Allow: /article

Allow: /oshtml

Disallow: /product/

Disallow: /

User-Agent: Googlebot

Allow: /article

Allow: /oshtml

Allow: /product

Allow: /spu

Allow: /dianpu

Allow: /oversea

Allow: /list

Disallow: /

User-agent: Bingbot

Allow: /article

Allow: /oshtml

Allow: /product

Allow: /spu

Allow: /dianpu

Allow: /oversea

Allow: /list

Disallow: /

User-Agent: 360Spider

Allow: /article

Allow: /oshtml

Disallow: /

User-Agent: Yisouspider

Allow: /article

Allow: /oshtml

Disallow: /

User-Agent: Sogouspider

Allow: /article

Allow: /oshtml

Allow: /product

Disallow: /

User-Agent: Yahoo! Slurp

Allow: /product

Allow: /spu

Allow: /dianpu

Allow: /oversea

Allow: /list

Disallow: /

User-Agent: *

Disallow: /

User-agent：表示定义哪个搜索引擎。User-agent 记录至少要有一条。

User-agent: Baiduspider，定义百度蜘蛛。

User-agent: * 定义所有所搜引擎。

Disallow：表示禁止访问。

Disallow: /product/ 表示禁止爬取 product 目录下的目录。

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的网址。

Disallow: /help 禁止访问/help*.html 和 /help/index.html

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址。

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。

Allow：表示允许访问，写法同 Disallow。

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Sitemap：网站地图，告诉爬虫这个页面是网站地图

Crawl-delay：表示抓取网页的时间间隔，单位秒

Crawl-delay: 10

三、哪些时候需要使用该协议。

无用页面，很多网站都有联系我们，用户协议等页面，这些页面相对于搜索引擎优化来讲，作用不大，此时需要使用 Disallow 命令禁止这些页面被搜索引擎抓取。

动态页面，企业类型站点屏蔽动态页面，有利于网站安全。且多个网址访问同一页面，会造成权重分散。因此，一般情况下，屏蔽动态页面，保留静态或伪静态页面。

网站后台页面，网站后台也可以归类于无用页面，禁止收录有百益而无一害。

爬虫协议 Tobots的更多相关文章

爬虫协议robots
前面的话 Robots协议(也称为爬虫协议.机器人协议等)全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页 ...
Robots协议（爬虫协议、机器人协议）
Robots协议(也称为爬虫协议.机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓 ...
Natas3 Writeup（爬虫协议robots.txt）
Natas3: 页面提示本页面什么都没有. 在源码中发现提示:无信息泄露,谷歌这次不会发现它.提到了搜索引擎,猜测爬虫协议robots.txt中存在信息泄露,访问网站爬虫协议http://natas3 ...
PYTHON网络爬虫与信息提取[网络爬虫协议](单元二)
robots.txt在网站的根目录下遵守自动或人工识别robots.txt再进行内容爬取约束性:建议性,不遵守协议,存在法律风险. 基本语法: User-agent: * Disallow: / ...
2.爬虫 urlib库讲解异常处理、URL解析、分析Robots协议
1.异常处理 URLError类来自urllib库的error模块,它继承自OSError类,是error异常模块的基类,由request模块产生的异常都可以通过这个类来处理. from urllib ...
[Python3网络爬虫开发实战] 3.1.4-分析Robots协议
利用urllib的robotparser模块,我们可以实现网站Robots协议的分析.本节中,我们来简单了解一下该模块的用法. 1. Robots协议 Robots协议也称作爬虫协议.机器人协议,它的 ...
网络爬虫与web之间的访问授权协议——Robots
网站的管理者们通常会有这样一种心态:一方面期待百度.Google这样的搜索引擎来抓取网站的内容,另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息.正是因为这样,才有“好爬虫”.“坏爬虫”这样的说法 ...
【原】小玩node+express爬虫-1
最近开始重新学习node.js,之前学的都忘了.所以准备重新学一下,那么,先从一个简单的爬虫开始吧. 什么是爬虫百度百科的解释: 爬虫即网络爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部 ...
Robots.txt 协议详解及使用说明
一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”.网站通过Robots协议告诉搜索引擎哪 ...

随机推荐

VB读写进程的内存
在窗体部分简单测试了ReadProcessMemory和WriteProcessMemory对另一个程序进程的读写. 由于临时项目变动,又不需要了,所以直接封类,删工程.以下代码没有一个函数经过测试, ...
安装selenium
步骤: 1.下载setuptools2.点击安装setuptools.exe3.安装成功后,python的安装目录下会有Scripts的文件夹4.配置环境变量:python安装目录\Scripts5. ...
创建多线程的方式：继承Thread类和实现Runnable接口
1.通过继承Thread类的方式创建多线程(这里只是简单的代码演示创建多线程的方法) package com.baozi.exer; public class ThreadDemo { public ...
xshell登陆服务器步骤
Xshell远程连接服务器打开xshell后找到左上角第一个“文件”点击,弹出来一个下拉框,选择“新建”点击(或者直接按下快捷键“Alt+n”). 点击“新建”之后就会出现下面这样一 ...
记一次Dynamic Batching不生效的爬坑实例分析[Unity]
最近在项目开发过程中,无意发现游戏场景的绘制占用了大量的Batches,几乎一个模型显示就占用了一个Batch,而Saved by batching数量几乎为0,即没有任何合批渲染优化.这显然跟预期相 ...
HTML入门11
在网页中添加矢量图形, 使用矢量图形在很多情况下,效果较好,拥有较小的文件尺寸,高度缩放,下面具体讲解如何在网页中添加矢量图形位图和矢量图位图文件包含了每个像素的位置和色彩信息,流行的位图格式包括 ...
矢量图形（vector graphics）和位图图像（bitmap）以及分辨率概念
第一篇:凭心而论.客观地认识矢量图形与位图图像http://www.dzwebs.net/2003.html 学习过物理的人都明白,矢量有大小和方向,而标量只有大小却没有方向: 但是在计算机里面,图形 ...
scala Weak Conformance
Weak Conformance In some situations Scala uses a more general conformance relation. A type S weakly ...
Springboot 拦截器依赖注入失败
解决方案2种. ====1 https://blog.csdn.net/shunhua19881987/article/details/78084679 ====2 https://www.cnblo ...
.Net Core中Dapper的使用详解
Dapper 是一个轻量级ORM框架,在项目中如果对性能比较看中,Dapper是一个不错的选择.接下来我们就来看看如何在项目中使用Dapper. 1.安装Dapper 这里直接使用Nuget安装. ...

爬虫协议 Tobots

一、简介

二、写法

三、哪些时候需要使用该协议。

爬虫协议 Tobots的更多相关文章

随机推荐

热门专题