网站之robots.txt文件

一、robots.txt是什么？

　　robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分，或者指定搜索引擎只收录指定的内容。

　　当一个搜索引擎（又称搜索机器人或蜘蛛程序）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

二、robots.txt的作用

　　1、引导搜索引擎蜘蛛抓取指定栏目或内容；

　　2、网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接；

　　3、屏蔽死链接、404错误页面；

　　4、屏蔽无内容、无价值页面；

　　5、屏蔽重复页面，如评论页、搜索结果页；

　　6、屏蔽任何不想被收录的页面；

　　7、引导蜘蛛抓取网站地图；

三、Robots的语法（三个语法和两个通配符）

　　三个语法如下：

　　1、User-agent:（定义搜索引擎）

　　示例：

　　　User-agent: *（定义所有搜索引擎）

　　　User-agent: Googlebot （定义谷歌，只允许谷歌蜘蛛爬取）

　　　User-agent: Baiduspider （定义百度，只允许百度蜘蛛爬取）

　　　不同的搜索引擎的搜索机器人有不同的名称，谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。

　　2、Disallow:（用来定义禁止蜘蛛爬取的页面或目录）

　　示例：

　　　　Disallow: /（禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下）

　　　　Disallow: /admin （禁止蜘蛛爬取admin目录）

　　　　Disallow: /abc.html （禁止蜘蛛爬去abc.html页面）

　　　　Disallow: /help.html （禁止蜘蛛爬去help.html页面）

　　3、Allow:（用来定义允许蜘蛛爬取的页面或子目录）

　　示例：

　　　　Allow: /admin/test/（允许蜘蛛爬取admin下的test目录）

　　　　Allow: /admin/abc.html（允许蜘蛛爬去admin目录中的abc.html页面）

　　两个通配符如下：

　　4、匹配符 “$”

　　　　$ 通配符：匹配URL结尾的字符

　　5、通配符 “*”

　　　　* 通配符：匹配0个或多个任意字符

四、robots.txt 综合示例

　　1、禁止搜索引擎抓取特定目录

　　　　在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。

　　　　　　User-agent: *

　　　　　　Disallow: /admin/

　　　　　　Disallow: /tmp/

　　　　　　Disallow: /abc/

　　2、禁止admin目录，但允许抓取admin目录下的seo子目录

　　　　　　User-agent: *

　　　　　　Allow: /admin/seo/

　　　　　　Disallow: /admin/

　　3、禁止抓取/abc/目录下的所有以".htm”为后缀的URL（包含子目录）

　　　　　　User-agent: *

　　　　　　Disallow: /abc/*.htm$

　　4、禁止抓取网站中所有的动态页面

　　　　　　User-agent: *

　　　　　　Disallow: /*?*

　　　　　　屏蔽所有带“?”的文件，这样就屏蔽所有的动态路径。

　　5、禁止百度蜘蛛抓取网站所有的图片：

　　　　　　User-agent: Baiduspider

　　　　　　Disallow: /*.jpg$

　　　　　　Disallow: /*.jpeg$

　　　　　　Disallow: /*.gif$

　　　　　　Disallow: /*.png$

　　　　　　Disallow: /*.bmp$

　　6、要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告

　　　　　　User-agent: *

　　　　　　Disallow: /folder1/

　　　　　　User-agent: Mediapartners-Google

　　　　　　Allow: /folder1/

　　　　　　请禁止除 Mediapartners-Google 以外的所有漫游器。这样可使页面不出现在搜索结果中，同时又能让 Mediapartners-Google 漫游器分析页面，从而确定要展示的广告。 Mediapartners-Google 漫游器并不与其他 Google User-agent 共享网页。

五、注意事项

　　1、robots.txt 文件必须放在网站的根目录，不可以放在子目录。

　　　以WEB开发者网站为例：比如通过 http://www.admin10000.com/robots.txt 你就可以访问 admin10000.com的robots.txt文件了。

　　2、robots.txt 文件名命名必须小写，记得在robot面加“s”。

　　3、User-agent、Allow、Disallow的 “:” 后面有一个字符的空格。

　　4、路径后面加斜杠“/” 和不加斜杠的是有区别的

　　　　　Disallow: /help

　　禁止蜘蛛访问 /help.html、/helpabc.html、/help/index.html

　　　　 Disallow: /help/　

　　　　禁止蜘蛛访问 /help/index.html。但允许访问 /help.html、/helpabc.html

　　5、Disallow与Allow行的顺序是有意义的：

　　　　举例说明：

　　　　允许蜘蛛访问 /admin/ 目录下的seo文件夹

　　　　User-agent: *

　　　　Allow: /admin/seo/

　　　　Disallow: /admin/

　　　　如果Allow 和 Disallow 的顺序调换一下：

　　　　User-agent: *

　　　　Disallow: /admin/

　　　　Allow: /admin/seo/

　　　　蜘蛛就无法访问到 /admin/ 目录下的 seo 文件夹，因为第一个 Disallow: /admin/ 已匹配成功。

六、关于Robots Meta

　　Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况，而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots Meta标签也是放在页面中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

　　Robots Meta 标签中没有大小写之分，name="Robots" 表示所有的搜索引擎，可以针对某个具体搜索引擎（如google）写为 name="Googlebot"， content部分有四个指令选项：index、noindex、follow、nofollow，指令间以 “,” 分隔。

　　Index 指令告诉搜索机器人抓取该页面；

　　NoIndex命令：告诉搜索引擎不允许抓取这个页面

　　Follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去；

　　NoFollow命令：告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

　　Robots Meta 标签的缺省值是Index和Follow；

　　根据以上的命令，我们就有了一下的四种组合：

　　可以抓取本页，而且可以顺着本页继续索引别的链接

　　不许抓取本页，但是可以顺着本页抓取索引别的链接

　　可以抓取本页，但是不许顺着本页抓取索引别的链接

　　不许抓取本页，也不许顺着本页抓取索引别的链接。

　　如果是 <meta name="robots" content="noindex,nofollow"/> 形式的话，可以写成：

　　如果是 <meta name="robots" content="index,follow"/> 形式的话，可以写成：

七、关于 rel="nofollow"

　　将"nofollow"放在超链接中，告诉搜索引擎不要抓取特定的链接。

　　如某博客上有垃圾评论：

　　以下操作，即进行了 nofollow：

网站之robots.txt文件的更多相关文章

网站的robots.txt文件
什么是robots.txt? robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,一般位于网站的根目录下.robots.txt文件定义了爬虫在爬取该网站时存在的限制,哪些部分 ...
如何设置网站的robots.txt
做过网站优化的朋友都知道,搜索引擎蜘蛛爬行抓取网站时首先会去访问根目录下的robots.txt文件,如果robots文件存在,则会根据robots文件内设置的规则进行爬行抓取,如果文件不存在则会顺着首 ...
网站 robots.txt 文件编写
网站 robots.txt 文件编写 Intro robots.txt 是网站根目录下的一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的 ...
网站SEO优化之Robots.txt文件写法。
作为网站开发者或网站管理员一定知道网站对搜索引擎的优化有多重要,好的网站不仅要有漂亮的界面,良好的用户体验,还要有较高的更新频率.要被百度.google这样的搜索引擎大量收录,才能增加网站展示量,访问 ...
robots.txt文件配置和使用方法详解
robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件 ...
没有robots.txt文件是否会影响收录呢
Spider在抓取您的网站之前,会访问您的robots.txt 文件,以确定您的网站是否会阻止蜘蛛抓取任何网页或网址.如果您的 robots.txt 文件存在但无法访问(也就是说,如果它没有返回 2 ...
不可不知的robots.txt文件
robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索 ...
Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件
解析 robots.txt 文件使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 ...
给自己的网站加上robots.txt
今天给自己的网站加了一个robots.txt,在网上收集整理了一些资料,给自己网站也加上了robots.txt ! 顺便给大家分享一下! 一.robots.txt是什么? robots.txt是一个纯 ...

随机推荐

GitHub-创建仓库与本地同步
1. 在Linux上安装Git [root@mini05 ~]# yum install -y git ……………… 2. 本地创建ssh-key信息 [root@mini05 ~]# ssh-key ...
17秋软件工程团队第五次作业 Alpha
题目:团队作业--Alpha冲刺 17秋软件工程团队第五次作业 Alpha 12次Scrum 第一次Scrum 第二次Scrum 第三次Scrum 第四次Scrum 第五次Scrum 第六次Scr ...
C#基础の迭代器详解
一.什么是迭代器迭代器(iterator)有时又称游标(cursor)是程序设计的软件设计模式,可在容器(container,例如链表或阵列)上遍访的接口,设计人员无需关心容器的内容. 迭代器模式是 ...
【转】APK反编译
学习和开发Android应用有一段时间了,今天写一篇博客总结一下Android的apk文件反编译.我们知道,Android应用开发完成之后,我们最终都会将应用打包成一个apk文件,然后让用户通过手机或 ...
【vue】vue +element 搭建项目，Qs用途
1.安装 (c)npm install qs -S 2.用途在 axios中,利用QS包装data数据 3.常见用法: import Qs from 'qs'; Qs.stringify(data) ...
Luogu2792 [JSOI2008]小店购物
Luogu2792 [JSOI2008]小店购物重题 bzoj4349 最小树形图有 $n$ 个物品,每个物品有价格 $c_i$ 和所需个数 $k_i$ ,所有物品必须恰好买 \(k_ ...
Maven入门指南⑦：Maven的生命周期和插件
一个完整的项目构建过程通常包括清理.编译.测试.打包.集成测试.验证.部署等步骤,Maven从中抽取了一套完善的.易扩展的生命周期.Maven的生命周期是抽象的,其中的具体任务都交由插件来完成.Mav ...
C# 多线程及同步简介示例
60年代,在OS中能拥有资源和独立运行的基本单位是进程,然而随着计算机技术的发展,进程出现了很多弊端,一是由于进程是资源拥有者,创建.撤消与切换存在较大的时空开销,因此需要引入轻型进程: ...
01-vue学习篇-以优雅的姿势创建vue项目
前言小白一枚,今年(2019)准备学习一下前端的技术,因为发现自己对后端(python)相对比较熟悉但是还是写不出一个优雅的系统,可见前端的重要性,于是静下心来跟大佬学习.在不断的激励自己调整自己的 ...
Mysql数据库表被锁定处理
1.查进程,查找被锁表的那个进程的ID show processlist; command 为waitting的就是锁住的表,info为执行某条语句的信息,id为进程. 2.kill掉锁表的进程ID ...

网站之robots.txt文件

网站之robots.txt文件的更多相关文章

随机推荐

热门专题