一、robots.txt是什么?
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索引擎(又称搜索机器人或蜘蛛程序)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
二、robots.txt的作用
1、引导搜索引擎蜘蛛抓取指定栏目或内容;
2、网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接;
3、屏蔽死链接、404错误页面;
4、屏蔽无内容、无价值页面;
5、屏蔽重复页面,如评论页、搜索结果页;
6、屏蔽任何不想被收录的页面;
7、引导蜘蛛抓取网站地图;
三、Robots的语法(三个语法和两个通配符)
三个语法如下:
1、User-agent:(定义搜索引擎)
示例:
User-agent: *(定义所有搜索引擎)
User-agent: Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
User-agent: Baiduspider (定义百度,只允许百度蜘蛛爬取)
不同的搜索引擎的搜索机器人有不同的名称,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。
2、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)
示例:
Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)
Disallow: /admin (禁止蜘蛛爬取admin目录)
Disallow: /abc.html (禁止蜘蛛爬去abc.html页面)
Disallow: /help.html (禁止蜘蛛爬去help.html页面)
3、Allow:(用来定义允许蜘蛛爬取的页面或子目录)
示例:
Allow: /admin/test/(允许蜘蛛爬取admin下的test目录)
Allow: /admin/abc.html(允许蜘蛛爬去admin目录中的abc.html页面)
两个通配符如下:
4、匹配符 “$”
$ 通配符:匹配URL结尾的字符
5、通配符 “*”
* 通配符:匹配0个或多个任意字符
四、robots.txt 综合示例
1、禁止搜索引擎抓取特定目录
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /abc/
2、禁止admin目录,但允许抓取admin目录下的seo子目录
User-agent: *
Allow: /admin/seo/
Disallow: /admin/
3、禁止抓取/abc/目录下的所有以".htm”为后缀的URL(包含子目录)
User-agent: *
Disallow: /abc/*.htm$
4、禁止抓取网站中所有的动态页面
User-agent: *
Disallow: /*?*
屏蔽所有带“?”的文件,这样就屏蔽所有的动态路径。
5、禁止百度蜘蛛抓取网站所有的图片:
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
6、要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告
User-agent: *
Disallow: /folder1/
User-agent: Mediapartners-Google
Allow: /folder1/
请禁止除 Mediapartners-Google 以外的所有漫游器。 这样可使页面不出现在搜索结果中,同时又能让 Mediapartners-Google 漫游器分析页面,从而确定要展示的广告。 Mediapartners-Google 漫游器并不与其他 Google User-agent 共享网页。
五、注意事项
1、robots.txt 文件必须放在网站的根目录,不可以放在子目录。
2、robots.txt 文件名命名必须小写,记得在robot面加“s”。
3、User-agent、Allow、Disallow的 “:” 后面有一个字符的空格。
4、路径后面加斜杠“/” 和不加斜杠的是有区别的
Disallow: /help
禁止蜘蛛访问 /help.html、/helpabc.html、/help/index.html
Disallow: /help/
禁止蜘蛛访问 /help/index.html。 但允许访问 /help.html、/helpabc.html
5、Disallow与Allow行的顺序是有意义的:
举例说明:
允许蜘蛛访问 /admin/ 目录下的seo文件夹
User-agent: *
Allow: /admin/seo/
Disallow: /admin/
如果Allow 和 Disallow 的顺序调换一下:
User-agent: *
Disallow: /admin/
Allow: /admin/seo/
蜘蛛就无法访问到 /admin/ 目录下的 seo 文件夹,因为第一个 Disallow: /admin/ 已匹配成功。
六、关于Robots Meta
Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots Meta 标签中没有大小写之分,name="Robots" 表示所有的搜索引擎,可以针对某个具体搜索引擎(如google)写为 name="Googlebot", content部分有四个指令选项:index、noindex、follow、nofollow,指令间以 “,” 分隔。
Index 指令告诉搜索机器人抓取该页面;
NoIndex命令:告诉搜索引擎不允许抓取这个页面
Follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
NoFollow命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
Robots Meta 标签的缺省值是Index和Follow;
根据以上的命令,我们就有了一下的四种组合:
<meta name="robots" content="index,follow"/>
可以抓取本页,而且可以顺着本页继续索引别的链接
<meta name="robots" content="noindex,follow"/>
不许抓取本页,但是可以顺着本页抓取索引别的链接
<neta name="robots" content="index,nofollow"/>
可以抓取本页,但是不许顺着本页抓取索引别的链接
<meta name="robots" content="noindex,nofollow"/>
不许抓取本页,也不许顺着本页抓取索引别的链接。
如果是 <meta name="robots" content="noindex,nofollow"/> 形式的话,可以写成:
<meta name="robots" content="none"/>
如果是 <meta name="robots" content="index,follow"/> 形式的话,可以写成:
<meta name="robots" content="all"/>
七、关于 rel="nofollow"
将"nofollow"放在超链接中,告诉搜索引擎不要抓取特定的链接。
如某博客上有垃圾评论:
<a href="URL">灌水</a>
以下操作,即进行了 nofollow:
<a href="URL" rel="nofollow" >灌水</a>
- 网站的robots.txt文件
什么是robots.txt? robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,一般位于网站的根目录下.robots.txt文件定义了爬虫在爬取该网站时存在的限制,哪些部分 ...
- 如何设置网站的robots.txt
做过网站优化的朋友都知道,搜索引擎蜘蛛爬行抓取网站时首先会去访问根目录下的robots.txt文件,如果robots文件存在,则会根据robots文件内设置的规则进行爬行抓取,如果文件不存在则会顺着首 ...
- 网站 robots.txt 文件编写
网站 robots.txt 文件编写 Intro robots.txt 是网站根目录下的一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的 ...
- 网站SEO优化之Robots.txt文件写法。
作为网站开发者或网站管理员一定知道网站对搜索引擎的优化有多重要,好的网站不仅要有漂亮的界面,良好的用户体验,还要有较高的更新频率.要被百度.google这样的搜索引擎大量收录,才能增加网站展示量,访问 ...
- robots.txt文件配置和使用方法详解
robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件 ...
- 没有robots.txt文件是否会影响收录呢
Spider在抓取您的网站之前,会访问您的robots.txt 文件,以确定您的网站是否会阻止 蜘蛛抓取任何网页或网址.如果您的 robots.txt 文件存在但无法访问(也就是说,如果它没有返回 2 ...
- 不可不知的robots.txt文件
robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索 ...
- Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件
解析 robots.txt 文件 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 ...
- 给自己的网站加上robots.txt
今天给自己的网站加了一个robots.txt,在网上收集整理了一些资料,给自己网站也加上了robots.txt ! 顺便给大家分享一下! 一.robots.txt是什么? robots.txt是一个纯 ...
随机推荐
- Linux系统将服务器时间与网络时间同步
遇到一种情景,就是多台服务器之间的时间并不是同步的,有的快有的慢,这时候就要用到网络时间了, 登陆到服务器上,输入命令date可以查询服务器的时间,需要同步的时候需要安装ntpdate; 1. 安装 ...
- Java反射机制小结和实际操作
一.什么是反射 1.编译和运行 在了解什么是Java反射机制前,先聊聊Java的编译和运行. 还记得第一次使用记事本编写第一个Java程序的场景吗?通过命令窗口,使用javac命令编译一个.java文 ...
- 我为什么要谈KeepAlive(文末增加nginx 负载tcp长连接保持 demo)
http://blog.sina.com.cn/s/blog_e59371cc0102ux5w.html 最近工作中遇到一个问题,想把它记录下来,场景是这样的: 从上图可以看出,用户通过Client访 ...
- BSOJ 5603 -- 【SNOI2017】炸弹
题好数据水系列,网上的十几行神仙解法A了原数据. 这道题要用到线段数优化建图的知识.然而考试考到这道题时我还不会. 我们设分别表示每个炸弹向左和向右最远能炸到哪个炸弹.很容易想到一个思路,就是每个炸弹 ...
- UVA11059-Maximum Product(动态规划)
Problem UVA11059-Maximum Product Accept:4769 Submit:38713 Time Limit: 3000 mSec Problem Descriptio ...
- VM虚拟机ubantu自适应屏幕大小
1.菜单栏安装VMware-Tool sudo ./wmware-install.pl 2.sudo apt-get install open-vm-tools装完这两个就可以,有些人只安装了第一个, ...
- 转载 mvc:message-converters简单介绍 https://www.cnblogs.com/liaojie970/p/7736098.html
mvc:message-converters简单介绍 说说@ResponseBody注解,很明显这个注解就是将方法的返回值作为reponse的body部分.我们进一步分析下这个过程涉及到的内容,首先就 ...
- linux命令之vmstat
vmstat 参数 功能:报告虚拟内存.swap.io.上下文和 CPU 统计信息. 分析了这些文件: /proc/meminfo /proc/stat /proc/*/stat 常用选项: -a 打 ...
- Django 分页器
Django作为Python Web开发框架的一哥,提供了企业级网站开发所需要的几乎所有功能,其中就包括自带分页功能.利用Django自带的Paginator类,我们可以很轻松地实现分页.Django ...
- selenium:断言
在编写自动化测试脚本时,为了使“机器”去自动辨识test case的执行结果是True还是False,一般都需要在用例执行过程中获取一些信息,来判断用例的执行时成功还是失败. 判断成功失败与否,就涉及 ...