简介

　　网站所有者使用/robots.txt文件向网站机器人提供有关其网站的说明;这称为 Robots Exclusion Protocol.它的工作原理是这样的：robot 想要访问一个网站URL，比如http://www.example.com/welcome.html。在此之前，它首先检查http://www.example.com/robots.txt，并找到：

 User-agent: *

 Disallow: /

　　“User-agent：*”表示此部分适用于所有 robot 。 “Disallow：/”告诉robot 它不应该访问网站上的任何页面。

　　使用 robots.txt 时有两个重要注意事项：

robot 可以忽略您的 robots.txt。特别是扫描网络的安全漏洞的恶意robot，以及垃圾邮件发送者使用的电子邮件地址收集器将不会引起注意。　　　
robots.txt文件是一个公开可用的文件。任何人都可以查看您不希望robots 使用的服务器部分。

如何创建 robots.txt文件：

　　在哪里放：

　　　　简单的来说：在您的Web服务器的顶级目录中。详细来解释：当 robots 寻找URL的“robots.txt”文件时，它会从URL中删除路径组件（从第一个单斜杠开始），并在其位置放置“robots.txt”。例如，对于“http://www.example.com/shop/index.html”，它将删除“/shop/index.html”，并将其替换为“/robots.txt”，最后将“http://www.example.com/robots.txt”。

　　如何写：

　　　　“robots.txt”文件是一个文本文件，具有一个或多个记录。通常包含单个记录，看起来像这样：

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

　　　　在此示例中，排除了三个目录。

　　　　注意，您需要为要排除的每个网址前缀单独留出一个“Disallow” - 您不能在一行上说“Disallow：/ cgi-bin / / tmp /”。此外，记录中不能有空行，因为它们用于定界多个记录。并且在这里是不支持正则表达式的。

　　下面是一些例子：

　　　　从整个服务器中排除所有robot

User-agent: *

Disallow: /

　　　　允许所有漫游器完成访问

User-agent: *

Disallow:

　　　　排除单个机器人

User-agent: BadBot

Disallow: /

　　　　允许单个机器人

User-agent: Google

Disallow:

User-agent: *

Disallow: /

　　　　排除除一个文件外的所有文件。这是一个有点尴尬，因为没有“允许”字段。简单的方法是将所有不允许的文件放入一个单独的目录，比如“stuff”，然后将该文件放在该目录的上面：　　

User-agent: *

Disallow: /~joe/stuff/

或者，您也可以明确禁止所有禁止的网页：

User-agent: *

Disallow: /~joe/junk.html

Disallow: /~joe/foo.html

Disallow: /~joe/bar.html

robots 小记的更多相关文章

[原]Paste.deploy 与 WSGI, keystone 小记
Paste.deploy 与 WSGI, keystone 小记名词解释: Paste.deploy 是一个WSGI工具包,用于更方便的管理WSGI应用, 可以通过配置文件,将WSGI应用加载起来. ...
MySql 小记
MySql 简单小记以备查看 1.sql概述 1.什么是sql? 2.sql发展过程? 3.sql标准与方言的关系? 4.常用数据库? 5.MySql数据库安装? 2.关键概念表结构----- ...
Git小记
Git简~介 Git是一个分布式版本控制系统,其他的版本控制系统我只用过SVN,但用的时间不长.大家都知道,分布式的好处多多,而且分布式已经包含了集中式的几乎所有功能.Linus创造Git的传奇经历就 ...
广州PostgreSQL用户会技术交流会小记 2015-9-19
广州PostgreSQL用户会技术交流会小记 2015-9-19 今天去了广州PostgreSQL用户会组织的技术交流会分别有两个session 第一个讲师介绍了他公司使用PostgreSQL-X2 ...
东哥读书小记之《MacTalk人生元编程》
一直以来的自我感觉:自己是个记性偏弱的人.反正从小读书就喜欢做笔记(可自己的字写得巨丑无比,尼玛不科学呀),抄书这事儿真的就常发生俺的身上. 因为那时经常要背诵课文之类,反正为了怕自己忘记, ...
Paypal支付小记
Paypal支付小记 *:first-child { margin-top: 0 !important; } body>*:last-child { margin-bottom: 0 !impo ...
网站 robots.txt 文件编写
网站 robots.txt 文件编写 Intro robots.txt 是网站根目录下的一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的 ...
Robots.txt - 禁止爬虫（转）
Robots.txt - 禁止爬虫 robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: v ...
(转载)robots.txt写法大全和robots.txt语法的作用
1如果允许所有搜索引擎访问网站的所有部分的话我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可.robots.txt写法如下:User-agent: *Disallow ...

随机推荐

CentOS7安装confluenceWIKI并破解汉化
关闭防火墙和selinux 开始搭建Wiki前,需要下载一些软件包. wget https://www.atlassian.com/software/confluence/downloads/bi ...
delphi7的adoconnection控件连接不上
delphi时选择以{以管理员身份运行 }即可
MIDA Converter Basic patched for RAD Studio 10.1.2 Berlin （VCL转换到FMX）
Mida is the only way to try to convert your project from VCL to FireMonkey. Version after version, M ...
redis内部数据结构
redis内部数据结构,是指redis在自身的构建中,基于这些特定的内部数据结构进行的. 简单动态字符串:Simple Dynamic String 双端链表字典:Dictonary 跳跃表:ski ...
c#实现高斯模糊
说说高斯模糊高斯模糊的理论我这里就不太多费话了,百度下太多,都是抄来抄去. 主要用到二个函数“高斯函数” 一维形式为: 二维形式为: X,Y对应的一维二维坐标,σ表示模糊半径(半径* 2 + 1) ...
CentOS下Docker与.netcore(二) 之 Dockerfile
CentOS下Docker与.netcore(一) 之安装 CentOS下Docker与.netcore(二) 之 Dockerfile CentOS下Docker与.netcore(三)之三剑客 ...
NOI2007 社交网络
题目链接:戳我就是在floyd计算dis的时候,顺便把两点之间最短路的个数也计算了qwqwq \(sum[i][j]=\sum sum[i][k]*sum[k][j]\) 代码如下: #includ ...
OCP2018最新题库，052新题库及答案整理-25题
25.Which is true about logical and physical database structures? (Choose the best answer) A. An undo ...
“全栈2019”Java第六十三章：接口与抽象方法详解
难度初级学习时间 10分钟适合人群零基础开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
zTree第五章，zTree的nodes数据例子
var nodes1 = [ { name: "小学", iconOpen: folderOpen, iconClose: folder, chkDisabled :true, c ...

robots 小记

简介

如何创建 robots.txt文件：

在哪里放：

如何写：

下面是一些例子：

robots 小记的更多相关文章

随机推荐

热门专题

　　在哪里放：

　　如何写：

　　下面是一些例子：