简介

  网站所有者使用/robots.txt文件向网站机器人提供有关其网站的说明;这称为 Robots Exclusion Protocol.它的工作原理是这样的:robot 想要访问一个网站URL,比如http://www.example.com/welcome.html。在此之前,它首先检查http://www.example.com/robots.txt,并找到:

  

 User-agent: *
Disallow: /
  “User-agent:*”表示此部分适用于所有 robot 。 “Disallow:/”告诉robot 它不应该访问网站上的任何页面。
    

  使用 robots.txt 时有两个重要注意事项:
  1. robot 可以忽略您的 robots.txt。特别是扫描网络的安全漏洞的恶意robot,以及垃圾邮件发送者使用的电子邮件地址收集器将不会引起注意。   
  2. robots.txt文件是一个公开可用的文件。任何人都可以查看您不希望robots 使用的服务器部分。

如何创建 robots.txt文件:

  在哪里放:

    简单的来说:在您的Web服务器的顶级目录中。详细来解释:当 robots 寻找URL的“robots.txt”文件时,它会从URL中删除路径组件(从第一个单斜杠开始),并在其位置放置“robots.txt”。例如,对于“http://www.example.com/shop/index.html”,它将删除“/shop/index.html”,并将其替换为“/robots.txt”,最后将“http://www.example.com/robots.txt”。

  如何写:

    “robots.txt”文件是一个文本文件,具有一个或多个记录。通常包含单个记录,看起来像这样:

    

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
    在此示例中,排除了三个目录。
    注意,您需要为要排除的每个网址前缀单独留出一个“Disallow” - 您不能在一行上说“Disallow:/ cgi-bin / / tmp /”。此外,记录中不能有空行,因为它们用于定界多个记录。并且在这里是不支持正则表达式的。

  下面是一些例子:

    从整个服务器中排除所有robot
    

User-agent: *
Disallow: /

    允许所有漫游器完成访问

User-agent: *
Disallow:
    排除单个机器人
User-agent: BadBot
Disallow: /

    允许单个机器人

User-agent: Google
Disallow: User-agent: *
Disallow: /

    排除除一个文件外的所有文件。这是一个有点尴尬,因为没有“允许”字段。简单的方法是将所有不允许的文件放入一个单独的目录,比如“stuff”,然后将该文件放在该目录的上面:  

User-agent: *
Disallow: /~joe/stuff/

或者,您也可以明确禁止所有禁止的网页:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

  

 

robots 小记的更多相关文章

  1. [原]Paste.deploy 与 WSGI, keystone 小记

    Paste.deploy 与 WSGI, keystone 小记 名词解释: Paste.deploy 是一个WSGI工具包,用于更方便的管理WSGI应用, 可以通过配置文件,将WSGI应用加载起来. ...

  2. MySql 小记

    MySql  简单 小记 以备查看 1.sql概述 1.什么是sql? 2.sql发展过程? 3.sql标准与方言的关系? 4.常用数据库? 5.MySql数据库安装? 2.关键概念 表结构----- ...

  3. Git小记

    Git简~介 Git是一个分布式版本控制系统,其他的版本控制系统我只用过SVN,但用的时间不长.大家都知道,分布式的好处多多,而且分布式已经包含了集中式的几乎所有功能.Linus创造Git的传奇经历就 ...

  4. 广州PostgreSQL用户会技术交流会小记 2015-9-19

    广州PostgreSQL用户会技术交流会小记 2015-9-19 今天去了广州PostgreSQL用户会组织的技术交流会 分别有两个session 第一个讲师介绍了他公司使用PostgreSQL-X2 ...

  5. 东哥读书小记 之 《MacTalk人生元编程》

         一直以来的自我感觉:自己是个记性偏弱的人.反正从小读书就喜欢做笔记(可自己的字写得巨丑无比,尼玛不科学呀),抄书这事儿真的就常发生俺的身上. 因为那时经常要背诵课文之类,反正为了怕自己忘记, ...

  6. Paypal支付小记

    Paypal支付小记 *:first-child { margin-top: 0 !important; } body>*:last-child { margin-bottom: 0 !impo ...

  7. 网站 robots.txt 文件编写

    网站 robots.txt 文件编写 Intro robots.txt 是网站根目录下的一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的 ...

  8. Robots.txt - 禁止爬虫(转)

    Robots.txt - 禁止爬虫 robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: v ...

  9. (转载)robots.txt写法大全和robots.txt语法的作用

    1如果允许所有搜索引擎访问网站的所有部分的话 我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可.robots.txt写法如下:User-agent: *Disallow ...

随机推荐

  1. [Erlang05]gen_server怎么去写eunit?

    Prework: 怎样写一个基本的Eunit? Doc. 1. 加入头文件:声明此模块以”_test”结尾的函数都是测试用,并在编译时自动在这个模块里加入test()函数(当然这个可以用宏来控制) - ...

  2. Transaction And Lock--常用的查询事务和锁的语句

    --===================================================== --查看当前运行事务 SET TRANSACTION ISOLATION LEVEL R ...

  3. thinkphp里数据嵌套循环

    做thinkphp时要用到循环里面嵌套循环的,并第二个循环是和外面的有关联的. thinkphp官网给出的文档为: <volist name="list" id=" ...

  4. django media配置

    当我们需要向服务器发送图片或视频,需要对这些媒体文件进行保存时,需要指定保存在哪并将保存的路径添加到路由中. 1.设置settings.py MEDIA_URL = '/media/' MEDIA_R ...

  5. OO 面向对象的概念

    面向对象的概念 一.什么是面向对象? 传统的:世间万物都是对象.例如:桌子,凳子,电脑等: 个人理解: 1.软件开发方法: 2.面向对象是一种解决问题和分析问题的(编程)一种思想: 3.他是通过面向过 ...

  6. QTP如何准确识别Dialog中的对象

    QTP脚本中有一个点击网页弹出框确定按钮的操作,实际运行时发现存在问题:调试过程,可正常识别并点击:但批量运行时不能识别并点击的概率接近100%. 修改WinButton的其中一个对象属性后,该问题解 ...

  7. [USACO17DEC]Standing Out from the Herd(广义后缀自动机)

    题意 定义一个字符串的「独特值」为只属于该字符串的本质不同的非空子串的个数.如 "amy" 与 “tommy” 两个串,只属于 "amy" 的本质不同的子串为 ...

  8. Windows便签快捷键

    Win+R 是运行的快捷件打 StikyNot 回车 快捷键 功能Ctrl+N 新建一张便笺Ctrl+D 删除当前便笺Ctrl+E 居中对齐Ctrl+R 右对齐Ctrl+J 左对齐Ctrl+I 斜体C ...

  9. Vim寄存器

    (cut && copy && paste) VS ( delete && yank && put ) "" 无名寄 ...

  10. python3之循环

    本节主要介绍python中循环语句的用法以及其他一些语句exec等,文章后面附有之前的文章: 循环语句 if是值执行一次而循环时在条件满足情况下可以执行相同语句多次:使用循环可以轻松实现序列,词典等的 ...