Robots.txt 编写

搜索引擎Robots协议，是放置在网站根目录下robots.txt文本文件，在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛Spider抓取内容规则。下面Seoer惜缘举例robots写法规则与含义：

　　首先要创建一个robots.txt文本文件，放置网站的根目录下，下面就开始编辑设置Robots协议文件：

　　一、允许所有搜索引擎蜘蛛抓取所以目录文件，如果文件无内容，也表示允许所有的蜘蛛访问，设置代码如下：

　　User-agent: *

　　Disallow:

　　或者

　　User-agent: *

　　Allow: /

　　二、禁止某个搜索引擎蜘蛛抓取目录文件，设置代码如下：

      User-agent: Msnbot
      Disallow: /

　　User-agent: Msnbot

　　Disallow: /

　　例如想禁止MSN的蜘蛛抓取就设为，Msnbot代表MSN的蜘蛛，如果想禁止其他搜索引擎就更换蜘蛛名字即可，其他蜘蛛名字如下：

　　百度的蜘蛛：baiduspider

　　Google的蜘蛛： Googlebot

　　腾讯Soso:Sosospider

　　Yahoo的蜘蛛：Yahoo Slurp

　　Msn的蜘蛛：Msnbot

　　Altavista的蜘蛛：Scooter

　　Lycos的蜘蛛： Lycos_Spider_(T-Rex)

　　三、禁止某个目录被搜索引擎蜘蛛抓取，设置代码如下：

　　User-agent: *

　　Disallow: /目录名字1/

　　Disallow: /目录名字2/

　　Disallow: /目录名字3/

　　把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取，目录名字未写表示可以被搜索引擎抓取。

　　四、禁止某个目录被某个搜索引擎蜘蛛抓取，设置代码如下：

　　User-agent: 搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)Disallow: /目录名字/ 说明(这里设定禁止蜘蛛抓取的目录名称)例如，想禁目Msn蜘蛛抓取admin文件夹，可以设代码如下：

　　User-agent: Msnbot

　　Disallow: /admin/

　　五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓取，设置代码如下:

　　User-agent: *

　　Disallow: /*.htm 说明(其中“.htm”，表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)

　　六、充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取，设置代码如下:

　　User-agent: *

　　Allow: .htm$ 说明(其中“.htm”，表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件)

　　七、只充许某个搜索引擎蜘蛛抓取目录文件，设置代码如下：

　　User-agent: 搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)

　　Disallow:

Robots.txt 编写的更多相关文章

网站 robots.txt 文件编写
网站 robots.txt 文件编写 Intro robots.txt 是网站根目录下的一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的 ...
SEO优化-robots.txt解读
一.什么是robots.txt robots.txt 文件由一条或多条规则组成.每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径. 通俗一点的说法就是:告诉爬虫,我这个网站,你哪些能看 ...
SEO之robots.txt
[关键词:robot.txt,sitemap,User-Agent,Disallow,Allow][声明:摘自Wikipedia] 1. 定义:robots.txt(统一小写)是一种存放于网站根目录下 ...
Robots.txt - 禁止爬虫（转）
Robots.txt - 禁止爬虫 robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: v ...
(转载)robots.txt写法大全和robots.txt语法的作用
1如果允许所有搜索引擎访问网站的所有部分的话我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可.robots.txt写法如下:User-agent: *Disallow ...
robots.txt文件没错，为何总提示封禁
大家好,我的robots.txt文件没错,为何百度总提示封禁,哪位高人帮我看看原因,在此谢过. 我的站点www.haokda.com,robots.txt如下: ## robots.txt for P ...
springMVC robots.txt 处理
正常情况这样就好使 <mvc:resources mapping="/robots.txt" location="/lib/robots.txt"/> ...
robots.txt的介绍和写作
目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用.本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录.所以下面这篇文 ...
网站SEO优化之Robots.txt文件写法。
作为网站开发者或网站管理员一定知道网站对搜索引擎的优化有多重要,好的网站不仅要有漂亮的界面,良好的用户体验,还要有较高的更新频率.要被百度.google这样的搜索引擎大量收录,才能增加网站展示量,访问 ...

随机推荐

Java多线程的同步控制记录
Java多线程的同步控制记录一.重入锁重入锁完全可以代替 synchronized 关键字.在JDK 1.5 早期版本,重入锁的性能优于 synchronized.JDK 1.6 开始,对于 sy ...
jsp javabean开发模式
JSP&&JavaBean开发模式在jsp+javabean架构中,jsp负责控制逻辑,表现逻辑,业务对象的调用 jsp+javaBean模式适合开发业务逻辑不复杂的web应用,这种 ...
c++模板函数声明定义分离编译错误详解
今天看到accelerated c++上有个简单的vector容器的实现Vec,就再vs2008上编译了下: ///// Vec.h #ifndef GUARD_VEC_H #define GUARD ...
VS2003在win7 64位的调试
win7 64位下安装了VS2003 ,在调试时,一直加载不了W3P.解决方案是.打开VS时,右键已管理员身份打开,即可调试.
GSM中时隙、信道、突发序列、帧的解释
刚从论坛中看到有人问GSM中时隙.信道.突发序列.帧知识.今天我们数字通信正好上到这一块,我就根据我知道的和网上搜索的回答! 1.时分多路复用技术 FDMA:频分多址 TDMA:时分多址 CDMA:码 ...
Java eclipse Myeclipse tomcat安装及配置
Java eclipse Myeclipse tomcat安装及配置作者:天涯来源:中国自学编程网发布日期:1223857747目前,开发Java网页程序,最流行的就是用Myeclipse来进行编 ...
jenkins系列（9）--插件之Archive The Artifacts
点击标题下「蓝色微信名」可快速关注坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...
通过JS动态创建和删除HTML元素
<script type="text/javascript" language="Javascript"> function InputOnBlur ...
Python高手之路 ------读书有感
最近忙中偷闲把前些年买的<Python高手之路>翻了出来,大致看完了一遍,其中很多内容并不理解,究其原因应该是实践中的经验不足,而这对于现如今的我仍是难以克服的事情,对此也就只能说是看会了 ...
Linux博客系统服务器搭建
linux(CentOS)服务器搭建前言拿到购买的服务器信息后,会给出一个服务器的账号的密码,看你自己设置,账号一般为root. 拿到后,可在阿里云官网登录进入服务器.然后就可以进行一下的流程从而 ...

Robots.txt 编写

Robots.txt 编写的更多相关文章

随机推荐

热门专题