一、利于网站优化的robots.txt使用技巧

1、在线建站提供方便之路。当我们将域名解析到服务器,可以访问站点了,可是这个时候站点还没有布局好,meta标签还一塌糊涂。乳沟此时的站点被 搜索引擎蜘蛛抓取收录了,到时再更改就很不利于SEO优化。这时就可以利用robots.txt文件来设置所有搜索引擎蜘蛛不允许查询站点的所有内容。其 语法格式为:

User-agent: *
Disallow: / 

2、定制搜索引擎蜘蛛抓取指定内容,能让你根据站点情况来选择怎样和搜索引擎打交道。这里有两层意思。

(1)定制搜索引擎。如果你不屑度娘的所作所为的话,可以这样子让它只能对你吹胡子瞪眼。其语法格式为:

User-agent: baiduspider
Disallow: /

注:常见的搜索引擎机器人名称。

名称                                              搜索引擎
Baiduspider                               http://www.baidu.com
Scooter                                       http://www.altavista.com
ia_archiver                                 http://www.alexa.com
Googlebot                                  http://www.google.com
FAST-WebCrawler                   http://www.alltheweb.com
Slurp                                           http://www.inktomi.com
MSNBOT                                    http://search.msn.com

(2)定制站点内容。也就是说你可以指定某个目录允许spider爬行,某个目录禁止spider爬行。如所有搜索引擎蜘蛛,允许抓取目录abc下的内容,禁止抓取目录def下的内容,其语法格式为:

User-agent: * 
Allow: /abc/
Disallow: /def/

3、引导搜索引擎抓取网站内容。这里最典型的做法有

(1)引导蜘蛛抓取你的网站地图。其语法格式为:

 User-agent: * 
 sitemap:sitemap-url

(2)防止蜘蛛抓取你的网站重复内容。

4、404错误页面问题。如果你的服务器自定应了404错误页面而在你站点根目录没有配置robots.txt文件,那么搜索引擎蜘蛛会将其视为robots.txt文件,这将影响搜索引擎对你网站页面的收录。

二、特定程序建站robots.txt的写法。这里只是提供通用的,具体的情况自己斟酌哦。

1、DedeCMS建站的robots.txt文件写法

User-agent: *
Disallow: /plus/feedback_js.php
Disallow: /plus/feedback.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
Disallow: /member

2、WordPress建站的robots.txt文件写法

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.***.com/sitemap.xml

3、phpcms建站的robots.txt文件写法

User-agent: *
Disallow: /admin
Disallow: /data
Disallow: /templates
Disallow: /include
Disallow: /languages
Disallow: /api
Disallow: /fckeditor
Disallow: /install
Disallow: /count.php
Disallow: /comment
Disallow: /guestbook
Disallow: /announce
Disallow: /member
Disallow: /message
Disallow: /spider
Disallow: /yp
Disallow: /vote
Disallow: /video

4、discuz论坛的robots.txt文件写法

User-agent: * 
Allow: /redirect.php 
Allow: /viewthread.php 
Allow: /forumdisplay.php 
Disallow: /? 
Disallow: /*.php

转载自:http://www.chinaz.com/web/2011/0324/167374.shtml

robots.txt使用和优化技巧的更多相关文章

  1. SEO优化-robots.txt解读

    一.什么是robots.txt robots.txt 文件由一条或多条规则组成.每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径. 通俗一点的说法就是:告诉爬虫,我这个网站,你哪些能看 ...

  2. 网站SEO优化之Robots.txt文件写法。

    作为网站开发者或网站管理员一定知道网站对搜索引擎的优化有多重要,好的网站不仅要有漂亮的界面,良好的用户体验,还要有较高的更新频率.要被百度.google这样的搜索引擎大量收录,才能增加网站展示量,访问 ...

  3. 织梦dedecms网站六大SEO优化技巧(转帖)

    一个排名好的网站离不开好的cms,当然不同cms各有各的好处,因此我们在上线新网站的时候,要针对不同的情况因地制宜,选择不同的网站管理系统来做seo优化,现在使用比较流行的cms是织梦dedecms, ...

  4. SEO优化技巧总结

    SEO优化技巧总结 一:了解搜索引擎 基础知识 搜索引擎:由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,经过预处理,用户在搜索框 输入关键词后,搜索引擎排序从数据库中挑选出符合搜索关键词要求 ...

  5. robots.txt网站爬虫文件设置

    目录: 什么是robots.txt robots.txt使用误区 robots.txt使用技巧 什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.Robo ...

  6. 网站之robots.txt文件

    一.robots.txt是什么?   robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索引擎(又称搜索 ...

  7. 网络安全:robots.txt防止向黑客泄露后台地址和隐私目录的写法

    做优化的朋友都知道网站的robots的目的是让搜索引擎知道我们网站哪些目录可以收录,哪些目录禁止收录.通常情况蜘蛛访问网站时,会首先检查你的网站根目录是否有robots文件,如果有,则会根据此文件来进 ...

  8. SEO之robots.txt

    [关键词:robot.txt,sitemap,User-Agent,Disallow,Allow][声明:摘自Wikipedia] 1. 定义:robots.txt(统一小写)是一种存放于网站根目录下 ...

  9. MySQL 性能优化技巧

    原文地址:MySQL 性能优化技巧 博客地址:http://www.extlight.com 一.背景 最近公司项目添加新功能,上线后发现有些功能的列表查询时间很久.原因是新功能用到旧功能的接口,而这 ...

随机推荐

  1. JSP页面无法使用EL导致"java.sql.SQLException: No suitable driver found for ${snapshot}"的问题

    使用JSTL来连接mysql,这个问题折腾了半天,老以为是Mysql驱动的问题,还好最后偶然发现了是EL表达式识别不了,报错: javax.servlet.ServletException: java ...

  2. 函数重载(overload)和函数重写(override)

    1. 前言: 在C++中有两个非常容易混淆的概念,分别是函数重载(overload)和函数重写(overwirte).虽然只相差一个字,但是它们两者之间的差别还是非常巨大的. 而通过深入了解这两个概念 ...

  3. py3.6+anaconda下安装opencv3

    py3.6+anaconda下安装opencv3 首先声明-网上的方法大多数都是有毒的.也不知道给的什么鬼方法都不行. 我说下我的方法.去这个网站https://pypi.tuna.tsinghua. ...

  4. 贵州省未来二十年的投资机会的探讨1>

    贵州的股市 1.000540.SZ 中天金融 2.000589.SZ 黔轮胎A 3.000733.SZ 振华科技 4.000851.SZ 高鸿股份 5.000920.SZ 南方汇通 6.002025. ...

  5. 单源最短路——SPFA算法(Bellman-Ford算法队列优化)

    spfa的算法思想(动态逼近法):     设立一个先进先出的队列q用来保存待优化的结点,优化时每次取出队首结点u,并且用u点当前的最短路径估计值对离开u点所指向的结点v进行松弛操作,如果v点的最短路 ...

  6. Java 集合框架之 Map

    Hashtable Hashtable 的实例有两个参数影响其性能:初始容量 和加载因子.容量 是哈希表中桶 的数量,初始容量就是哈希表创建时的容量.注意,哈希表的状态为 open:在发生“哈希冲突” ...

  7. Thrift IDL使用方式

    I.背景 众所周知,Thrift是一个RPC的框架,其可用于不同语言之间的服务相互调用.比如最近接触到的一个运用环境: *前端使用Node.Js重构了部分我们的老旧代码(前后端未分离的SpringBo ...

  8. PagedDataSource数据绑定控件和AspNetPager分页控件结合使用列表分页

    1.引用AspNetPager.dll. 2.放置Repeater数据绑定控件. <asp:Repeater ID="Repeater1" runat="serve ...

  9. 3dContactPointAnnotationTool开发日志(二四)

      添加了清空2d接触点的按钮,将输出的2d接触点的单位变成了像素,原点在图像的左下角.   对于obj文件的适配更加多样化了.

  10. phpcms 本地环境调试缓慢 解决办法

    用记事本打开host文件,(文件位置,windows下一般在路径C:\Windows\System32\drivers\etc下)找到#127.0.0.1      localhost 这一句  去掉 ...