作为网站开发者或网站管理员一定知道网站对搜索引擎的优化有多重要,好的网站不仅要有漂亮的界面,良好的用户体验,还要有较高的更新频率。要被百度、google这样的搜索引擎大量收录,才能增加网站展示量,访问量和排名,以达到推广的目的。

所以,一般正规一点的公司都有专门的SEO专员负责网站的推广与更新。
说到SEO,首先要做的就是Robots.txt文件。

Robots.txt是一个非常简单的 搜索引擎声明文件(也叫网站蜘蛛声明文件),是用来帮助网站蜘蛛更快更好的理解网站的架构和站点地图。

这里,还有一个重要的文件,就是站点地图文件“sitemap.xml”(这个可以手工写,也可以使用工具抓取,如果网站比较简单可以自己手工写,一般推荐使用工具抓取。

下面来介绍一下我所理解的Robots.txt文件的写法。(其实我也是看电子书学来的,总结一下经验。呵呵)

Robots.txt写法是这样

A. 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /

B. 允许所有的robot 访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file

C. 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private 目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

D. 禁止某个搜索引擎的访问(下例中的Baiduspider)
User-agent: Baiduspider
Disallow: /

E. 只允许某个搜索引擎的访问(下例中的Baiduspider)
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /

F. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

G. 使用"*"限制访问url
ser-agent: *
本电子书由站长百科(www.zzbaike.com)教程制作组制作
获取更多信息请访问站长百科www.zzbaike.com 20
Disallow: /cgi-bin/*.htm
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

H. 使用"$"限制访问url
User-agent: *
Allow: .htm$
Disallow: /
仅允许访问以".htm"为后缀的URL。

I. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*

J. 禁止 Baiduspider 抓取网站上所有图片
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
仅允许抓取网页,禁止抓取任何图片。

K. 仅允许Baiduspider 抓取网页和.gif 格式图片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$

下面是一些著名站点的robots.txt,可以参考一下:
http://www.cnn.com/robots.txt
http://www.google.com/robots.txt

我自己的博客写法,比较简洁,供参考。

http://www.feikk.com/robots.txt

-------------------------------------

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /backup
Disallow: /avatar

Sitemap: http://www.feikk.com/sitemap.xml
Sitemap: http://www.feikk.com/sitemap_baidu.xml
Sitemap: http://www.feikk.com/sitemap.xml.gz
Sitemap: http://www.feikk.com/sitemap.html

-------------------------------------

说明(总结):

User-agent: *

代表所有搜索引擎,后面的*号可以自定义为想要设置的搜索引擎(如Baiduspider)

Disallow:/目录名/(作用:隐藏相应目录)

allow:/目录名/(作用:允许相应目录)

Disallow: /abc

后面没有“/”表示abc目录下的所有文件(包括子目录)不被蜘蛛抓取。

Disallow: /abc/

后面有“/”表示abc目录不被蜘蛛抓取,但不包括子目录。

另外,英文最好使用小写英文,虽然标准是没有大小写的,但是目录和文件名应该小写。

Robot.txt文件最后可以写上站点地图的地址,方便蜘蛛更全更快的索引你的站点。

Sitemap: http://www.feikk.com/sitemap.xml

好了,不多说了,这么简单的一个文本文件说上这么一堆。

其实最主要是告诉大家”Disallow: /abc“和”Disallow: /abc/“多一个”/“的区别,因为这个我有过迷惑。

By:Colin

转载请注明原文地址及作者,谢谢合作。

网站SEO优化之Robots.txt文件写法。的更多相关文章

  1. 网站SEO优化之添加Sitemap文件。

    Sitemap.xml 故名思意就是站点地图文件,可以指引Google spider 收录相应网页.正确地使用Google Sitemap,可以确保让Google spider 不遗漏网站内的任何页面 ...

  2. 网站的robots.txt文件

    什么是robots.txt? robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,一般位于网站的根目录下.robots.txt文件定义了爬虫在爬取该网站时存在的限制,哪些部分 ...

  3. robots.txt文件配置和使用方法详解

    robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件 ...

  4. 网站之robots.txt文件

    一.robots.txt是什么?   robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索引擎(又称搜索 ...

  5. 网站 robots.txt 文件编写

    网站 robots.txt 文件编写 Intro robots.txt 是网站根目录下的一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的 ...

  6. 【网站管理6】_一个网站SEO优化方案

    首先,前端/页编人员主要负责站内优化,主要从四个方面入手: 第一个,站内结构优化 合理规划站点结构(1.扁平化结构 2.辅助导航.面包屑导航.次导航) 内容页结构设置(最新文章.推荐文章.热门文章.增 ...

  7. 一个网站SEO优化方案

    首先,前端/页编人员主要负责站内优化,主要从四个方面入手: 第一个,站内结构优化 合理规划站点结构(1.扁平化结构 2.辅助导航.面包屑导航.次导航) 内容页结构设置(最新文章.推荐文章.热门文章.增 ...

  8. 《大型网站SEO优化实践》学习分享

    本文主要内容源自2013年阿里技术嘉年华中阿里巴巴周文君分享<大型网站SEO优化实践>.学习过后,受益匪浅,特作笔记,经常回顾吸收学习. 大型网站SEO的特点&优势&挑战 ...

  9. 不可不知的robots.txt文件

    robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索 ...

随机推荐

  1. hdu 4609 FFT

    题意:给出一堆数,问从这些数中取3个能组成三角形的概率? sol:其实就是问从这些数里取3个组成三角形有多少种取法 脑洞大开的解法:用FFT 设一开始的数是1 3 3 4 作一个向量x,其中x[i]= ...

  2. Linux、Windows Server Password Security Policy Strengthen

    catalog . windows Security and Protection(Logon and Authentication) . windows密码强制安全策略 . PAM(Pluggabl ...

  3. iOS 解决一个因三方静态库冲突产生的duplicate symbol的问题

    最近在开发项目时编译三方.a时出现了冲突,原因是存在duplicate symbol. <1>模拟器编译时,应用的即时通讯模块采用的三方库(容联云),和视频监控模块采用的三方库(海康威视) ...

  4. 【问题】R文件报错原因及解决办法 (转)

    错误如图.下面是几种解决方法(网上搜集的). 1.如果是导入项目出现这个问题,一般是R文件没有更新造成(据说导入项目,R不会自动更新).可以Project——clean以下,R文件会重新生成. 2.选 ...

  5. AngularJs ngReadonly、ngSelected、ngDisabled

    ngReadonly 该指令将input,textarea等文本输入设置为只读. HTML规范不允许浏览器保存类似readonly的布尔值属性.如果我们将一个Angular的插入值表达式转换为这样的属 ...

  6. K米--案例分析

    第三次作业- -K米软件评测 第一部分 调研.评测 评测: 下载并使用.描述最简单直观的个人第一次上手体验: 第一次下载打开.这个简介粗矿的界面让偶着实吓了一跳.界面设计的有板有眼.直接了当.就像是在 ...

  7. 【Alpha版本】冲刺-Day6

    队伍:606notconnected 会议时间:11月14日 会议总结 张斯巍(433) 今天安排:学习UI设计 完成度:100% 明天计划:上传界面设计 遇到的问题:无 感想:刚开始学的时候,都是从 ...

  8. 安装和使用Linux花生壳(公网版)

    一.安装说明 1.下载相应的安装包,安装程序 2.运行程序.配置程序(默认使用/etc/phlinux.conf,如果不存在这个文件则自动进入交互配置) [root@localhost -]# phd ...

  9. JS-DOM 综合练习-动态添加删除班级成绩表

    费了2个小时,才把原理弄懂,把问题逐个解决,当你发现你最后栽的那个点,是一个小石头拌的你,你起来是该哭还是该笑呢?只怪自己习武不精吧. 虽然问题都解决了,但是还有一个余留的问题就是鼠标经过input时 ...

  10. mac系统的一些操作常识

    mac系统如何显示和隐藏文件 苹果Mac OS X操作系统下,隐藏文件是否显示有很多种设置方法,最简单的要算在Mac终端输入命令.显示/隐藏Mac隐藏文件命令如下(注意其中的空格并且区分大小写): 显 ...