网站SEO优化之Robots.txt文件写法。
作为网站开发者或网站管理员一定知道网站对搜索引擎的优化有多重要,好的网站不仅要有漂亮的界面,良好的用户体验,还要有较高的更新频率。要被百度、google这样的搜索引擎大量收录,才能增加网站展示量,访问量和排名,以达到推广的目的。
所以,一般正规一点的公司都有专门的SEO专员负责网站的推广与更新。
说到SEO,首先要做的就是Robots.txt文件。
Robots.txt是一个非常简单的 搜索引擎声明文件(也叫网站蜘蛛声明文件),是用来帮助网站蜘蛛更快更好的理解网站的架构和站点地图。
这里,还有一个重要的文件,就是站点地图文件“sitemap.xml”(这个可以手工写,也可以使用工具抓取,如果网站比较简单可以自己手工写,一般推荐使用工具抓取。
下面来介绍一下我所理解的Robots.txt文件的写法。(其实我也是看电子书学来的,总结一下经验。呵呵)
Robots.txt写法是这样
A. 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /
B. 允许所有的robot 访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file
C. 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private 目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
D. 禁止某个搜索引擎的访问(下例中的Baiduspider)
User-agent: Baiduspider
Disallow: /
E. 只允许某个搜索引擎的访问(下例中的Baiduspider)
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
F. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
G. 使用"*"限制访问url
ser-agent: *
本电子书由站长百科(www.zzbaike.com)教程制作组制作
获取更多信息请访问站长百科www.zzbaike.com 20
Disallow: /cgi-bin/*.htm
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
H. 使用"$"限制访问url
User-agent: *
Allow: .htm$
Disallow: /
仅允许访问以".htm"为后缀的URL。
I. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
J. 禁止 Baiduspider 抓取网站上所有图片
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
仅允许抓取网页,禁止抓取任何图片。
K. 仅允许Baiduspider 抓取网页和.gif 格式图片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
下面是一些著名站点的robots.txt,可以参考一下:
http://www.cnn.com/robots.txt
http://www.google.com/robots.txt
我自己的博客写法,比较简洁,供参考。
http://www.feikk.com/robots.txt
-------------------------------------
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /backup
Disallow: /avatar
Sitemap: http://www.feikk.com/sitemap.xml
Sitemap: http://www.feikk.com/sitemap_baidu.xml
Sitemap: http://www.feikk.com/sitemap.xml.gz
Sitemap: http://www.feikk.com/sitemap.html
-------------------------------------
说明(总结):
User-agent: *
代表所有搜索引擎,后面的*号可以自定义为想要设置的搜索引擎(如Baiduspider)
Disallow:/目录名/(作用:隐藏相应目录)
allow:/目录名/(作用:允许相应目录)
Disallow: /abc
后面没有“/”表示abc目录下的所有文件(包括子目录)不被蜘蛛抓取。
Disallow: /abc/
后面有“/”表示abc目录不被蜘蛛抓取,但不包括子目录。
另外,英文最好使用小写英文,虽然标准是没有大小写的,但是目录和文件名应该小写。
Robot.txt文件最后可以写上站点地图的地址,方便蜘蛛更全更快的索引你的站点。
Sitemap: http://www.feikk.com/sitemap.xml
好了,不多说了,这么简单的一个文本文件说上这么一堆。
其实最主要是告诉大家”Disallow: /abc“和”Disallow: /abc/“多一个”/“的区别,因为这个我有过迷惑。
转载请注明原文地址及作者,谢谢合作。
网站SEO优化之Robots.txt文件写法。的更多相关文章
- 网站SEO优化之添加Sitemap文件。
Sitemap.xml 故名思意就是站点地图文件,可以指引Google spider 收录相应网页.正确地使用Google Sitemap,可以确保让Google spider 不遗漏网站内的任何页面 ...
- 网站的robots.txt文件
什么是robots.txt? robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,一般位于网站的根目录下.robots.txt文件定义了爬虫在爬取该网站时存在的限制,哪些部分 ...
- robots.txt文件配置和使用方法详解
robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件 ...
- 网站之robots.txt文件
一.robots.txt是什么? robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索引擎(又称搜索 ...
- 网站 robots.txt 文件编写
网站 robots.txt 文件编写 Intro robots.txt 是网站根目录下的一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的 ...
- 【网站管理6】_一个网站SEO优化方案
首先,前端/页编人员主要负责站内优化,主要从四个方面入手: 第一个,站内结构优化 合理规划站点结构(1.扁平化结构 2.辅助导航.面包屑导航.次导航) 内容页结构设置(最新文章.推荐文章.热门文章.增 ...
- 一个网站SEO优化方案
首先,前端/页编人员主要负责站内优化,主要从四个方面入手: 第一个,站内结构优化 合理规划站点结构(1.扁平化结构 2.辅助导航.面包屑导航.次导航) 内容页结构设置(最新文章.推荐文章.热门文章.增 ...
- 《大型网站SEO优化实践》学习分享
本文主要内容源自2013年阿里技术嘉年华中阿里巴巴周文君分享<大型网站SEO优化实践>.学习过后,受益匪浅,特作笔记,经常回顾吸收学习. 大型网站SEO的特点&优势&挑战 ...
- 不可不知的robots.txt文件
robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索 ...
随机推荐
- Non Lasting Storage File System、procfs、sysfs
catalog . 引言 . proc文件系统 . 简单的文件系统 . sysfs 0. 引言 传统上,文件系统用于在块设备上持久存储数据,但也可以使用文件系统来组织.提供.交换并不存储在块设备上的信 ...
- kickstart note
KickStart是一种无人职守安装方式 PXE + kickstart + DHCP + TFTP 1.挂载光盘 mount /dev/sr0 /mnt/iso cp -rf /mnt/iso/* ...
- Beta版本——第二次冲刺博客
我说的都队 031402304 陈燊 031402342 许玲玲 031402337 胡心颖 03140241 王婷婷 031402203 陈齐民 031402209 黄伟炜 031402233 郑扬 ...
- hdu 2036 - 改革春风吹满地(计算几何)
题意:求解多边形面积 解法: 先了解数学上"叉积"的含义与性质: 三角形ΔABC的面积为: 我们可以依次计算每个三角形的面积,ΔABC,ΔACE,ΔEF - - 所有三角形的面积之 ...
- 【Beta】第一次任务发布
后端 整理以下5个环节的API文档:登录注册.收藏以及获取收藏.个人信息的获取以及更新.发送实验数据以获取PDF报告 验收条件:每个接口说明请求格式(请求方式,请求内容)和返回格式 例: 请求 方式: ...
- JPA事务总结
http://www.soso.io/article/65405.html 事务管理是JPA中另一项重要的内容,了解了JPA中的事务管理,能够进一步掌握JPA的使用.事务管理是对一系列操作的管理,它最 ...
- 深入JVM-有关String的内存泄漏
什么是内存泄漏?所谓内存泄漏,就是由于疏忽或错误造成程序未能释放已经不再使用的内存的情况,他并不是说物理内存消失了,而是指由于不再使用的对象占据了内存不被释放,而导致可用内存不断减小,最终有可能导致内 ...
- spark操作elasticsearch数据的限制
对于复杂的数据类型,比如IP和GeoPoint,只是在elasticsearch中有效,用spark读取时会转换成常用的String类型. Geo types. It is worth mention ...
- svn 强制用户添加注释 和 允许用户修改注释
当我们用TortoiseSVN提交代码时,有很多人不喜欢写注释,导致以后代码版本多,也不清楚哪个版本到底改了什么东西.所以在提交的时候,我会强制要求添加注释.这是如何实现的?这个话题就涉及到了svn的 ...
- 重启nginx
在env/nginx/sbin目录下输入:nginx,即可重启