网页SEO内容

关于网页根目录下的robots.txt文件的部分疑问

robots.txt
书写语法：
第一条:User-agent，后接搜索引擎的蜘蛛名称
第二条:Disallow，填写要拦截的部分
经典语法：
User-agent:*
Disallow:

User-agent:*
Allow:/

User-agent:*
Disallow:/

User-agent:Baiduspider
Disallow:/

User-agent:BaiduspiderDisallow:
User-agent:*Disallow:/

User-agent:*
Disallow:/admin/
Allow:/images/

User-agent:*
Disallow:/admin/*.php$
Allow:/admin/*.asp$

User-agent:*Disallow:/*?*

在对 robots.txt 文件设置记录时，要特别注意 Disallow 与 Allow 行的顺序是有意义的，spider 会根据第一个匹配成功的 Allow 或 Disallow 行确定是否访问某个URL。
举例说明：
允许 spider 访问 /cgi-bin/ 目录下的包含 see 的文件夹或URL
User-agent: *
Allow: /cgi-bin/see
Disallow: /cgi-bin/
如果Allow 和 Disallow 的顺序调换一下：
User-agent: *
Disallow: /cgi-bin/
Allow: /cgi-bin/see
spider 就无法访问到 /cgi-bin/ 目录下的包含 see 的文件夹或URL，因为第一个 Disallow: /cgi-bin/ 已经匹配成功。

Disallow 和 Allow 记录后面可以是一条完整的路径，也可以是路径的非空前缀。例如 “Disallow: /help” 禁止 spider 访问/help.html、/helpabc.html、/help/index.html；而 “Disallow:/help/” 则允许 spider 访问 /help.html、/helpabc.html，不能访问 /help/index.html

网页SEO内容的更多相关文章

C#抓取网页HTML内容
网上很多内容采集工具,今天就自己试着写一个,发现C#可以轻松的抓去网页的内容,进而通过正则来分离出自己感兴趣的数据.下面是抓去网页内容的代码: using System; using System.C ...
使用Teleport Pro离线下载网页所有内容
在学习生活中,碰到网页中内容太多,如何讲其保存到本地,已方便随时查看呢? 使用Teleport Pro就可以解决问题: 首先下载Teleport Pro V1.54 汉化绿色版的,解压完之后 ...
c# 正则表达式对网页进行内容抓取
原文 c# 正则表达式对网页进行内容抓取搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容.简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分(我 ...
获取WebView里的网页文本内容
获取WebView里的网页文本内容,能够採用例如以下方法: public class ComJSInterface { public void loadHtmlContent(String conte ...
Windows 和 Linux下使用socket下载网页页面内容（可设置接收/发送超时）的代码
主要难点在于设置recv()与send()的超时时间,具体要注意的事项,请看代码注释部分,下面是代码: #include <stdio.h> #include <sys/types. ...
JS 阻止整个网页的内容被选中
pretty-girl { -webkit-user-select: none; } 可是!可是!不是每个浏览器都可以不忧桑!!!那就只能请脚本大王出山了. 阻止选中有时候,我们需要禁止用户选中一些 ...
用TcpClient如何获取远程网页的内容
用TcpClient如何获取远程网页的内容 private string GetHTMLTCP(string URL) { string strHTML = "";//用来保存获得 ...
定义一个方法get_page(url),url参数是需要获取网页内容的网址，返回网页的内容。提示（可以了解python的urllib模块）
定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容.提示(可以了解python的urllib模块) import urllib.request def get_ ...
黄聪：C#获取网页HTML内容的三种方式
C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse. 方法一:使用WebClient static void ...

随机推荐

转载--初识绘图工具plantUML
原文出处:http://www.jianshu.com/p/e92a52770832 什么是 PlantUML PlantUML 是一个画图脚本语言,用它可以快速地画出: 时序图流程图用例图状态 ...
git stash让bug来的更猛烈些吧
git stash可以用来暂存当前正在进行的工作,比如想pull最新的代码,又不想加新commit, 或者有一个紧急的bug需要修复,但是这个bug又与你已经在做的工作(还没完成)有关联.这个时候有的 ...
Leetcode-37-Sudoku Solver(Hard)
此处先留空使用搜索和回溯,递归来实现参考:http://blog.csdn.net/zxzxy1988/article/details/8586289 描述简介,代码量最少
angular中的cookie读写
AngularJS中对cookie的操作封装了一个单独的模块,模块名为ngCookies,若想使用需在页面中先引入angular-cookies.js: <script src="js ...
Genymotion下载失败解决方法
Genymotion下载虚拟机版本时会很慢,而且经常下载失败解决方法如下: 1.先去选择下载你需要的版本,之后会下载(很慢),或者失败. 2.到C:\Users\yourname\AppData\L ...
SAP HANA学习资料大全[非常完善的学习资料汇总]
Check out this SDN blog if you plan to write HANA Certification exam http://scn.sap.com/community/ha ...
[SOJ]连通性问题
Description 关系R具有对称性和传递性.数对p q表示pRq,p和q是0或自然数,p不等于q.要求写一个程序将数对序列进行过滤,如果一个数对可以通过前面数对的传递性得到,则将其滤去.例如:输 ...
C# 语言规范_版本5.0 (第8章语句)
1. 语句 C# 提供各种语句.使用过 C 和 C++ 编程的开发人员熟悉其中大多数语句. statement: labeled-statement declaration-statement emb ...
sudo密码错误的解决办法
按一下Caps Lock键,如果大写灯亮了,再按一下. 然后重新输入sudo密码,尝试.
七天学会ASP.NET MVC(1-3)源代码下载
原文路径: 中文: http://www.cnblogs.com/powertoolsteam/p/MVC_one.html 英文: http://www.codeproject.com/Artic ...

网页SEO内容

网页SEO内容的更多相关文章

随机推荐

热门专题