抽象

本文档详细介绍了页级索引设置如何让您控制Google如何通过搜索结果提供内容。您可以通过在(X)HTML页面或HTTP标头中包含元标记来指定这些标记。

笔记

  • 请注意,只有当抓取工具被允许访问包含这些设置的页面时,才可以阅读和遵守这些设置。
  • <meta name="robots" content="noindex" />标签或指令适用于搜索引擎爬虫。要拦截非搜索抓取工具(例如AdsBot-Google),您可能需要添加针对特定抓取工具的指令(例如 <meta name="AdsBot-Google" content="noindex" />

使用机器人元标记

漫游器元标记可让您利用细粒度的,特定于页面的方法来控制如何将单个页面编入索引并提供给搜索结果中的用户。将robots meta标签放在给定页面的<head>部分,如下所示:

 
<!DOCTYPE html>
<HTML> <HEAD>
<meta name =“robots”content =“noindex”/>
(...)
</ HEAD>
<body> (...) </ body>
</ HTML>

上例中的机器人元标记指示大多数搜索引擎不要在搜索结果中显示该页面。nameattribute(robots)的值 指定该指令适用于所有爬网程序。要解决特定的搜寻器问题,请robots 将该name 属性的值替换为您正在寻址的搜寻器的名称。特定的抓取工具也被称为用户代理(抓取工具使用其用户代理来请求页面)。Google的标准抓取工具具有用户代理名称Googlebot。为了防止Googlebot抓取您的网页,请按如下方式更新代码:

 
<meta name =“googlebot”content =“noindex”/>

这个标签现在指示Google(但不包括其他搜索引擎)不要在其网页搜索结果中显示此页面。无论是namecontent属性是不区分大小写。

搜索引擎可能会针对不同的属性或用途使用不同的搜寻器。查看Google抓取工具完整列表。例如,要在Google的网络搜索结果中显示一个页面,但不在Google新闻中显示,请使用以下元标记:

 
<meta name =“googlebot-news”content =“noindex”/>

如果您需要分别指定多个抓取工具,则可以使用多个机器人中继标记:

 
<meta name =“googlebot”content =“noindex”>
<meta name =“googlebot-news”content =“nosnippet”>

如果我们的抓取工具遇到竞争指令,我们将使用我们发现的最严格的指令。

回到顶部

使用X-Robots-TagHTTP标头

X-Robots-Tag可被用作对于给定的URL的HTTP标头响应的一个元素。任何可用于漫游器元标记的指令也可以指定为X-Robots-Tag。下面是一个HTTP响应示例,X-Robots-Tag指示搜寻器不索引页面:

 
HTTP / 1.1 200 OK
日期:2010年5月25日星期二21:42:43 GMT
(...)
X-Robots-Tag:noindex
(...)

多个X-Robots-Tag头可以在HTTP响应中组合,或者您可以指定逗号分隔的指令列表。下面是一个HTTP头响应的例子,它noarchive X-Robots-Tag与一个unavailable_after X-Robots-Tag

 
HTTP / 1.1 200 OK
日期:2010年5月25日星期二21:42:43 GMT
(...)
X-Robots-Tag:noarchive
X-Robots-Tag:unavailable_after:25 Jun 2010 15:00:00 PST

(...)

X-Robots-Tag该指令之前可以任选地指定用户代理。例如,以下一组X-Robots-TagHTTP标头可用于有条件地允许在不同搜索引擎的搜索结果中显示一个页面:

 
HTTP / 1.1 200 OK
日期:2010年5月25日星期二21:42:43 GMT
(...)
X-Robots-Tag:googlebot:nofollow
X-Robots-Tag:otherbot:noindex,nofollow

(...)

没有用户代理指定的指令适用于所有爬网程序。以下部分演示如何处理组合指令。名称和指定的值不区分大小写。

回到顶部

有效的索引和服务指令

可以使用其他几个指令来控制索引并使用机器人元标记和 X-Robots-Tag。每个值代表一个特定的指令。下表显示了Google所授予的所有指令及其含义。请注意:所有其他搜索引擎抓取工具都可能不会对这些指令进行相同处理。多个指令可以组合在逗号分隔的列表中(请参阅下面的组合指令的处理)。这些指令不区分大小写。

指示 含义
all 索引或服务没有限制。注意:此指令是默认值,如果明确列出,则不起作用。
noindex 不要在搜索结果中显示此页面,也不要在搜索结果中显示“缓存”链接。
nofollow 不要按照此页面上的链接
none 相当于 noindex, nofollow
noarchive 不要在搜索结果中显示“缓存”链接。
nosnippet 不要在此页面的搜索结果中显示文本片段或视频预览。静态缩略图(如果可用)仍然可见。
notranslate 不要在搜索结果中提供此页面的翻译。
noimageindex 不要在此页面上索引图像。
unavailable_after: [RFC-850 date/time] 在指定的日期/时间之后,不要在搜索结果中显示此页面。日期/时间必须以RFC 850格式指定 。

在robots.txt文件(或缺少一个)已授予抓取页面的权限之后,默认情况下,页面被视为可抓取,可索引,可存档,并且其内容已被批准用于搜索结果中显示的片段,除非在机器人元标记或者特定标记中明确拒绝权限 X-Robots-Tag

回到顶部

处理组合索引和服务指令

您可以通过将漫游器元标记指令与逗号相结合来创建多指令指令。以下是一个漫游器元标记示例,它指示网页抓取工具不索引网页并且不抓取网页上的任何链接:

 
<meta name =“robots”content =“noindex,nofollow”>

对于指定了多个爬行程序以及不同指令的情况,搜索引擎将使用负指令的总和。例如:

 
<meta name =“robots”content =“nofollow”>
<meta name =“googlebot”content =“noindex”>

包含这些元标记的网页noindex, nofollow在被Googlebot抓取时将被解释为含有 指令。

回到顶部

X-Robots-Tag与Apache的实际实施

您可以X-Robots-Tag使用基于Apache的Web服务器上默认提供的.htaccess和httpd.conf文件添加到网站的HTTP响应中。使用X-Robots-Tag HTTP响应的好处是您可以指定在整个站点中全局应用的抓取指令。正则表达式的支持允许高度的灵活性。

例如,要将noindex, nofollow X-Robots-TagHTTP响应添加到整个站点上的所有.PDF文件,请将以下片段添加到站点的根.htaccess文件或httpd.conf文件中:

 
<Files〜“\ .pdf $”>
标题集X-Robots-Tag“noindex,nofollow”
</文件>

您可以使用X-Robots-Tag非HTML文件,如图像文件,其中不能使用机器人元标记。以下是noindex X-Robots-Tag 在整个网站上为图像文件(.png,.jpeg,.jpg,.gif)添加指令的示例:

 
<Files〜“\。(png | jpe?g | gif)$”>
标题集X-Robots-Tag“noindex”
</文件>

回到顶部

抓取与索引/服务指令相结合

X-Robots-Tag抓取URL时会发现机器人元标记和HTTP标头。如果不允许某个网页抓取robots.txt文件,则任何有关索引或服务指令的信息都将无法找到,因此将被忽略。如果必须遵循索引或服务指令,则不能禁止包含这些指令的URL进行爬网。

https://developers.google.com/search/reference/robots_meta_tag

机器人meta标签和X-Robots-Tag HTTP标头规格的更多相关文章

  1. meta标签的理解

    一直习惯的使用meta标签,还真么认真理解过,至少英文意思都还没弄明白... 下面是摘自网络的解释: 互动百科: 元素可提供相关页面的元信息(meta-information),比如针对搜索引擎和更新 ...

  2. html meta标签使用总结(转)

    之前学习前端中,对meta标签的了解仅仅只是这一句. <meta charset="UTF-8"> 但是打开任意的网站,其head标签内都有一列的meta标签.比如我博 ...

  3. 最齐全的站点元数据meta标签的含义和使用方法

    最齐全的站点元数据meta标签的含义和使用方法 随着HTML5的流行和Web技术的不断演变,Meta标签队伍也越来越壮大,从Windows XP的IE6到现在Windows 7.Windows 8的I ...

  4. meta标签

    参考:http://www.jb51.net/web/158860.html META标签分两大部分:HTTP标题信息(HTTP-EQUIV)和页面描述信息(NAME). 一.HTTP标题信息(HTT ...

  5. HTML <meta> 标签,搜索引擎

    关于Mate标签的详尽解释,请查看w3school 网址为:http://www.w3school.com.cn/tags/tag_meta.asp meta标签作用 META标签是HTML标记HEA ...

  6. html meta标签属性与内容

    meta是html语言head区的一个辅助性标签.也许你认为这些代码可有可无.其实如果你能够用好meta标签,会给你带来意想不到的效果,meta标签的作用有:搜索引擎优化(SEO),定义页面使用语言, ...

  7. meta标签中的http-equiv属性使用介绍(转载)

    meta是html语言head区的一个辅助性标签.也许你认为这些代码可有可无.其实如果你能够用好meta标签,会给你带来意想不到的效果,meta标签的作用有:搜索引擎优化(SEO),定义页面使用语言, ...

  8. Meta标签详解(HTML JAVASCRIPT)

    Meta标签详解,在网上转的,希望对大家有用 您的个人网站即使做得再精彩,在“浩瀚如海”的网络空间中,也如一叶扁舟不易为人发现,如何推广 个人网站,人们首先想到的方法无外乎以下几种: ● 在搜索引擎中 ...

  9. html meta标签使用总结

    meta标签作用 META标签是HTML标记HEAD区的一个关键标签,提供文档字符集.使用语言.作者等基本信息,以及对关键词和网页等级的设定等,最大的作用是能够做搜索引擎优化(SEO). PS:便于搜 ...

随机推荐

  1. 在Ubuntu上安装Chrome Driver和Firefox Driver

    在Ubuntu上安装Chrome Driver和Firefox Driver 此文章只介绍Chrome Driver(Firefox Driver和该步骤相同) 下载链接:http://chromed ...

  2. I - The 3n + 1 problem(2.4.2)

    I - The 3n + 1 problem(2.4.2) Crawling in process... Crawling failed Time Limit:1000MS     Memory Li ...

  3. ASP.NET 前端Ajax获取数据并刷新

    控制器中↓ /// <summary> /// 根据ID来进行展示数据 /// </summary> /// <param name="instru_id&qu ...

  4. Win10正式版U盘安装教程

    1.首先我们需要登陆“微软中国下载中心”,从中下载一款名为“MediaCreationTool”的工具,利用该工具可以制作Win10安装U盘.直接通过以下地址快速进入“Windows下载中心”,根据自 ...

  5. vim与程序员 vi/vim 的使用

    vim与程序员   所有的 Unix Like 系统都会内建 vi 文书编辑器,其他的文书编辑器则不一定会存在. 但是目前我们使用比较多的是 vim 编辑器. vim 具有程序编辑的能力,可以主动的以 ...

  6. [No0000117]visual studio 调试WebForm 显示 HTTP Error 403.14 - Forbidden Web 服务器被配置为不列出此目录的内容。

    调试界面如下: 解决办法1:右键设置起始页. 影响文件: 解决方案2:Web.config中添加默认页面配置: <system.webServer> <defaultDocument ...

  7. 【每日dp】 Gym - 101889E Enigma 数位dp 记忆化搜索

    题意:给你一个长度为1000的串以及一个数n 让你将串中的‘?’填上数字 使得该串是n的倍数而且最小(没有前导零) 题解:dp,令dp[len][mod]为是否出现过 填到第len位,余数为mod 的 ...

  8. inotifywait实现目录监控--http://man.linuxde.net/inotifywait

    sudo apt install inotify-tools while inotifywait -q -r -e create,delete,modify,move,attrib --exclude ...

  9. CAAnimationDelegate 代理方法没调用

    CAAnimationDelegate 代理方法没调用 应该在 addAnimation调用之前设置代理

  10. 转:Spring系列之beanFactory与ApplicationContext

    原文地址:Spring系列之beanFactory与ApplicationContext 一.BeanFactoryBeanFactory 是 Spring 的“心脏”.它就是 Spring IoC ...