robots.txt 让搜索引擎不再收录网站

有没有担心过自己的隐私会在强大的搜索引擎面前无所遁形？想象一下，如果要向世界上所有的人公开你的私人日记，你能接受吗？的确是很矛盾的问题，站长们大都忧虑“如何让搜索引擎收录的我的网站？”，而我们还是要研究一下“如何让搜索引擎不收录我们的网站”，也许我们同样也用的到。

1.搜索引擎如何工作的？

简单的说，搜索引擎实际上依靠的庞大的网页数据库。按搜索方式可以分为全文搜索和目录搜索两种。

所谓全文搜索，是搜索引擎通过从网页自动提取信息来建立数据库的过程。至于提取的原理，就是SEO狂热者们所研究的算法，在他们的理想情况下，网页应该是针对搜索引擎设计的，具有最好的收录效果。当然，不是本文的话题。搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间（比如Google一般是28天），搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内（2天到数月不等）定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。

与全文搜索引擎相比，目录索引有许多不同之处。目录索引完全是手工操作的。

首先，搜索引擎属于自动网站检索，而目录索引则完全依赖手工操作。用户提交网站后，目录编辑人员会亲自浏览你的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳你的网站。

其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功。而目录索引对网站的要求则高得多，有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引，登录更是困难。

最后，搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以用户的角度看，我们拥有更多的自主权；而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。更有甚者，如果工作人员认为你提交网站的目录、网站信息不合适，他可以随时对其进行调整，当然事先是不会和你商量的。

目录索引，顾名思义就是将网站分门别类地存放在相应的目录中，因此用户在查询信息时，可选择关键词搜索，也可按分类目录逐层查找。如以关键词搜索，返回的结果跟搜索引擎一样，也是根据信息关联程度排列网站，只不过其中人为因素要多一些。

2.如何拒绝搜索引擎？

其实很简单的，只需要在网站的根目录中放一个名称为Robots.txt的文件，该文件的写法很有讲究的哦，务必按要求写，写法如下：

1）什么是Robots.txt？

Robots.txt是一个文本文件，关键是这个文件所在的位置：在网站的根目录下。弄错了，就不起作用了！

2）Robots.txt如何起作用?

前面提到过搜索引擎的自动提取信息会遵循一定的算法，但是，无论算法如何，第一步都是在寻找这个文件。其含义是，“贵站对我们这些Robots有什么限制？”所谓的Robots就是搜索引擎派出的蜘蛛或者机器人。如果没有得到回应（没有找到这个文件），代表没有什么限制，尽管来抓取吧。如果真的有这个文件，机器人会读来看看，如果自己被拒绝就会停止抓取过程了。

3）怎么写Robots.txt文件？

遵循语法的Robots.txt才可能被机器人识别，至于语法，介绍起来很繁琐，现简单举例如下：

1）禁止所有搜索引擎访问网站的任何部分（也就是网站彻底的拒绝所有搜索引擎收录）

User-agent: *

Disallow: /

2）允许所有的robot访问（也就是网站允许所有搜索引擎收录）

User-agent: *

Disallow:

3）禁止某个搜索引擎的访问（比如禁止百度收录，按如下的方式写）

User-agent: baiduspider

Disallow: /

4）允许某个搜索引擎的访问（比如允许百度收录，按如下的方式写）

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

5）禁止搜索引擎访问某些目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /images/

使用方法：很简单，将代码存为一个文本文件，命名为Robots.txt ，放在网页根目录即可。

注意：所有语句都是单规则的，即每行仅声明一条规则，比如例五中三个目录必须分三行列出来。

书写注意！！！

1. 第一个英文要大写，冒号是英文状态下，冒号后面有一个空格，这几点一定不能写错。
2. 斜杠：/ 代表整个网站
3.如果“/”后面多了一个空格，则屏蔽整个网站
4.不要禁止正常的内容
5.生效时间是几天到两个月

路径后面有斜杠和没有斜杠的区别：比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹，Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽

更多关于Robots的资料请访问：https://www.robotstxt.org/robotstxt.html

各个搜索引擎的机器人蜘蛛名称：http://kangxiaowei.com/archives/6362.html

robots.txt 让搜索引擎不再收录网站的更多相关文章

通过[蜘蛛协议]Robots.txt禁止搜索引擎收录的方法
什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中 ...
[HTML] 如何使用robots.txt防止搜索引擎抓取页面
Robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制.这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件.如果你想保护网站上的某些 ...
robots.txt禁止搜索引擎收录
禁止搜索引擎收录的方法一．什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文 ...
robots.txt防止向黑客泄露网站的后台和隐私
为了不让搜索引擎索引网站的后台页面或其它隐私页面,我们将这些路径在robots.txt文件中禁用了.但矛盾的是,robots.txt文件任何人都可以访问,包括黑客.为了禁止搜索引擎,我们把隐私泄露给了 ...
robots.txt网站爬虫文件设置
目录: 什么是robots.txt robots.txt使用误区 robots.txt使用技巧什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.Robo ...
网站robots.txt探测工具Parsero
网站robots.txt探测工具Parsero robots.txt文件是网站根目录下的一个文本文件.robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.当搜索引擎访问一个站点时,它 ...
Linux企业级项目实践之网络爬虫（29）——遵守robots.txt
Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...
细说robots.txt
robots.txt Robots协议(也称为爬虫协议.机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可 ...
爬虫之robots.txt
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件. 当一个搜索蜘蛛访问一个站点时,它 ...

随机推荐

Verilog-case、casez和casex的区别
参考博客:https://www.cnblogs.com/guolongnv/articles/6906929.html 1.基本概念 1)?表示z,而不是“dont care” 2)区分: case ...
mysql 视图、触发器、事务、存储过程、函数
一视图视图是一个虚拟表(非真实存在),其本质是[根据SQL语句获取动态的数据集,并为其命名],用户使用时只需使用[名称]即可获取结果集,可以将该结果集当做表来使用. 使用视图我们可以把查询过程中的 ...
ansible-主机分组
一.安装ansible yum install ansible -y ansible --version //查看版本,没有报错即安装成功二.ansible主机定义与分组 1. ansible配置文 ...
C#调用WSDL接口
http://www.cnblogs.com/wlming/p/8032782.html
Python标准库之shelve模块(序列化与反序列化)
shelve模块是一个简单的key,value将内存数据通过文件持久化的模块,可以持久化任何picklel可支持的Python数据格式. 序列化序列化源代码: import shelve impor ...
AntDesign(React)学习-5 路由及使用Layout布局
前言:学习目标实现点击登录按钮,直接进入后台布局页面,类似下面antd官网文档展示效果 ant.design访问 https://ant-design.gitee.io/components/menu ...
nginx配置https域名
nginx安装配置支持https和配置https域名 yum install -y gcc-c++ pcre pcre-devel zlib zlib-devel openssl openssl-de ...
Ecshop各个页面文件介绍，主要文件功能说明
1.模板文件说明 style.css – 模板所使用样式表activity.dwt – 活动列表article.dwt – 文章内容页article_cat.dwt – 文章列表页article_pr ...
Pycharm操作数据库
Pymysql 用于连接mysql数据库连接数据库 data_ip = "192.168.34.128" data_name = "lch" data_pwd ...
EasyExcel实现导入excel
https://blog.csdn.net/rexueqingchun/article/details/91870372 1.pom.xml配置依赖包 <!-- xls格式excel依赖包 -- ...

robots.txt 让搜索引擎不再收录网站

robots.txt 让搜索引擎不再收录网站的更多相关文章

随机推荐

热门专题