爬虫基础 - Robots协议

Robots协议

指定一个robots.txt文件,告诉爬虫引擎怎么爬取

https://www.taobao.com/robots.txt

User-agent:  Baiduspider

Allow:  /article

Allow:  /oshtml

Allow:  /ershou

Allow: /$

Disallow:  /product/

Disallow:  /

User-Agent:  Googlebot

Allow:  /article

Allow:  /oshtml

Allow:  /product

Allow:  /spu

Allow:  /dianpu

Allow:  /oversea

Allow:  /list

Allow:  /ershou

Allow: /$

Disallow:  /

User-agent:  Bingbot

Allow:  /article

Allow:  /oshtml

Allow:  /product

Allow:  /spu

Allow:  /dianpu

Allow:  /oversea

Allow:  /list

Allow:  /ershou

Allow: /$

Disallow:  /

User-Agent:  360Spider

Allow:  /article

Allow:  /oshtml

Allow:  /ershou

Disallow:  /

User-Agent:  Yisouspider

Allow:  /article

Allow:  /oshtml

Allow:  /ershou

Disallow:  /

User-Agent:  Sogouspider

Allow:  /article

Allow:  /oshtml

Allow:  /product

Allow:  /ershou

Disallow:  /

User-Agent:  Yahoo!  Slurp

Allow:  /product

Allow:  /spu

Allow:  /dianpu

Allow:  /oversea

Allow:  /list

Allow:  /ershou

Allow: /$

Disallow:  /

User-Agent:  *

Disallow:  /

其他爬虫,不允许爬取

User-Agent: *

DisalloW: /

这是一个君子协定,'爬亦有道'

这个协议为了让搜索引擎更有效搜索自己的内容

爬虫基础 - Robots协议的更多相关文章

爬虫基础---HTTP协议理解、网页的基础知识、爬虫的基本原理
一.HTTP协议的理解 URL和URI 在学习HTTP之前我们需要了解一下URL.URI(精确的说明某资源的位置以及如果去访问它) URL:Universal Resource Locator 统一资 ...
python爬虫基础01-HTTP协议
深入浅出了解HTTP协议 HTTP(HyperText Transfer Protocol,超文本传输协议)是互联网上应用最为广泛的一种网络协议.目前使用最普遍的一个版本是HTTP 1.1. HTTP ...
Robots协议（爬虫协议、机器人协议）
Robots协议(也称为爬虫协议.机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓 ...
[python爬虫]Requests-BeautifulSoup-Re库方案--robots协议与Requests库实战
[根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写慕课链接:https://www.icourse163.org/learn/BIT-1001870001?tid=100223 ...
Python 爬虫-Robots协议
2017-07-25 21:08:16 一.网络爬虫的规模二.网络爬虫的限制 • 来源审查:判断User‐Agent进行限制检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的 ...
2.爬虫 urlib库讲解异常处理、URL解析、分析Robots协议
1.异常处理 URLError类来自urllib库的error模块,它继承自OSError类,是error异常模块的基类,由request模块产生的异常都可以通过这个类来处理. from urllib ...
[Python3网络爬虫开发实战] 3.1.4-分析Robots协议
利用urllib的robotparser模块,我们可以实现网站Robots协议的分析.本节中,我们来简单了解一下该模块的用法. 1. Robots协议 Robots协议也称作爬虫协议.机器人协议,它的 ...
网络爬虫 robots协议 robots.txt
网络爬虫网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上 ...
爬虫的盗亦有道Robots协议
爬虫的规定 Robots协议网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险,但尽量去遵守 Robots协议:在网页的根目录+robots.txt Robots协议的基本语法: #注 ...

随机推荐

远程连接mysql数据库提示：ERROR 1130的解决办法
From: http://blog.sina.com.cn/s/blog_716844910100welz.html 在linux下使用mysql客户端连接远程mysql服务器报错: [root@Se ...
哈希----字符串----time33
//此处只是获得了字符串的hash值,但是该如何散列到hash表中呢?哪个算法会好些?! 1 //在处理以字符串为键值的哈希时,times33哈希算法有着极快的计算效率和很好的哈希分布 //小写英文单 ...
属性编辑器，即PropertyEditor-->Spring IoC
在Spring配置文件里,我们往往通过字面值为Bean各种类型的属性提供设置值:不管是double类型还是int类型,在配置文件中都对应字符串类型的字面值.BeanWrapper填充Bean属性时如何 ...
Ajax在ASP.NET MVC中上传
HomeController.cs using System; using System.Collections.Generic; using System.Linq; using System.We ...
MathType中常遇到的几个问题
每次打开别人的论文,发现公式文字都排版得非常整齐,公式也编辑得非常漂亮,看起来就非常得赏心悦目.再打开自己的论文,一片凌乱,自己不想都再看,公式编辑得乱七八糟,符号不够规范,大小不够统一,你自己都觉得 ...
ASP------字符串与HTML格式相互转换
代码: 1.字符串转HTML HttpUtility.HtmlDecode(" is ") 或者 Server.UrlDecode(" is ") 2.HTML ...
超全面的JavaWeb笔记day09<Servlet&GenericServlet&HttpServlet&ServletContext>
1.Servlet概述 2.Servlet接口 3.GenericServlet 4.HttpServlet 5.Servlet细节 6.ServletContext(重要) Servlet概述生命 ...
ios开发之--NSString和NSArray互转
将string字符串转换为array数组 NSArray *array = [Str componentsSeparatedByString:@","];//分隔符逗号将arr ...
linux上如何快速删除一个目录
在linux中删除一个目录很简单,很多人还是习惯用rmdir,不过一旦目录非空,就陷入深深的苦恼之中,现在使用rm -rf命令即可解决.直接rm就可以了,不过要加两个参数-rf 即:rm -rf ...
jquery ajax返回html乱码解决
情景: index.html 使用如下代码访问另外一个html片段 1 2 3 4 5 6 7 8 9 10 11 12 13 function rewritedata(id){ var uu ...

爬虫基础 - Robots协议

Robots协议

爬虫基础 - Robots协议的更多相关文章

随机推荐

热门专题