PJzhang:robots协议的实际场景
猫宁!!!
参考链接:
https://bbs.360.cn/thread-15062960-1-1.html
https://ziyuan.baidu.com/college/courseinfo?id=150
看到robots这个关键词,先了解一下它的定义,如下是百度百科介绍:
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
展示一个robots.txt使用的例子:
https://cn.bing.com/robots.txt,这是必应搜索的robots.txt文件,节取其中一部分。
User-agent: msnbot-media
Disallow: /
Allow: /th?
User-agent: Twitterbot
Disallow:
User-agent: *
Disallow: /account/
Disallow: /amp/
Disallow: /bfp/search
Disallow: /bing-site-safety
Disallow: /blogs/search/
Disallow: /entities/search
Disallow: /fd/
Disallow: /history
Disallow: /hotels/search
Disallow: /images?
Disallow: /images/search?
Disallow: /images/search/?
Sitemap: http://cn.bing.com/dict/sitemap-index.xml
只有当网站运营者不想让一些网页被搜索引擎收录,才会采用robots.txt,否则表示默认全站都可以被搜索引擎爬取收录了。
robots.txt文件放于根目录,内容可包含多条记录,中间用空行分割,如果robots.txt中什么都没有,表示全站可以爬取。
User-agent: *,表示针对所有爬虫。
User-agent: Twitterbot,表示针对Twitterbot这一种爬虫。
Disallow: /bfp/search,表示爬虫不能访问以/bfp/search开头的所有url页面,例如/bfp/search/abc.html,/bfp/searchabc.html等等,当然直接不允许对方访问某一个特定的url也是可以的。
Allow: /bfp/search/vip,表示爬虫可以访问/bfp/search/vip开头的所有url页面。
Sitemap: http://cn.bing.com/dict/sitemap-index.xml,告知爬虫这个文件是站点地图
Allow和Disallow结合使用,灵活掌握爬虫所访问的页面内容,不至于导致一刀切的局面。
这里严格区分字母的大小写。
*,星号表示0个及以上字符。
$,美元符号表示结束符。
这两个都是通配符
禁止所有搜索引擎访问网站的任何目录。
User-agent: *
Disallow: /
允许所有的搜索引擎访问网站的任何目录
User-agent: *
Allow: /
禁止百度访问网站的任何目录
User-agent: Baiduspider
Disallow: /
仅允许百度访问网站的任何目录
User-agent: Baiduspider
Allow: /
禁止访问/abc/开头下的目录,但是其中的html后缀文件除外
User-agent: *
Disallow: /abc/
Allow:/abc/*.html$
禁止访问网站中的所有动态页面,注意字符全都是英文字符
User-agent: *
Disallow: /*?*
以上的都是一些基本的解释说明,可以通过查看知名站点的robots.txt文件,了解对方不想要让搜索引擎抓取的路径,对于渗透测试有时会有新的发现或启发。
http://www.dianping.com/robots.txt,能看出来大众点评不希望所有的爬虫爬取其中的7个目录,例如优惠券、图片、账户等等,但绝对禁止爱帮网(聚合本地生活信息)和口碑网(阿里巴巴旗下生活信息平台)这两家的爬虫爬取任何大众点评域名www.dianping.com上的东西。
全部内容
User-agent: *
Disallow: /coupon/
Disallow: /events/
Disallow: /thirdconnect/
Disallow: /member/
Disallow: /album/
Disallow: /dplab/
User-agent: www.aibang.com Disallow: /
User-agent: aibang.com Disallow: /
User-agent: aibang Disallow: /
User-agent: aibangspider Disallow: /
User-agent: aibang-spider Disallow: /
User-agent: aibangbot Disallow: /
User-agent: aibang-bot Disallow: /
User-agent: koubeispider Disallow: /
User-agent: koubei.com Disallow: /
认真解读一家站点的robots.txt,也许可以看到互联网江湖的一些刀光剑影的余晖。
PJzhang:robots协议的实际场景的更多相关文章
- 笔记整理--玩转robots协议
玩转robots协议 -- 其他 -- IT技术博客大学习 -- 共学习 共进步! - Google Chrome (2013/7/14 20:24:07) 玩转robots协议 2013年2月8日北 ...
- Robots协议
Robots协议 什么是robots? Robots文件:网站和搜索引擎之间的一个协议. 用来防止搜索引擎抓取那些我们不想被搜索引擎看到的隐私内容. Robots文件告诉蜘蛛什么是可以被查看的. ...
- 芝麻HTTP:分析Robots协议
利用urllib的robotparser模块,我们可以实现网站Robots协议的分析.本节中,我们来简单了解一下该模块的用法. 1. Robots协议 Robots协议也称作爬虫协议.机器人协议,它的 ...
- [python爬虫]Requests-BeautifulSoup-Re库方案--robots协议与Requests库实战
[根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写 慕课链接:https://www.icourse163.org/learn/BIT-1001870001?tid=100223 ...
- 第8章 传输层(1)_TCP/UDP协议的应用场景
1. 传输层的两个协议 1.1 TCP和UDP协议的应用场景 (1)TCP协议:如果要传输的内容比较多,需要将发送的内容分成多个数据包发送.这就要求在传输层用TCP协议,在发送方和接收方建立连接,实现 ...
- 使用 urllib 分析 Robots 协议
(1) Robots Exclusion Protocol,网络爬虫排除标准,也称爬虫协议.机器人协议,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取(2) Robots 协议以 robots ...
- Python 爬虫-Robots协议
2017-07-25 21:08:16 一.网络爬虫的规模 二.网络爬虫的限制 • 来源审查:判断User‐Agent进行限制 检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的 ...
- Robots协议(爬虫协议、机器人协议)
Robots协议(也称为爬虫协议.机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓 ...
- 爬虫基础 - Robots协议
Robots协议 指定一个robots.txt文件,告诉爬虫引擎怎么爬取 https://www.taobao.com/robots.txt User-agent: Baiduspider Allow ...
随机推荐
- poj 2154 Color < 组合数学+数论>
链接:http://poj.org/problem?id=2154 题意:给出两个整数 N 和 P,表示 N 个珠子,N种颜色,要求不同的项链数, 结果 %p ~ 思路: 利用polya定理解~定理内 ...
- ajax json html 结合
<table id="datas" border="1" cellspacing="0" style="border-col ...
- wprintf、wcout无法输出中文的解决方案
在C语言中,若wprintf无法输出中文,调用函数setlocale(int category, const char *locale)设置locale即可输出中文 此方法也可用于C++中 例: #i ...
- RAC环境下oracle实例启动问题:ora-01565,ora-17503
今天有现场因为突然听电,数据库服务器停了,需要我远程重启一下. 现场是RAC环境,oracle10.2.0.4. 登录后,startup,报错如下 根据报错,初步判断是共享数据文 ...
- 【转载】Myeclipse中实现js的提示
近期需要大量使用JS来开发,但是MyEclipse2014自带的JS编辑器没有代码提示的功能,开发效率有点低,所以安装了一个Spket的插件,过程非常简单,SVN插件的安装比这个更简单. Spket插 ...
- LDAP解释(转)
我要着重指出,LDAP是一个数据库,但是又不是一个数据库.说他是数据库,因为他是一个数据存储的东西.但是说他不是数据库,是因为他的作用没有数据库这么强大,而是一个目录. 为了理解,给一个例子就是电话簿 ...
- CNN卷积神经网络_深度残差网络 ResNet——解决神经网络过深反而引起误差增加的根本问题,Highway NetWork 则允许保留一定比例的原始输入 x。(这种思想在inception模型也有,例如卷积是concat并行,而不是串行)这样前面一层的信息,有一定比例可以不经过矩阵乘法和非线性变换,直接传输到下一层,仿佛一条信息高速公路,因此得名Highway Network
from:https://blog.csdn.net/diamonjoy_zone/article/details/70904212 环境:Win8.1 TensorFlow1.0.1 软件:Anac ...
- 精选Java面试题(二)
Java中的方法覆盖重写(Overriding)和方法重载(Overloading)是什么意思? Java中的方法重载发生在同一个类里面两个或者是多个方法的方法名相同但是参数不同的情况.与此相对,方法 ...
- hadoop应用场景
大数据量存储:分布式存储 日志处理: Hadoop擅长这个 海量计算: 并行计算 ETL:数据抽取到oracle.mysql.DB2.mongdb及主流数据库 使用HBase做数据分析: 用扩展性应对 ...
- BZOJ_4010_[HNOI2015]菜肴制作_拓扑排序+贪心
BZOJ_4010_[HNOI2015]菜肴制作_拓扑排序+贪心 Description 知名美食家小 A被邀请至ATM 大酒店,为其品评菜肴. ATM 酒店为小 A 准备了 N 道菜肴,酒店按照为菜 ...