网络爬虫引发的问题及robots协议

一.网络爬虫的尺寸

1.以爬取网页，玩转网页为目的进行小规模，数据量小对爬取速度不敏感的可以使用request库实现功能（占90%）

2.以爬取网站或爬取系列网站为目的，比如说获取一个或多个旅游网站的爬虫，对数据要求规模较大，爬取速度敏感的可以使用Scrapy库

3.以爬取全网为目的，规模很大搜索引擎爬取速度关键，需要定制开发

二.网络爬虫带来的问题

总的来说有：骚扰问题,法律风险，隐私泄露

1.爬虫可利用计算机的快速功能访问服务器，它会比人类的速度快到百倍甚至千倍，受限于编写水平和目的，网络爬虫将会为web服务器带来巨大的资源开销。对网站运行者来讲，爬虫形成了骚扰。

2.网络爬虫会带来法律风险。服务器上的数据有产权归属，比如新浪上的新闻规新浪所有，如果网络爬虫获取数据牟利后将会带来法律风险。

3.网络爬虫会造成隐私泄露。网络爬虫可能具备突破简单访问控制的能力，或得被保护数据从而泄露个人隐私。

三.网络爬虫的限制

来源审查:判断User-Agent进行限制

检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问。

发布公告: Robots协议

告知所有爬虫网站的爬取策略，要求爬虫遵守。

四.Robots协议

作用：网站会告知网络爬虫哪些页面可以抓取，哪些不行

形式：在网站根目录下的robots.txt文件。

下面我自己做了一个实例打开京东的Robots协议 https://www.jd.com/robots.txt

会出现下面几句话

大概的意思是所有爬虫都要遵守以下协定

任何爬虫都不允许访问?* 即?号开头的网页

任何爬虫都不允许访问pop*.html开头的网页

任何爬虫都不允许访问pinpai*.html开头的网页

此外 EtaoSpider HuihuiSpidder GwdangSpider WochachaSpider这四个网络爬虫都不能爬取京东的任何数据

五.Robots协议基本语法

*代表所有 /代表根目录

User-agent: 代表哪些爬虫

Disallow:你不允许访问资源的目录

六.其他注意

1.Robots协议一定放在网站根目录下

2.http：//www.news.sina.com.cn/robots.txt和http：//www.sina.com.cn/robots.txt它们的Robots协议是不一样的

3.如果一个网站没有Robots协议，是允许所有爬虫无限制爬取

网络爬虫引发的问题及robots协议的更多相关文章

网络爬虫与web之间的访问授权协议——Robots
网站的管理者们通常会有这样一种心态:一方面期待百度.Google这样的搜索引擎来抓取网站的内容,另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息.正是因为这样,才有“好爬虫”.“坏爬虫”这样的说法 ...
Linux企业级项目实践之网络爬虫（29）——遵守robots.txt
Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...
Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件
解析 robots.txt 文件使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 ...
02.python网络爬虫第二弹(http和https协议)
一.HTTP协议 1.官方概念: HTTP协议是 Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(www.world wide web) 服务器传输超 ...
[python爬虫]Requests-BeautifulSoup-Re库方案--robots协议与Requests库实战
[根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写慕课链接:https://www.icourse163.org/learn/BIT-1001870001?tid=100223 ...
Robots协议（爬虫协议、机器人协议）
Robots协议(也称为爬虫协议.机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓 ...
Python网络爬虫与信息提取（一）
学习北京理工大学嵩天课程笔记课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
Python网络爬虫入门篇
1. 预备知识学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求使用 ...
Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...

随机推荐

是谁，在敲打我窗-CSS雨滴动画效果
1.扯闲篇是谁在敲打我窗是谁在撩动琴弦那一段被遗忘的时光渐渐地回升出我心坎是谁在敲打我窗是谁在撩动琴弦记忆中那欢乐的情景慢慢地浮现在我的脑海那缓缓飘落的小雨不停地打在我 ...
Djangoday1 入门及第一个apphelloworld
1 Django基础指令新建一个django project新建app创建数据库表,更新数据库表或字段使用开发服务器清空数据库创建超级管理员导出数据导入数据Django 项目环境终端数据库命令行更多 ...
c语言I博客专业04
问题答案这个作业属于那个课程 C语言程序设计II 这个作业要求在哪里 https://edu.cnblogs.com/campus/zswxy/CST2019-2/homework/8655 我在 ...
Python与自然语言处理搭建环境
参考书籍<Python自然语言处理>,书籍中的版本是Python2和NLTK2,我使用的版本是Python3和NLTK3 实验环境Windows8.1,已有Python3.4,并安装了Nu ...
Idea工具Debug快捷键
F9 resume programe 恢复程序 Alt+F10 show execution point 显示执行断点 F8 Step Over 相当于eclipse的f6 跳到下一步 F7 Step ...
IoT开发精英实战营招募啦！速来报名！
具有了向上的力量,才能一眼望到山外的大地,蜿蜒的长河,人类精神的进步. --罗曼·罗兰<爱与死的搏斗> 七月流火,八月未央,九月授衣.说是长长长长的夏天,眨眼间,也早过了立秋而迎来处暑.距 ...
洛谷 P3420 [POI2005]SKA-Piggy Banks 题解
蒟蒻的第二篇题解嗯,直接进入正题先告诉你们这是并查集,好吧,标签上面有,再来分析这为什么是并查集. 根据题意: 每一个存钱罐能够用相应的钥匙打开或者被砸开,Byteazar已经将钥匙放入到一些存钱 ...
CodeForces1006A - Adjacent Replacements
A. Adjacent Replacements time limit per test 1 second memory limit per test 256 megabytes input stan ...
LNMP架构的搭建
第9章 LNMP架构的搭建 9.1 什么是LNMP 9.1.1 LNMP的组成 L linux N nginx:实现静态的服务处理 M ...
IOS系统定时APP
将页面分为时间显示部分,控制部分,显示计次共三个部分.实现的功能有:启动定时器,计次,停止,复位. 计算:当前显示的时间 = 当前计次的累积时间 + 已经结束的所有计次的累积时间和: 关于 new D ...

网络爬虫引发的问题及robots协议

网络爬虫引发的问题及robots协议的更多相关文章

随机推荐

热门专题