Python | 常见的反爬及解决方法，值得收藏

我们都知道Python用来爬数据，为了不让自家的数据被别人随意的爬走，你知道怎么反爬吗？今天播妞带着大家一起见识见识常见的反爬技术。

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：1097524789

首先我们来看一下爬虫程序和反爬虫之间的一张逻辑图：

以下说4种网站反爬虫方式。

1.通过User-Agent来控制访问

无论是浏览器还是爬虫程序，在向服务器发起网络请求的时候，都会发过去一个头文件：headers，表明身份。

对于爬虫程序来说，最需要注意的字段就是：User-Agent

很多网站都会建立 user-agent白名单，只有属于正常范围的user-agent才能够正常访问。

解决方法：

可以自己设置一下user-agent，或者更好的是，可以从一系列的user-agent里随机挑出一个符合标准的使用。

2.通过JS脚本来防止爬虫

举个例子：如果想爬取某个网站，在请求之前，它会有一个验证页面来验证你是否机器。

它是怎么实现的呢：

他会通过js代码生成一大段随机的数字，然后要求浏览器通过js的运算得出这一串数字的和，再返回给服务器。

解决方法：

使用PhantomJS

* PhantomJS是一个Python包，他可以在没有图形界面的情况下，完全模拟一个”浏览器“，js脚本验证什么的再也不是问题了。

3.通过IP限制来反爬虫

如果一个固定的ip在短暂的时间内，快速大量的访问一个网站，那自然会引起注意，管理员可以通过一些手段把这个ip给封了，爬虫程序自然也就做不了什么了。

解决方法：

比较成熟的方式是：IP代理池

简单的说，就是通过IP代理，从不同的IP进行访问，这样就不会被封掉IP了。

可是IP代理的获取本身就是一个很麻烦的事情，网上有免费和付费的，但是质量都层次不齐。如果是企业里需要的话，可以通过自己购买集群云服务来自建代理池。

def get_ip_poll():

'''

模拟代理池

返回一个字典类型的键值对，

'''

ip_poll = ["http://xx.xxx.xxx.xxx:8000",

"http://xx.xxx.xxx.xxx:8111",

"http://xx.xxx.xxx.xxx:802",

"http://xx.xxx.xxx.xxx:9922",

"http://xx.xxx.xxx.xxx:801"]

addresses = {}

addresses['http'] = ip_poll[random.randint(0, len(ip_poll))]

return addresses

4.通过robots.txt来限制爬虫

世界上做爬虫最大最好的就是Google了，搜索引擎本身就是一个超级大的爬虫，Google开发出来爬虫24h不间断的在网上爬取着新的信息，并返回给数据库，但是这些搜索引擎的爬虫都遵守着一个协议：robots.txt

robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛）。此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。robots.txt协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL，所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符[1][2]。

当然在特定情况下，比如说我们爬虫的获取网页的速度，和人类浏览网页是差不多的，这并不会给服务器造成太大的性能损失，在这种情况下，我们是可以不用恪守 robots协议的。

以上4种反爬方式，你学会了吗？

Python | 常见的反爬及解决方法，值得收藏的更多相关文章

win安装python模块出现依赖问题的解决方法 & No module named 'MySqldb'
前言一年多了,还在写这种问题,羞愧. 新公司不让用自己的电脑,配的winPC,项目启不起来,之前也出现过这个问题,是py3缺少某个模块,但是自己没记,这次记一下好了. No module named ...
常见的反爬措施：UA反爬和Cookie反爬
摘要:为了屏蔽这些垃圾流量,或者为了降低自己服务器压力,避免被爬虫程序影响到正常人类的使用,开发者会研究各种各样的手段,去反爬虫. 本文分享自华为云社区<Python爬虫反爬,你应该从这篇博客开 ...
分享.net常见的内存泄露及解决方法
分享.net常见的内存泄露及解决方法关于内存泄漏的问题,之前也为大家介绍过,比如:<C++中内存泄漏的检测方法介绍>,是关于C++内存泄漏的.今天为大家介绍的是关于.NET内存泄漏的问题 ...
$ sudo python -m pip install pylint 出错解决方法
问题:在unbuntu执行$ sudo python -m pip install pylint出错解决方法支行以下命令sudo pip install pylint==1.9.3这样roboware ...
Nginx常见错误与问题之解决方法技术指南
Nginx常见错误与问题之解决方法技术指南. 安装环境: 系统环境:redhat enterprise 6.5 64bit 1.Nginx 常见启动错误有的时候初次安装nginx的时候会报这样的 ...
python用户评论标签匹配的解决方法
python用户评论标签匹配的解决方法这篇文章主要为大家详细介绍了python用户评论标签匹配的解决方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下我们观察用户评论发现:属性词往往和情感词伴 ...
Python实现全局变量的两个解决方法
Python实现全局变量的两个解决方法本文针对Python的全局变量实现方法简述如下: 先来看下面一段测试程序: count = 0 def Fuc(count): print coun ...
Python爬虫实战——反爬机制的解决策略【阿里】
这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析输入" ...
Python爬虫老是被封的解决方法【面试必问】
在爬取的过程中难免发生 ip 被封和 403 错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下 Python 爬虫动态 ip 代理防止被封的方法. PS:另外很多人在学习Pyth ...

随机推荐

CSRF攻击原理以及防御方法（写的很好）
转载地址:http://www.phpddt.com/reprint/csrf.html CSRF概念:CSRF跨站点请求伪造(Cross—Site Request Forgery),跟 ...
Mysql基础（九)：MySQL 事务
一.含义事务:一条或多条sql语句组成一个执行单位,一组sql语句要么都执行要么都不执行二.特点(ACID)A 原子性:一个事务是不可再分割的整体,要么都执行要么都不执行C 一致性:一个事务可以使数据 ...
李航统计学习方法(第二版)（十）：决策树CART算法
1 简介 1.1 介绍 1.2 生成步骤 CART树算法由以下两步组成:(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;(2)决策树剪枝:用验证数据集对己生成的树进行剪枝并选择最优子 ...
数据可视化之powerBI技巧（十三）PowerBI作图技巧：动态坐标轴
之前的文章中介绍了如何制作动态的分析指标,这篇进行文章再介绍一下如何制作动态的坐标轴. 假设要分析的数据为销售额,分别从产品和地区两个维度进行分析,要实现的效果是,如果选择的是产品,则坐标轴是各个产品 ...
CMDB03 /今日未采集的资产、资产入库、资产变更记录、资产采集
CMDB03 /今日未采集的资产.资产入库.资产变更记录.资产采集目录 CMDB03 /今日未采集的资产.资产入库.资产变更记录.资产采集 1. 获取今日未采集的服务器 2. server资产入库以 ...
CMMI规范目录结构
Swift开发笔记
Swift开发笔记(一) 刚开始接触XCode时,整个操作逻辑与Android Studio.Visual Studio等是完全不同的,因此本文围绕IOS中控件的设置.事件的注册来简单的了解IOS开发 ...
找出系统web路径
方法一 :打开web查看源码,复制一个特征字符串,然后替换进下面命令的htmlString搜索之. Win :findstr /s/i/n /d:E:\code\xampp\htdocs\ /c:&q ...
如何手写一个ArrayList
写完HashMap,觉得手痒痒,所以隔了一天再来实现一下简单的ArrayList,ArrayList相比而言就非常的简单,主要的核心点有以下几个方面: 1.ArrayList的底层是由数组构成的 2. ...
web测试中不容忽视的细节
最近在自动化测试的圈子里,我总是碰到很多人在群里和其他地方问为什么这个会出现错误? 为什么这个运行不了?为什么我百度了还是没用? 其实真正的原因可能是你忽略了下面这些需要注意的小地方: 1.页面分辨率 ...

Python | 常见的反爬及解决方法，值得收藏

Python | 常见的反爬及解决方法，值得收藏的更多相关文章

随机推荐

热门专题