python做反被爬保护的方法

网络爬虫，是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。但是当网络爬虫被滥用后，互联网上就出现太多同质的东西，原创得不到保护。于是，很多网站开始反网络爬虫,想方设法保护自己的内容。

一： User-Agent +Referer检测

User-Agent 是HTTP协议的中的一个字段，其作用是描述发出HTTP请求的终端的一些信息。

使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

服务器通过这个字段就可以知道访问网站的是什么人。对于不是正常浏览器的用户进行屏蔽。

解决方案:

伪装浏览器的User-Agent，因为每个浏览器的User-Agent不一样,并且所有的用户都能使用浏览器。所有每次请求的时候条件浏览器的User-Agent，就能解决UA检测

Referer是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器我是从哪个页面链接过来的。例如有一些图片网站在你请求图片的时候，就会检测你的Referer值，如果Referer不符合，不会返回正常的图片。

解决方案：

在检测referer的请求中，携带符合的referer值。

二： js混淆和渲染

所谓 JavaScript 混淆，基本就是:

1.去掉一些实际没有调用的函数。

2.将零散的变量声明合并。

3.逻辑函数的精简。

4.变量名的简化。具体要看不同的压缩工具的考虑优劣。常见的有UglifyJS、JScrambler等工具。

js渲染其实就是对HTML页面的修改。比如有一些网页本身没有返回数据，数据是经过js加载之后添加到HTML当中的。当遇到这种情况的时候，我们要知道爬虫是不会执行JavaScript操作。所以需要用其他的方法处理。

解决方案：

1.通过阅读网站js源码，找到关键的代码，并用python实现。

2.通过阅读网站js源码，找到关键的代码，用PyV8,execjs等库直接执行js代码。

3.通过selenium库直接模拟浏览器环境

三：IP限制频次

WEB系统都是走http协议跟WEB容器连通的，每次请求至少会产生一次客户端与服务器的tcp连接。

对于服务端来说可以很清楚的查看到，一个ip地址在单位时间内发起的请求。

当请求数超过一定的值之后，就可判断为非正常的用户请求。

解决方案：

1.自行设计ip代理池，通过轮换的方式，每次请求携带不同的代理地址。

2.ADSL动态拨号他有个独有的特点，每拨一次号，就获取一个新的IP。也就是它的IP是不固定的。

四：验证码

验证码（CAPTCHA）是“Completely Automated PublicTuring test to tell Computers and HumansApart”（全自动区分计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序。

可以防止：恶意破解密码、刷票、论坛灌水，有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。

这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题，所以回答出问题的用户就可以被认为是人类。

解决方案:

1.手动识别验证码

2.pytesseract识别简单的验证码

3.对接打码平台

4.机器学习

扩展知识：

基于反爬的相关实例代码：

#! /usr/bin/env python3.4

#-*- coding:utf-8 -*-

#__author__ == "tyomcat"

 

 

import urllib.request

import random

import re

 

url='http://www.whatismyip.com.tw'

iplist=['121.193.143.249:80','112.126.65.193:80','122.96.59.104:82','115.29.98.139:9999','117.131.216.214:80','116.226.243.166:8118','101.81.22.21:8118','122.96.59.107:843']

 

proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})

opener=urllib.request.build_opener(proxy_support)

opener.addheaders=[('User-Agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36')]

urllib.request.install_opener(opener)

response = urllib.request.urlopen(url)

html = response.read().decode('utf-8')

 

pattern = re.compile('<h1>(.*?)</h1>.*?<h2>(.*?)</h2>')

iterms=re.findall(pattern,html)

for item in iterms:

  print(item[0]+":"+item[1])

#! /usr/bin/env python

# -*- coding:utf-8 -*-

#__author__ == "tyomcat"

 

from selenium import webdriver

import time

import re

 

drive = webdriver.PhantomJS(executable_path='phantomjs-2.1.1-linux-x86_64/bin/phantomjs')

drive.get('https://mm.taobao.com/self/model_info.htm?user_id=189942305&is_coment=false')

 

time.sleep(5)

 

pattern = re.compile(r'<div.*?mm-p-domain-info">.*?class="mm-p-info-cell clearfix">.*?<li>.*?<label>(.*?)</label><span>(.*?)</span>',re.S)

html=drive.page_source.encode('utf-8','ignore')

items=re.findall(pattern,html)

for item in items:

  print item[0],'http:'+item[1]

drive.close()

python做反被爬保护的方法的更多相关文章

Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
【Python必学】Python爬虫反爬策略你肯定不会吧？
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 正文 Python爬虫反爬策略三部曲,拥有这三步曲就可以在爬虫界立足了: ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
【Python开发】网页爬取心得
转载:python 爬虫抓取心得分享 title:python 爬虫抓取心得分享 0x1.urllib.quote('要编码的字符串')如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以 ...
12岁的少年教你用Python做小游戏
首页资讯文章频道资源小组相亲登录注册首页最新文章经典回顾开发设计 IT技术职场业界极客创业访谈在国外 - 导航条 - 首页最新文章经典回顾开发 ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python学习之---Python中的内置函数（方法）（更新中。。。）
add(item) #将item添加到s中,如果item已经在s中,则无任何效果 break #退出循环,不会再运行循环中余下的代码 bool() #将参数转换为布尔型 by ...
利用Python做绝地科学家(外挂篇)
i春秋作家:奶权前言玩吃鸡时间长的鸡友们应该都知道现在的游戏环境非常差特别在高端局神仙满天飞搞得很多普通玩家非常没有游戏体验因为吃鸡的火爆衍生出了一条巨大的外挂利益链导致市面上出 ...

随机推荐

python 函数基本内容
1.什么是函数? 函数就是盛放代码的容器,把实现某一功能的一组代码丢到一个函数中就做成了一个小工具具备某一功能的工具->函数事先准备工具的过程->函数的定义遇到应用场景拿来就用->函 ...
Kafka2.8安装
1.概述最近Kafka官网发布了2.8版本,在该版本中引入了KRaft模式.鉴于新版本和新特性的引入,相关使用资料较少,那边本篇博客笔者将为大家介绍Kafka2.8的安装和使用. 2.内容 2.1 ...
【软件工程】《构建之法》 & Git+ & CI/CD
<构建之法> & Git+ & CI/CD 个人阅读作业#2 项目内容本作业所属课程 2020春季软件工程(罗杰任健) 本作业要求个人阅读作业#2 我的课程目标具 ...
ASP.NET Core 存储session取不到值
该项目是一个mvc项目,我使用session存储登录后的用户信息,然后发现登录信息存储到session正常,这个时候立马去获取也正常但是如果我跳转到首页后,再去获取session信息,发现sessi ...
『动善时』JMeter基础 — 6、使用JMeter发送一个最基础的请求
目录步骤1:创建一个测试计划步骤2:创建线程组步骤3:创建取样器步骤4:创建监听器步骤5:完善信息步骤6:保存测试计划步骤7:查看结果总结:JMeter测试计划要素当我们第一次打开J ...
PAT 乙级 -- 1006 -- 换个格式输出整数
题目简述让我们用字母B来表示"百".字母S表示"十",用"12-n"来表示个位数字n(<10),换个格式来输出任一个不超过3位的正整 ...
Google Hacking的用法
目录 Google Hacking 基本搜索高级搜索 Index of inurl Google Hacking Google Hacking 是利用谷歌搜索的强大,来在浩瀚的互联网中搜索到我们需要 ...
DockerFile常用命令
COPY 复制文件 COPY [--chown=<user>:<group>] <源路径>... <目标路径> COPY [--chown=<us ...
node-util
Node.js 常用工具 util 是一个Node.js 核心模块,提供常用函数的集合,用于弥补核心JavaScript 的功能过于精简的不足. util.inherits util.inherit ...
Day003 JavaDoc
JavaDoc javadoc命令是用来生成自己的Api文档的参数信息 @author 作者名 @version 版本号 @since 指明需要最早使用的jdk版本 @param 参数名 @retu ...

python做反被爬保护的方法

python做反被爬保护的方法

python做反被爬保护的方法的更多相关文章

随机推荐

热门专题