Python爬虫iP被封的怎么办？

对于经常做数据爬虫的程序员来说，除了要写出简洁方便的代码。还需要解决的是网站反爬的问题。有时候我们在爬取数据的时候突然报出错或者目标网站错误代码。

比如说：403 Forbidden错误，“您的IP访问频率太高”错误，或者跳出一个验证码让我们输入，之后解封，但过一会又出现类似情况。

这些问题的出现都是爬取的网站触发了反爬机制。意思就是说网站服务器检测到同一个ip下超多的请求数达到网站设置的阈值自动开启验证，说白了就是封了这个IP，可能过几个小时就解封，但是爬虫不可能等。

为了解决此类问题，爬虫ip就派上了用场，如：爬虫ip软件、付费爬虫ip、ADSL拨号爬虫ip，都可以有效的解决爬虫脱离封IP的苦海。

测试爬虫ip请求及响应的网站:http://www.baidu.com。

baidu这个网站能测试 HTTP 请求和响应的各种信息，比如 cookie、ip、headers 和登录验证等。

且支持 GET、POST 等多种方法，对 web 开发和测试很有帮助。

它用 Python + Flask 编写，是一个开源项目。

返回信息中origin的字段就是客户端的IP地址，即可判断是否成功伪装IP：

爬虫ip的设置：

1、urllib的爬虫ip设置

from urllib.error import URLError

from urllib.request import ProxyHandler, build_opener

proxy = 'ip地址:端口'

#需要认证的爬虫ip

#proxy = 'username:password@ip地址:端口'

#使用ProxyHandler设置爬虫ip

proxy_handler = ProxyHandler({

 'http': 'http://' + proxy,

 'https': 'https://' + proxy

})

#传入参数创建Opener对象

opener = build_opener(proxy_handler)

try:

 response = opener.open('http://www.baidu.com')

 print(response.read().decode('utf-8'))

except URLError as e:

 print(e.reason)

2、requests的爬虫ip设置

import requests

proxy = 'ip地址:端口'

#需要认证的爬虫ip

#proxy = 'username:password@ip地址:端口'

proxies = {

 'http': 'http://' + proxy,

 'https': 'https://' + proxy,

}

try:

 response = requests.get('http://www.baidu.com', proxies=proxies)

 print(response.text)

except requests.exceptions.ConnectionError as e:

 print('Error', e.args)

3、Selenium的爬虫ip使用

使用的是PhantomJS

from selenium import webdriver

service_args = [

 '--proxy=ip地址:端口',

 '--proxy-type=http',

 #'--proxy-auth=username:password' #带认证爬虫ip

]

browser = webdriver.PhantomJS(service_args=service_args)

browser.get('http://www.baidu.com')

print(browser.page_source)

使用的是Chrome

from selenium import webdriver

proxy = 'ip地址:端口'

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument('--proxy-server=http://' + proxy)

chrome = webdriver.Chrome(chrome_options=chrome_options)

chrome.get('http://www.baidu.com')

4、在Scrapy使用爬虫ip

#在Scrapy的Downloader Middleware中间件里

 ...

 def process_request(self, request, spider):

 request.meta['proxy'] = 'http://ip地址:端口'

 ...

免费爬虫ip的使用

import requests,random

#定义爬虫ip池

proxy_list = [

 '182.39.6.245:38634',

 '115.210.181.31:34301',

 '123.161.152.38:23201',

 '222.85.5.187:26675',

 '123.161.152.31:23127',

]

# 免费ip链接：http://jshk.com.cn/mb/reg.asp?kefu=xjy

# 随机选择一个爬虫ip

proxy = random.choice(proxy_list)

proxies = {

 'http': 'http://' + proxy,

 'https': 'https://' + proxy,

}

try:

 response = requests.get('http://www.baidu.com', proxies=proxies)

 print(response.text)

except requests.exceptions.ConnectionError as e:

 print('Error', e.args)

在requests中使用爬虫ip

import requests

# 从爬虫ip服务中获取一个爬虫ip

proxy = requests.get("http://jshk.com.cn").text

proxies = {

 'http': 'http://' + proxy,

 'https': 'https://' + proxy,

}

try:

 response = requests.get('http://www.baidu.com', proxies=proxies)

 print(response.text)

except requests.exceptions.ConnectionError as e:

 print('Error', e.args)

Python爬虫iP被封的怎么办？的更多相关文章

Python爬虫老是被封的解决方法【面试必问】
在爬取的过程中难免发生 ip 被封和 403 错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下 Python 爬虫动态 ip 代理防止被封的方法. PS:另外很多人在学习Pyth ...
避免网络爬虫IP被封的策略
背景这两天一直在搞Java网络爬虫作为Java课程设计,目标是爬取豆瓣电影top250的影评,之后可能还需要进行情感分析,当然这就不是爬虫的内容了.我的爬虫程序在一开始只是一个页面一个页面的爬取信息 ...
爬虫-IP被封解决办法
方法1. 之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据. 经验如下:1.IP必须需要,比如ADSL.如果有条件,其实可以跟机房多申请外网IP.2.在有外网IP的机器上,部署代 ...
Python爬虫 | IP池的使用
一.简介 - 爬虫中为什么需要使用代理一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会禁止这个IP的访问.所以我们需 ...
设置python爬虫IP代理(urllib/requests模块)
urllib模块设置代理如果我们频繁用一个IP去爬取同一个网站的内容,很可能会被网站封杀IP.其中一种比较常见的方式就是设置代理IP from urllib import request proxy ...
python爬虫18 | 就算你被封了也能继续爬，使用IP代理池伪装你的IP地址，让IP飘一会
我们上次说了伪装头部 ↓ python爬虫17 | 听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部让自己的 python 爬虫假装是浏览器小帅b主要是想让你知道在爬取网站的时候 ...
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...
Python爬虫突破封禁的6种常见方法
转 Python爬虫突破封禁的6种常见方法 2016年08月17日 22:36:59 阅读数:37936 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用 ...
Python爬虫常用小技巧之设置代理IP
设置代理IP的原因我们在使用Python爬虫爬取一个网站时,通常会频繁访问该网站.假如一个网站它会检测某一段时间某个IP的访问次数,如果访问次数过多,它会禁止你的访问.所以你可以设置一些代理服务器来 ...
爬虫的新手使用教程（python代理IP）
前言 Python爬虫要经历爬虫.爬虫被限制.爬虫反限制的过程.当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程.爬虫的初级阶段,添加headers和ip代理可以解决很多问题. ...

随机推荐

cloudreve webdav 无法连接问题
从Windows Vista起,微软就禁用了http形式的基本WebDAV验证形式(KB841215),必须使用https连接,所以在Windows Vista/7/8/10中,要方便地映射网盘文件为 ...
jquery链式调用原理
jquery选择器$('selector')返回的不是数组,而是一个被封装好的jQuery对象,查询到的每一个节点,都被以下标为属性的方式添加到jQuery对象,jQuery对象上的方法包含对象本身的 ...
scrapy框架学习（五）定义数据结构和多页爬取
定义数据结构和多页爬取定义数据结构在items.py文件中定义你要提取的内容(定义数据结构),比如我提取的内容为用户名name.用户头像链接face_src.好笑数funny.评论数comment ...
macOS NSView改变frame后会出现黑色残留，应付的办法是不在drawRect上修改重新initWithFrame一下就行
黑色部分就是残留.是因为绘制后保留了轨迹. 解决办法是不在drawRect中做处理重新写NSView,新增方法 initWithFrame - (void)drawRect:(NSRect)dirty ...
superset2 开发环境部署+阿里odps连接
引用:https://help.aliyun.com/document_detail/280392.htm https://blog.csdn.net/weixin_45684985/article/ ...
GreenDao操作本地db文件（使用greendao 新版3.2.2 ）
项目需求:省市区使用本地db文件,数据库使用greendao框架.现在不想使用SQL语句,用greendao直接查询本地数据库表(至于为啥使用GreenDao,可以百度一下它的优势). https:/ ...
Tunnel
Tunnel既不是给https用的,也不是给代理用的,是给https代理用的之所以以前老觉得Https也有一个tunnel,是因为每次看https请求,fiddler本身就是http代理,本来就会有 ...
protobuf如何还原proto源文件及描述字符串中左括弧的意义
语法分析和通常的有语法的结构一样,proto的编译也经过词法(tokenize)和语法(parse)两个阶段,相关代码分别在tokenizer.cc和parser.cc两个文件中. /// @fil ...
PR-不同分辨率视频如何合并
1.文件-新建-序列,可以使用预设,也可以自行设置基础分辨率. 2.将分辨率不同的视频,在"效果控件"-"缩放"当中,设置合适的缩放比例即可.
Path类，文件操作的路径用法
using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Tex ...

Python爬虫iP被封的怎么办？

Python爬虫iP被封的怎么办？的更多相关文章

随机推荐

热门专题