python + seleinum +phantomjs 设置headers和proxy代理
python + seleinum +phantomjs 设置headers和proxy代理
最近因为工作需要使用selenium+phantomjs无头浏览器,其中遇到了一些坑,记录一下,尤其是关于phantomjs设置代理的问题。
基本使用
首先在python中导入使用的包,其中webdriver是要创建无头浏览器对象的模块,DesiredCapabilites这个类是浏览器对象的一些选项设置。
- from selenium import webdriver
- from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
- # 初始化浏览器对象
- desired_cap = DesiredCapabilities.PHANTOMJS.copy()
- driver = webdriver.PhantomJS(desired_capabilities=desired_cap)
修改请求头
在使用爬虫的过程中我们需要修改请求投中的user-agent防止被反爬,修改过程如下
- desired_cap = DesiredCapabilities.PHANTOMJS.copy()
- # 修改请求头中的UA
- desired_cap['phantomjs.page.settings.userAgent'] = 'xxxxxx'
- # 设置其他请求投信息,其中key为要修改的请求投键名
- desired_cap['phantomjs.page.customHeaders.{}'.format(key)] = 'xxxx'
- driver = webdriver.PhantomJS(desired_capabilities=desired_cap)
设置代理
在使用爬虫过程中,经常需要使用代理ip,网上关于这方面资料较少,我也是搜集了好久,记录一下
ip代理有静态ip代理和动态ip代理,先说静态ip,静态ip就是134.119.184.92:1080这样的代理,不需要使用验证信息,使用方法如下:
- # 配置代理信息
- proxy = [
- '--proxy=%s' % "218.60.8.83:3129", # 设置的代理ip
- '--proxy-type=http', # 代理类型
- '--ignore-ssl-errors=true', # 忽略https错误
- ]
- # 在初始化浏览器对象的时候可以接收一个service_args的参数,使用这个参数设置代理
- drive = webdriver.PhantomJS(service_args=proxy)
- # 设置页面加载和js加载超时时间,超时立即报错,如下设置超时时间为10秒
- drive.set_page_load_timeout(10)
- drive.set_script_timeout(10)
- # 这样代理就设置成功了,可以向百度发送请求验证ip是否可用
- drive.get('http://www.baidu.com')
以上是静态代理设置方法,但是我们时候使用的是动态代理,设置方法有所变化,需要在参数里加上验证使用的用户名和密码,代码如下:
- # 代理设置如下:
- proxy = [
- '--proxy=%s:%s' % (proxyHost, proxyPort), # 代理服务器的域名
- '--proxy-type=http', # 代理类型
- '--proxy-auth=%s:%s' % (proxyUser, proxyPass), # 代理验证所需的用户名和密码
- '--ignore-ssl-errors=true', # 忽略https错误
- ]
- # 在初始化浏览器对象的时候可以接收一个service_args的参数,使用这个参数设置代理
- drive = webdriver.PhantomJS(service_args=proxy)
- # 设置页面加载和js加载超时时间,超时立即报错,如下设置超时时间为10秒
- drive.set_page_load_timeout(10)
- drive.set_script_timeout(10)
- # 这样代理就设置成功了,可以向百度发送请求验证ip是否可用
- drive.get('http://www.baidu.com')
以上就是使用selenium + phantomjs无头浏览器设置headers和代理的方法。
python + seleinum +phantomjs 设置headers和proxy代理的更多相关文章
- Python爬虫连载10-Requests模块、Proxy代理
一.Request模块 1.HTTP for Humans,更简洁更友好 2.继承了urllib所有的特征 3.底层使用的是urllib3 4.开源地址:https://github.com/req ...
- python爬虫scrapy之downloader_middleware设置proxy代理
一.背景: 小编在爬虫的时候肯定会遇到被封杀的情况,昨天爬了一个网站,刚开始是可以了,在settings的设置DEFAULT_REQUEST_HEADERS伪装自己是chrome浏览器,刚开始是可以的 ...
- selenium phantomjs 设置代理ip方法
最近遇到phantomjs动态更换ip的功能,在知乎上看到一篇不错的文章,顺手记下来以备后用 phantomjs selenium 如何动态修改代理? 可以这样做(Python代码): # 不使用代理 ...
- Python爬虫设置Headers
Python设置Headers import urllib import urllib2 url = 'http://www.server.com/login' user_agent = 'Mozil ...
- C# 使用 Proxy 代理请求资源
C# 使用 Proxy 请求资源,基于 HttpWebRequest 类 前言 这是上周在开发 C# 中使用 Proxy 代理时开发的一些思考和实践.主要需求是这样的,用户可以配置每次请求是否需要代理 ...
- ES6新特性:Proxy代理器
ES6新特性:Proxy: 要使用的话, 直接在浏览器中执行即可, node和babel目前还没有Proxy的polyfill;,要使用的话,直接在浏览器中运行就好了, 浏览器的兼容性为:chrome ...
- Proxy 代理模式
简介 代理模式是用一个简单的对象来代替一个复杂的或者创建耗时的对象. java.lang.reflect.Proxy RMI 代理模式是对象的结构模式.代理模式给某一个对象提供一个代理对象,并由代理对 ...
- 豌豆夹Redis解决方式Codis源代码剖析:Proxy代理
豌豆夹Redis解决方式Codis源代码剖析:Proxy代理 1.预备知识 1.1 Codis Codis就不详细说了,摘抄一下GitHub上的一些项目描写叙述: Codis is a proxy b ...
- 豌豆夹Redis解决方案Codis源码剖析:Proxy代理
豌豆夹Redis解决方案Codis源码剖析:Proxy代理 1.预备知识 1.1 Codis Codis就不详细说了,摘抄一下GitHub上的一些项目描述: Codis is a proxy base ...
随机推荐
- GitHub访问慢
问题描述 一直都觉得访问 GitHub 时速度非常慢,刷新一下都要等好久!于是尝试一下能否解决掉... github.com assets-cdn.github.com avatar2.githubu ...
- D3.js+Es6+webpack构建人物关系图(力导向图),动态更新数据,点击增加节点,拖拽增加连线...
觉得不错的麻烦加个Star:https://github.com/zhangzn3/D3-Es6 在线预览地址:https://zhangzn3.github.io/D3-Es6 功能列表:1. 增加 ...
- javaWeb锁屏的简单实现
简单介绍:需求上有个小功能,用户登录后点击用户名,可以点击锁屏,锁屏解除,需要输入正确的密码才能进入管理后台页面enheng(*/ω\*)(*/ω\*)(*/ω\*) 思路简介:其实刚看到要做锁屏,第 ...
- PDF文件编辑技巧之PDF书签怎么设置
纸质的文件想要添加书签就直接拿笔书写就可以,Word文件怎么添加书签相信大家也都知道,那么PDF文件的书签要怎么设置的呢,是不是有很多小伙伴不知道该怎么做呢,不要担心,今天小编就来跟大家分享一下在PD ...
- 乘法原理,加法原理,多重集的排列数(多个系列操作穿插的排列数) 进阶指南 洛谷p4778
https://www.luogu.org/problemnew/solution/P4778 非常好的题目,囊括了乘法加法原理和多重集合排列,虽然最后使用一个结论解出来的.. 给定一个n的排列,用最 ...
- lightoj 1282 取对数的操作
/* 前三位 len=log10n^k(乘积的长度) len=klog10n n^k=x*10^(len-1) x=n^k/10^(len-1) log10x = k*log10n - (len-1) ...
- Python老男孩
1.可以自己编写模块,但注意:如果想要调用该模块,需要将该模块放到site-packages目录下,或将该模块放在执行程序的路径下. 2.pyc文件是什么? 集合: set 集合可以去重:做交集.并集 ...
- Selenium CSS定位语法
大部分人在使用selenium定位元素时,用的是xpath定位,因为xpath基本能解决定位的需求.css定位往往被忽略掉了,其实css定位也有它的价值,css定位更快,语法更简洁.这一篇css的定位 ...
- Django Web开发基础环境配置流程
创建虚拟环境 mkvirtualenv django_py3_1.11 -p python3 注意需要联网 安装Django 使用django 1.11.11版本,注意需要联网 pip install ...
- SQLServer 表连接种类
SQLServer 有3种物理连接:Nested Loop(嵌套循环).Merge Join(合并联接).Hash Join(哈希联接). T-SQL中的inner/left/right/full j ...