selenium+phantomJS爬虫，适用于登陆限制强，点触验证码等一些场景

selenium是非常出名的自己主动化測试工具，多数场景是測试project师用来做自己主动化測试，可是相同selenium能够作为基本上模拟浏览器的工具，去爬取一些基于http request不能或者非常复杂的才干爬取的站点。并且交互式脚本(如：python) + selenium能够直接看到浏览器的运行过程，利于debug，同一时候看上去比較有成就感。

贴个实例吧

firefoxProfile = FirefoxProfile()

# Disable images

firefoxProfile.set_preference('permissions.default.image', 2)

#Disable Flash

firefoxProfile.set_preference('dom.ipc.plugins.enabled.libflashplayer.so','false')

#firefox， chrome， phantomjs

driver = webdriver.Firefox(firefoxProfile)

#login

driver.get("https://www.facebook.com/")

inputEmail = driver.find_element_by_id("email")

inputEmail.send_keys("useruseruseruser")

inputPass = driver.find_element_by_id("pass")

inputPass.send_keys("pwpwpwpwpw")

inputPass.submit()

driver.get("https://www.facebook.com/blablabla" % (page))

driver.execute_script("alert('execute js')")

driver.quit()

配合pyvirtualdisplay能够在后台运行。博友可自行查找其使用方法

相同selenium做爬虫的缺点也是非常明显的：

慢。异乎平常的慢（单个请求，载入的东西实在是太多了，对多线程也是极不友好的）；

非常吃电脑资源(CPU,网络,内存都是一个非常大的挑战)；

爬取规模不能太大

。。。。

所以，适用于那些难搞定的小站点。须要登陆的，点触式验证码啊等等

selenium+phantomJS爬虫，适用于登陆限制强，点触验证码等一些场景的更多相关文章

潭州课堂25班：Ph201805201 爬虫基础第十一课点触验证码 (课堂笔记）
打开网易盾 http://dun.163.com/trial/picture-click ——在线体验——图中点选打码平台 ——超级鹰 http://www.chaojiying.com/ ...
Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
使用scrapy爬虫,爬取今日头条搜索吉林疫苗新闻（scrapy+selenium+PhantomJS）
这一阵子吉林疫苗案,备受大家关注,索性使用爬虫来爬取今日头条搜索吉林疫苗的新闻依然使用三件套(scrapy+selenium+PhantomJS)来爬取新闻以下是搜索页面,得到吉林疫苗的搜索信息, ...
[Python爬虫] 之一： Selenium+Phantomjs动态获取网站数据信息
本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.c ...
爬虫之图片懒加载, selenium , phantomJs, 谷歌无头浏览器
一.图片懒加载懒加载 : JS 代码是页面自然滚动 window.scrollTo(0,document.body.scrollHeight) (重点) bro.execute_ ...
[Python爬虫] 之九：Selenium +phantomjs抓取活动行中会议活动（单线程抓取）
思路是这样的,给一系列关键字:互联网电视:智能电视:数字:影音:家庭娱乐:节目:视听:版权:数据等.在活动行网站搜索页(http://www.huodongxing.com/search?city=% ...
[Python爬虫] 之十五：Selenium +phantomjs根据微信公众号抓取微信文章
借助搜索微信搜索引擎进行抓取抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文 ...

随机推荐

python多线程概念
转自:http://www.cnblogs.com/fnng/p/3489321.html 在使用多线程之前,我们首页要理解什么是进程和线程. 什么是进程? 计算机程序只不过是磁盘中可执行的,二进制( ...
Android动态设置字体颜色
步骤: 1.在values目录下的strings.xml文件中加入颜色:比方 <color name="ccc">#ccc</color> 2.假设你直接这 ...
第十一节，命名空间namespace
1,命名空间的定义命名空间可以把不同的方法分散到不同的文件去实现,如果你会objective-C,他的作用和里面的类目有异曲同工之妙.当然了也有很多不同的地方,首先要明白的是,命名空间并不是一个类, ...
改动Apach默认port
一.改动Apache的默认port号在WEB SERVER界,无论是微软的IIS还是世界排名第一的Apache,它们安装好后默认的网页服务port号都是80.有必要指出的是,假设你的电脑中已经安装有 ...
css 设置英文字母大小写转换（text-transform）
css 设置英文字母大小写转换 CreateTime--2018年5月25日07点16分 Author:Marydon 1.实现:通过text-transform实现 2.text-transfo ...
【Oracle】将表名与字段名连接成一行数据展示，字段名使用顿号的分隔
select '<'||a.comments||'>:'||replace(wmsys.wm_concat(b.comments),',','.')||'.' as pjzf from u ...
对UserDict的研究
# -*- coding: utf-8 -*- #python 27 #xiaodeng #对UserDict的研究 class UserDict(): def __init__(self, dict ...
23、List集合
1.List List接口是Collection的子接口,用于定义线性表数据结构.List是可重复集 2.List自身定义的方法 List处理继承Collection方法外,自己还定义了其它方法,例如 ...
Oracle创建库
oracle创建表空间 SYS用户在CMD下以DBA身份登陆: 在CMD中打sqlplus /nolog 然后再 conn / as sysdba --如果路径不存在则要创建路径 --创建临时表空间 ...
各大主流.Net的IOC框架
Autofac下载地址:http://code.google.com/p/autofac/ Castle Windsor下载地址:http://sourceforge.net/projects/cas ...

selenium+phantomJS爬虫，适用于登陆限制强，点触验证码等一些场景

selenium+phantomJS爬虫，适用于登陆限制强，点触验证码等一些场景的更多相关文章

随机推荐

热门专题