phantomjs+selenium实现爬取动态网址

之前使用 selenium + firefox驱动浏览器来实现爬取动态网址，但是firefox经常更新，更新后时常会导致webdriver启动不来，所以改用phantomjs+selenium来改善一下。

使用phantomjs和使用浏览器区别并不大。

一，首先还是需要下载Phantomjs

Phantomjs对各个主流的平台都支持，下载页面。选择好存放的目录，例如D:\phantomjs。

phantomjs的可执行文件就在bin目录下，可以将D:\phantomjs\bin目录加入环境变量中。如果不加入环境变量，那么selenium在驱动phantomjs时就需要指定路径。

二，在Selenium中驱动Phantomjs

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

##可以对phantomjs配置

#cap = webdriver.DesiredCapabilities.PHANTOMJS    #获取webdriver对Phantomjs的默认配置

#cap["phantomjs.page.settings.resourceTimeout"] = 5000    #资源加载超时时长

#cap["phantomjs.page.settings.loadImages"] = False    #是否加载图片

#driver = webdriver.PhantomJS(desired_capabilities=cap)

#未将phantomjs加入环境变量,需要指定phantomjs的路径

#driver = webdriver.PhantomJS(executable_path="D:\phantomjs\bin\phantomjs.exe")

driver = webdriver.PhantomJS()

driver.set_page_load_timeout(5)    #设置页面超时时长

#driver.set_script_timeout(5)    #设置页面JS超时时长，这两者超时后会报TimeoutException错

##当超时后停止页面的加载

##有些页面在加载出你想要的数据后，还是会一直加载一些其他资源

tru:

    driver.get("www.tvmao.com")

exception TimeoutException:

    driver.execute_script("window.stop()")

##获取网页源代码后，就可以将其保存起来进而进行数据解析了

page_source = driver.page_source()

############

#

#数据解析部分

#

############

phantomjs可配置的选项，可以看官方文档说明

phantomjs+selenium实现爬取动态网址的更多相关文章

爬虫 selenium+Xpath 爬取动态js页面元素内容
介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如 ...
selenium自动化测试爬取动态页面大全
目录一:浏览器信息测试二:查找结点三:测试动作四:获取节点信息五:切换子页面Frame 六,延时请求七:前进和后退八:Cookies 八:选项卡处理九:捕获异常这里之讲解用法,安 ...
Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息
整个程序的核心难点在于上次豆瓣爬虫针对的是静态网页,源代码和检查元素内容相同:而在12306的查找搜索过程中,其网页发生变化(出现了查找到的数据),这个过程是动态的,使得我们在审查元素中能一一对应看到 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
使用Selenium&PhantomJS的方式爬取代理
前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新. 首先分析一下快代理,如下使用谷歌浏览器,检查,发现每个代理 ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...

随机推荐

Azure VM上传小文件
因为需要传一些脚本到Azure的VM里,有个简单方法可以实现,如下编辑这个rdp文件点击确定,连接远程计算机可以在我的电脑里看到本地硬盘
iOS简单动画
知识架构 CALayer 图层类 CABasicAnimation 基础动画 CAKeyFrameAnimation 帧动画 CATransition 转场动画 CAAnimationGroup 动画 ...
Remove-Azureaccount (Can't get Azure credentials to stick in Powershel)
https://social.technet.microsoft.com/forums/azure/en-US/260df055-7c4e-4ce2-8f8d-190ad20a4b76/cant-ge ...
SSAS中事实表中的数据如果因为一对多或多对多关系复制了多份，在维度上聚合的时候还是只算一份
SSAS事实表中的数据,有时候会因为一对多或多对多关系发生复制变成多份,如下图所示: 图1 我们可以从上面图片中看到,在这个例子中,有三个事实表Fact_People_Money(此表用字段Money ...
[WCF]DomainServices客户端操作异常处理
作为个人备忘,不做排版.此扩展函数用于DomainServices的Load及SubmitChanges时处理Error信息,包括验证消息.实体冲突. public static string ToE ...
ASP.NET导出文件FileResult的使用
本文给大家讲一下ASP.NET MVC中如何使用FileResult来导出文件,首先网上相关例子有很多大神都有讲,我在这只是稍微说一点不同——为什么我的导出没有反应呢? 这个问题,我找了半天也没有找到 ...
CF 484E - Sign on Fence
E. Sign on Fence time limit per test 4 seconds memory limit per test 256 megabytes input standard in ...
JS子父窗口互相操作取值赋值的方法介绍
$("#父窗口元素ID",window.parent.document); 对应javascript版本为window.parent.document.getElementById ...
hibernate缓存机制详细分析复制代码内部资料请勿转载谢谢合作
您可以通过点击右下角的按钮来对文章内容作出评价, 也可以通过左下方的关注按钮来关注我的博客的最新动态. 如果文章内容对您有帮助, 不要忘记点击右下角的推荐按钮来支持一下哦如果您对文章内 ...
Javascript > Eclipse > Code completion (Content Assist)
分享一下,整体理清的思路,关于Eclipse中代码的自动完成,可配置自定义Library文件地址其实这个思路的通用的,不管任何Eclipse支持的编辑语言,都可以适用.下面已Javascript来 ...

phantomjs+selenium实现爬取动态网址

一，首先还是需要下载Phantomjs

二，在Selenium中驱动Phantomjs

phantomjs+selenium实现爬取动态网址的更多相关文章

随机推荐

热门专题