Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页及获取JS返回值

尘世风 2024-10-30 17:30:40 原文

前言　

　　现在很多网站的都大量使用JavaScript，或者使用了Ajax技术。这样在网页加载完成后，url虽然不改变但是网页的DOM元素内容却可以动态的变化。如果处理这种网页是还用requests库或者python自带的urllib库那么得到的网页内容和网页在浏览器中显示的内容是不一致的。

解决方案

　　使用Selenium+PhantomJS。这两个组合在一起，可以运行非常强大的爬虫，可以处理cookie，JavaScript，header以及其他你想做的任何事情。

安装第三方库

　　Selenium是一个强大的网络数据采集工具，最初是为网站自动化测试开发的，其有对应的Python库；

　　Selenium安装命令：

　　pip install selenium

安装PhantomJS

　　PhantomJS是一个基于webkit内核的无头浏览器，即没有UI界面，即它就是一个浏览器，只是其内的点击、翻页等人为相关操作需要程序设计实现。通过编写js程序可以直接与webkit内核交互，在此之上可以结合java语言等，通过java调用js等相关操作。需要去官网下载对应平台的压缩文件；

PhantomJS（phantomjs-2.1.1-windows）下载地址：http://phantomjs.org/download.html，按照不同的系统选择相应的版本

对windows系统来说，下载PhantomJs 然后将解压后的执行文件放在被设置过环境变量的地方，不设置的话，后续代码就要设，所以这里直接放进来方便；

然后检测下，在cmd窗口输入phantomjs：

出现这样的画面，即表示成功；

对Mac系统来说，下载后保存到一个路径中，可以直接保存在环境变了路径中，也可以在环境变量路径中创建一个指向phantomjs的软连接

ln -s /usr/local/opt/my/phantomjs-2.1.1-macosx/bin/phantomjs /usr/local/bin

测试代码：

from selenium import webdriver

driver = webdriver.PhantomJS()

driver.get('http://www.baidu.com/')

print (driver.page_source)

能成功获取到页面元素即为安装成功

示例一：

　　Selenium+PhantomJS示例代码：

from selenium import webdriver

driver = webdriver.PhantomJS()

driver.get('http://www.cnblogs.com/feng0815/p/8735491.html')

#获取网页源码

data = driver.page_source

print(data)

#获取元素的html源码

tableData = driver.find_elements_by_tag_name('tableData').get_attribute('innerHTML')

#获取元素的id值

tableI = driver.find_elements_by_tag_name('tableData').get_attribute('id')

#获取元素的文本内容

tableI = driver.find_elements_by_tag_name('tableData').text

driver.quit()

　　能输出网页源码，说明安装成功

获取JS返回值

Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页及获取JS返回值的更多相关文章

Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页
Python3.x:Selenium+PhantomJS爬取带Ajax.Js的网页前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
selenium+phantomjs爬取bilibili
selenium+phantomjs爬取bilibili 首先我们要下载phantomjs 你可以到 http://phantomjs.org/download.html 这里去下载下载完之后解压到 ...
python+selenium+PhantomJS爬取网页动态加载内容
一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览 ...
selenium + PhantomJS 爬取js页面
from selenium import webdriver import time _url="http://xxxxxxxx.com" driver = webdriver.P ...
Selenium+PhantomJs 爬取网页内容
利用Selenium和PhantomJs 可以模拟用户操作,爬取大多数的网站.下面以新浪财经为例,我们抓取新浪财经的新闻版块内容. 1.依赖的jar包.我的项目是普通的SSM单间的WEB工程.最后一个 ...
selenium + phantomjs 爬取落网音乐
题记: 作为一个业余程序猿,最大的爱好就是电影和音乐了,听音乐当然要来点有档次的.落网的音乐的逼格有点高,一听听了10年.学习python一久了,于是想用python技术把落网的音乐爬下来随便听. 目 ...
看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）
这里只是学习一下动态加载页面内容的抓取,并不适用于所有的页面. 使用到的工具就是python selenium和phantomjs,另外调试的时候还用了firefox的geckodriver.exe. ...
selenium+phantomjs爬取动态页面数据
1.安装selenium pip/pip3 install selenium 注意依赖关系 2.phantomjs for windows 下载地址:http://phantomjs.org/down ...

随机推荐

axure工具的使用总结
---恢复内容开始--- Axure工具的使用 axure是什么? Axure RP是一款快速原型设计工具,它不需要任何编程或写代码基础,就可以设计出交互效果良好的产品原型,常用于互联网产品设计.网页 ...
mysql常用赋权命令
GRANT 所需权限 ON 库名.表名 TO '账号'@'允许访问的IP地址'; 把中文按需替换掉所需权限:select.insert.delete.update按需要来. 上面那个允许访问IP ' ...
解决wordpress上传文件出现http错误问题
解决wordpress上传文件出现http错误问题问题现象今天上传约1.4m大小的gif文件到wordpress的媒体库时失败,提示http错误. 原因由于之前一直上传图片都是可以的,所以推测最 ...
Spring boot 直接访问templates中html文件
application.properties 在浏览器中输入http://localhost:8080/index.html 会报一个因为Spring boot 无法直接访问templates下的文 ...
Beta冲刺（2/5）（麻瓜制造者）
今日完成任务邓弘立:继续完成了昨天未完成的登录接口的重编码与测试. 李佳铭|:进一步完善了收藏UI 江郑: 对使用前端框架页面元素的进一步优化,基本功能进行中刘双玉:部分图书馆租借接口修改肖小强 ...
通过SQL直接插入、修改ArcGIS SDE空间表中的数据
基于Arcgis Server 10.1 +Oracle 11g环境测试 ArcGIS SDE ? 1 2 INSERT INTO CAMERA_INFO(OBJECTID,ID,SHAPE) ...
Django 使用mysql 数据库流程
创建一个mysql数据库在settings中配置: DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', 'NAME': ...
ThinkPHP5.0 实现 app微信支付功能
相对于之前随笔写的<ThinkPHP5.0实现app支付宝支付功能>来说,php对接app微信支付功能就相对简单的多了,最近有加我的朋友问到app微信支付,所以我把app微信支付的demo ...
gitlab 使用流程
gitlab 使用流程 1. 开发人员写代码,开发产品. 2. 测试人员进行测试,如果发现bug, 填写 Issues - List - new issus 3. 开发人员修复bug, 从master ...
mybatis配置时出现org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)
如果出现: org.apache.ibatis.binding.BindingException: Invalid bound statement (not found) 一般的原因是Mapper i ...