selenium + PhantomJS 爬取js页面

from selenium import webdriver

import time

_url="http://xxxxxxxx.com"

driver = webdriver.PhantomJS()

driver.get(_url)

time.sleep(5)

webdata=driver.page_source

#这样就得到了web页面的内容,最好加个延时页面加载需要时间

#下面的就可以对这个页面进行爬取了

.

.

.

.

# 最好要记得关闭浏览器

driver.quit()

在这里标记一个小坑：在爬取页面的下载连接时，出现这样的：http%3A%2F%2Ftencent.myaora.net%2Ftest%2Fupload%2Fopen%2F2017%2F03%2F48023%2Fapk%2F20171114142640_380_0290.apk
一堆的%+大写字母+数字 混淆了真实地址，解决方法就是：

download_url="http%3A%2F%2Ftencent.myaora.net%2Ftest%2Fupload%2Fopen%2F2017%2F03%2F48023%2Fapk%2F20171114142640_380_0290.apk"

urllib.parse.unquote(download_url)# quote & unquote 可以将连接“加密和解密”

selenium + PhantomJS 爬取js页面的更多相关文章

selenium+phantomjs爬取动态页面数据
1.安装selenium pip/pip3 install selenium 注意依赖关系 2.phantomjs for windows 下载地址:http://phantomjs.org/down ...
Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页
Python3.x:Selenium+PhantomJS爬取带Ajax.Js的网页前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
selenium+phantomjs爬取bilibili
selenium+phantomjs爬取bilibili 首先我们要下载phantomjs 你可以到 http://phantomjs.org/download.html 这里去下载下载完之后解压到 ...
Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页及获取JS返回值
前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但是网页的DOM元素内容却可以动态的变化.如果处理这种网页是还用requests库或者 ...
selenium + phantomjs 爬取落网音乐
题记: 作为一个业余程序猿,最大的爱好就是电影和音乐了,听音乐当然要来点有档次的.落网的音乐的逼格有点高,一听听了10年.学习python一久了,于是想用python技术把落网的音乐爬下来随便听. 目 ...
python+selenium+PhantomJS爬取网页动态加载内容
一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览 ...
Selenium+PhantomJs 爬取网页内容
利用Selenium和PhantomJs 可以模拟用户操作,爬取大多数的网站.下面以新浪财经为例,我们抓取新浪财经的新闻版块内容. 1.依赖的jar包.我的项目是普通的SSM单间的WEB工程.最后一个 ...
Python爬虫学习——使用selenium和phantomjs爬取js动态加载的网页
1.安装selenium pip install selenium Collecting selenium Downloading selenium-3.4.1-py2.py3-none-any.wh ...

随机推荐

关于ROS证书导入的步骤
在群里的vibbow大神指点下,做了一个ROS证书导入的步骤 1.到阿里云申请的免费证书清单如下:(如果你准备的自签名证书,那么在客户端也需要安装证书才行,否则就要到网上去申请真实的,或者花钱买的证书 ...
IDEA中修改各个部位的字体大小
1.菜单栏 Setting -> Appearance&Behavior -> Appearance ->Override default fonts by (not rec ...
sql在外键存在的情况下删除表
SQL Server 批量停用/启用外键约束今天百度知道上面,看到这样一个要求: 现在有一个库,有很多张表想要删除一张表的记录的时候,由于外键关联太多,所以,没法删除相应的记录,谁能帮忙写个存储 ...
【Codeforces】Codeforces Round #492 (Div. 2) （Contest 996）
题目传送门:QWQ A:A - Hit the Lottery 分析: 大水题模拟代码: #include <bits/stdc++.h> using namespace std; ...
Docker,win10
win10:docker下载地址直接下载docker ,no docker toolbox https://get.daocloud.io/toolbox/ 下载完成,双击安装,next知道完成安装 ...
mysql数据导入的时候提示Got a packet bigger than 'max_allowed_packet' bytes
Got a packet bigger than 'max_allowed_packet' bytes错误默认可能是2M 把max_allowed_packet设置大于5M试试,我设置为160M,输 ...
OpenMP 奇偶换排序
▶ 使用 OpenMP 进行奇偶交换排序 ● 代码 #include <stdio.h> #include <stdlib.h> #include <omp.h> ...
windows删除服务的命令行语句
想要删除windows xp里的一个服务,怎么办呢? 系统没有可视化的工具可以用,不过内置了一个cmd命令 sc.exe 具体操作方法是:开始--运行--cmd,进入cmd命令行. 然后输入: sc ...
window.location 属性
属性含义值 protocol: 协议 "http:" hostname: 服务器的名字 "b.a.com" port: 端口 "88" ...

selenium + PhantomJS 爬取js页面

selenium + PhantomJS 爬取js页面的更多相关文章

随机推荐

热门专题