Python selenium的js扩展实现

python写的数据采集，对一般有规律的页面用 urllib2 + BeautifulSoup + 正则就可以搞定。但是有些页面的内容是通过js生成，或者通过js跳转的，甚至js中还加入几道混淆机制；对这种涉及页面脚本解析的内容，前面的方式便很无力。

这时我们需要能解析、运行js的引擎——浏览器，而python selenium能提供程序与浏览器的交互接口，再加上phantomjs这个可以后台运行的浏览器，即使用 selenium + phantomjs 便可以解决以上的问题。

selenium可以操作页面的元素，并且提供执行js脚本的接口。但其调用js脚本后并不能直接返回执行的结果，这样再采集内容的过程中就会受到一些限制。比如我们想使用页面中的函数进行数据转换，或者获取iframe里的内容，这些js产生数据要传回比较麻烦。

所以我便写一个简化js数据回传的扩展 exescript.py

#!/usr/bin/env python

# -*- coding:utf-8 -*-

#

# created by heqingpan

_init_js="""

(function (){

if (window.__e)

{ return;

}

var e=document.createElement('div');

e.setAttribute("id","__s_msg");

e.style.display="none";

document.body.appendChild(e);

window.__e=e;

})();

window.__s_set_msg=function(a){

    window.__e.setAttribute("msg",a.toString()||"");

}

"""

_loadJsFmt="""

var script = document.createElement('script');

script.src = "{0}";

document.body.appendChild(script);

"""

_jquery_cdn="http://lib.sinaapp.com/js/jquery/1.7.2/jquery.min.js"

_warpjsfmt="__s_set_msg({0})"

class ExeJs(object):

    def __init__(self,driver,trytimes=10):

        from time import sleep

        self.driver=driver

        driver.execute_script(_init_js)

        while trytimes >0:

            try:

                self.msgNode=driver.find_element_by_id('__s_msg')

                break

            except Exception:

                sleep(1)

                trytimes -= 1

        if self.msgNode is None:

            raise Exception()

    def exeWrap(self,jsstr):

        """ jsstr 执行后有返回值，返回值通过self.getMsg()获取 """

        self.driver.execute_script(_warpjsfmt.format(jsstr))

    def loadJs(self,path):

        self.execute(_loadJsFmt.format(path))

    def loadJquery(self,path=_jquery_cdn):

        self.loadJs(path)

    def execute(self,jsstr):

        self.driver.execute_script(jsstr)

    def getMsg(self):

        return self.msgNode.get_attribute('msg')

打开ipython上一个例子，获取博客园首页文章title列表

from selenium import webdriver

import exescript

d=webdriver.PhantomJS("phantomjs")

d.get("http://www.cnblogs.com/")

exejs=exescript.ExeJs(d)

exejs.exeWrap('$(".post_item").length')

print exejs.getMsg()

#out:

"""

20

"""

jsstr="""(function(){

var r=[];

$(".post_item").each(function(){

  var $this=$(this);

  var $h3=$this.find("h3");

  r.push($h3.text());

});

return r.join(',');})()"""

exejs.exeWrap(jsstr)

l=exejs.getMsg()

for title in l.split(','):

    print title

#out:

"""

mac TeamTalk开发点点滴滴之一——DDLogic框架分解上

The directfb backend was supported together with linux-fb backend in GTK+2.10

Science上发表的超赞聚类算法

功能齐全、效率一流的免费开源数据库导入导出工具（c#开发，支持SQL server、SQLite、ACCESS三种数据  库），每月借此处理数据5G以上

企业级应用框架(三)三层架构之数据访问层的改进以及测试DOM的发布

Unity3D 第一季 00 深入理解U3D开发平台

Welcome to Swift (苹果官方Swift文档初译与注解二十一)---140~147页(第三章--集合类型)

appium简明教程（11）——使用resource id定位

SQL语句汇总(终篇）—— 表联接与联接查询

fopen警告处理方式

AndroidWear开发之HelloWorld篇

AMD and CMD are dead之KMD.js版本0.0.2发布

SQL语句汇总(三）——聚合函数、分组、子查询及组合查询

DevExpress GridControl功能总结

ASP.NET之Jquery入门级别

2014年前端面试经历

grunt源码解析：整体运行机制&grunt-cli源码解析

跟用户沟通，问题尽量分析清楚，以及解决问题

ASP.NET之Ajax系列（一）

算法复杂度分析

"""

Python selenium的js扩展实现的更多相关文章

python selenium --调用js
转自:http://www.cnblogs.com/fnng/p/3230768.html 本节重点: 调用js方法 execute_script(script, *args) 在当前窗口/框架同步 ...
python selenium处理JS只读(12306)
12306为例 js = "document.getElementById('train_date').removeAttribute('readonly');" driver.e ...
【Python + Selenium】之JS定位总结
感谢:小琰子 Python+Selenium 脚本中的一些js的用法汇总: 1.滚动条 driver.set_window_size(500,500) js = "window.scroll ...
使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
Python+Selenium WebDriver API：浏览器及元素的常用函数及变量整理总结
由于网页自动化要操作浏览器以及浏览器页面元素,这里笔者就将浏览器及页面元素常用的函数及变量整理总结一下,以供读者在编写网页自动化测试时查阅. from selenium import webdrive ...
python selenium+phantomjs alert()弹窗报错
问题:用selenium+phantomjs 模拟登陆,网页用JavaScript的alert("登陆成功")弹出框,但是用switch_to_alert().accept()报错 ...
WEB自动化(Python+selenium)的API
在做Web自动化过程中,汇总了Python+selenium的API相关方法,给公司里的同事做了第二次培训,分享给大家 ...
利用 Python + Selenium 实现对页面的指定元素截图(可截长图元素)
对WebElement截图 WebDriver.Chrome自带的方法只能对当前窗口截屏,且不能指定特定元素.若是需要截取特定元素或是窗口超过了一屏,就只能另辟蹊径了. WebDriver.Phant ...

随机推荐

python笔记-6（import导入、time/datetime/random/os/sys模块）
一.了解模块导入的基本知识此部分此处不展开细说import导入,仅写几个点目前的认知即可.其它内容待日后有深入理解了再来细说 1.import可以导入的两种不同的内容 1.1 *.py文件结尾的文件 ...
CTF-练习平台-Misc之 Convert
十八.Convert 打开后发现是01代码,转换为16进制代码如下将代码复制到winhex里面发现是rar文件,保存打开后发现里面有个图片解压后在图片的属性里发现一段base64代码,对其解密 ...
ballerina 学习三十扩展开发（一）
ballerina 主要是分为两大类基于ballerina 语言开发的,一般是客户端的connector 使用java语言开发的(类似的基于jvm的都可以),一般是注解以及进行构件生成 baller ...
Open-sourcing sso, the way we secure services at BuzzFeed
文章来源: https://tech.buzzfeed.com/unleashing-the-a6a1a5da39d6 说明: 设计有好多地方值得借鉴,粘贴过来的排版不好 Today we are o ...
Apache+modproxy布置tomcat集群
一.环境: Apache: 2.2.14: 下载地址:http://archive.apache.org/dist/httpd/binaries/win32/ Tomcat: 7.0.82 JDK1. ...
POJ1179 Polygon
题目:http://poj.org/problem?id=1179 石子合并的升级版.有负值.但运算符只有 + 和 * . 考虑负值对原做法正确性的影响:之所以仅记录最大值可能不对,是因为有可能负数 ...
Go随机数的使用
随机数使用比较广泛,例如,抽奖.均衡等等. 下面简单说明其使用方法. Example1 package main import ( "log" "math/rand&qu ...
Jquery获取元素高度
第一步, 获取你要得到高度的那个div的jQuery对象, 获得方法有很多很多种, 具体你可以看一下jQuery API文档里的选择器部分, 在这里我只跟你说一个最直接的方法, 通过id获得: $(& ...
关于IOS给我的启发
用了将近一年半的iOS,从4到4S,iOS5到iOS6.这里谈谈自己对iOS的一些看法,以及这款移动操作系统给我的启发.我知道这个帖子发出来可能有点“危险”.我从不发水贴,这些积分都是大家给的,不是灌 ...
Letterbox,Pillarbox和Pan&Scan
Auto 不改变窗口设置16:9 PillarBox: 4:3的图像,在16:9的显示屏上显示时,上下到顶,左右会添加黑边. 16:9 Pan&Scan 4:3的图像,在16:9的显示屏上显示 ...

Python selenium的js扩展实现

Python selenium的js扩展实现的更多相关文章

随机推荐

热门专题