selenium获取动态网页信息（某东）-具体配置信息

需要安装的包:

selenium 
关于软件的驱动：
selenium之 驱动环境配置chrome、firefox、IE

 1 # encoding:utf-8

 2 # Author:"richie"

 3 # Date:8/16/2017

 4

 5 import re,json

 6 from selenium import webdriver

 7

 8 def spider(url):

 9     html = get_file(url)

10     com = re.compile(r'<li class="gl-item">.*?<div class="p-price">.*?<em>(?P<currency>.)</em><i>(?P<price>.*?)</i>'

11                      r'.*?<div class="p-name">.*?<em>(?P<name>.*?)</em>'

12                      r'.*?<div class="p-commit">.*?<strong>.*?<a.*?>(?P<comment_num>.*?)</a>', re.S)

13     for item in com.finditer(html):

14         yield {

15             "name": item.group("name"),

16             "currency": item.group("currency"),

17             "price": item.group("price"),

18             "comment_num": item.group('comment_num'),

19         }

20

21

22 def get_file(url):

23     try:

24         driver = webdriver.Chrome()

25         driver.get(url)

26         driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

27         source = driver.page_source

28         driver.quit()

29         return source

30     except BaseException as e:

31         print(e)

32         return None

33

34 if __name__ == '__main__':

35     for i in range(1,2):

36         page_url = "https://list.jd.com/list.html?cat=9987,653,655&ev=exprice_M1800L2500&page="+str(i)+"&sort=sort_rank_asc&trans=1&JL=6_0_0"

37         ret = spider(page_url)

38         f = open("jingdong.txt", "a",encoding='utf-8')

39         for obj in ret:

40             data = json.dumps(obj, ensure_ascii=False)

41             f.write(data + "\n")

42         print("ok")

selenium获取动态网页信息（某东）-具体配置信息的更多相关文章

在python使用selenium获取动态网页信息并用BeautifulSoup进行解析--动态网页爬虫
爬虫抓取数据时有些数据是动态数据,例如是用js动态加载的,使用普通的urllib2 抓取数据是找不到相关数据的,这是爬虫初学者在使用的过程中,最容易发生的情况,明明在浏览器里有相应的信息,但是在pyt ...
Selenium获取动态图片验证码
Selenium获取动态图片验证码关于图片验证码的文章,我想大家都有一定的了解了. 在我们做UI自动化的时候,经常会遇到图片验证码的问题. 当开发不给咱们提供万能验证码,或者测试第三方网站比如知乎的 ...
Python爬虫使用selenium处理动态网页
对于静态网页,使用requests等库可以很方便的得到它的网页源码,然后提取出想要的信息.但是对于动态网页,情况就要复杂很多,这种页面的源码往往只有一个框架,其内容都是由JavaScript渲染出来的 ...
Python网络爬虫笔记（四）：使用selenium获取动态加载的内容
(一) 说明上一篇只能下载一页的数据,第2.3.4....100页的数据没法获取,在上一篇的基础上修改了下,使用selenium去获取所有页的href属性值. 使用selenium去模拟浏览器有点 ...
【Todo】phantomjs获取动态网页
上面一篇文章,使用了cheerio, http, request等库,来抓取了Lofter上面的美女图片. 但是很多网页是动态渲染的.据了解,Phantom.js 可以获取动态渲染的网页 http:/ ...
AspNet Core 程序写入配置信息并再次读取配置信息
1.首先创见Core控制台应用程序并且引入 AspNetCore.All 首先我们写入配置信息:直接代码如下 //配置信息的根对象 public static IConfigurationRoo ...
cat .git/config查看远端服务器信息（git的配置信息：远端服务器连接信息）
本地git库中,查找其连接的远端服务器信息: 每个git库都会有一个配置信息文件.git/config. cat .git/config,可以看到信息如下: [core] reposi ...
Selenium 获取动态js的网页
Selenium基于webkit实现爬虫功能 http://www.cnblogs.com/luxiaojun/p/6144748.html https://www.cnblogs.com/chenq ...
用selenium爬动态网页
0-安装我用python2.7,用pip安装selenium即可,phantomjs到官网下载安装,也不难. 1-主要参考的几篇文章 Python爬虫利器四之PhantomJS的用法 Python爬 ...

随机推荐

canvas图形函数
function drawStar(cobj,x, y, radius1, radius2, num, drawType, color) {//参数:画笔,圆心X.圆心Y,半径1,半径2,形状边,实心 ...
基于Office 365的随需应变业务应用平台
作者:陈希章发表于 2017年9月7日这是我去年10月底在微软技术大会(Microsoft Ignite 2016) 上面的演讲主题,承蒙大家抬爱,也沾了前一场明星讲师的光,我记得会场几乎是满座. ...
UI性能优化
我的思路在移动设备上打开UI界面卡顿,等待时间长,页面白块,等等体验是很不好的.本文记录我在工作中解决UI卡顿的方法. 我主要从以下方面入手资源量界面打开做的操作界面自身的逻辑 IO的读写(包 ...
final关键字细节
final关键字在java中是一个很重要的关键字,其实按照其字面意思理解,就可以一窥这个关键字端倪,final的本意是最终的.所谓最终的,其最重要的特征就是不能修改,由此衍生出的许多细节均应以这个特征 ...
java语言实现树
首先用Node类定义一个节点,用来存储每个节点的内容: public class Node { // 关键字 private int keyData; // 其他数据 private int othe ...
使用docker+consul+nginx集成分布式的服务发现与注册架构
一.环境说明: 1.一台虚拟机,该系统已经装好了docker: ip 192.168.10.224 虚拟网卡,与主机互通操作系统rhel6 内核 2.6.32 64位 docker版本 1.7.1 ...
hibernate框架(4)---主键生成策略
主键生成策略常见的生成策略分为六种 1.increment 由Hibernate从数据库中取出主键的最大值(每个session只取1次),以该值为基础,每次增量为1,在内存中生成主键,不依赖于底层的 ...
【CSS3】动画
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
Solr集群搭建详细教程（二）
注:欢迎大家转载,非商业用途请在醒目位置注明本文链接和作者名dijia478,商业用途请联系本人dijia478@163.com. 之前步骤:Solr集群搭建详细教程(一) 三.solr集群搭建注意 ...
零基础学习webpack打包管理
这些天在项目之余的时间学习了webpack打包项目的东西,非常荣幸的找到一些大神的文章来学习,死劲嚼了几天,终于略知一二.在以后的工作上还需继续学习,下面我将分享我这几天学到的一点东西,希望能让我一个 ...

selenium获取动态网页信息（某东）-具体配置信息

selenium获取动态网页信息（某东）-具体配置信息的更多相关文章

随机推荐

热门专题