selenium和pyquery抓取异步加载数据

安装selenium和pyquery

打开命令行输入:

pip install selenium

pip install pyquery

chromedriver的下载地址如下：
http://chromedriver.storage.googleapis.com/index.html


from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from pyquery import PyQuery as pq

import time

#打开不同的浏览器实例

def openBrower(brower_type):

    if brower_type == 'chrome':

        return webdriver.Chrome("C:/Users/net/PycharmProjects/untitled/venv/Scripts/chromedriver.exe")

    elif brower_type == 'firefox':

        return webdriver.Firefox()

    elif brower_type == 'safari':

        return webdriver.Safari()

    elif brower_type == 'PhantomJS':

        return webdriver.PhantomJS()

    else :

        return webdriver.Ie()

def parse_website():

    # 通过Chrome()方法打开chrome浏览器

    browser = openBrower('chrome')

    # 访问京东网站

    browser.get("https://www.jd.com")

    # 等待50秒

    wait = WebDriverWait(browser, 50)

    # 通过css选择器的id属性获得输入框。until方法表示浏览器完全加载到对应的节点，才返回相应的对象。presence_of_all_elements_located是通过css选择器加载节点

    input = wait.until(

        EC.presence_of_all_elements_located((By.CSS_SELECTOR, '#key'))

    )

    # input = browser.find_element_by_id('key')

    # 在输入框中写入要查询的信息

    input[0].send_keys('计算机书籍')

    # 查询按钮完全加载完毕，返回查询按钮对象

    submit_button = wait.until(

        EC.element_to_be_clickable((By.CSS_SELECTOR, '.button'))

    )

    # 点击查询按钮

    submit_button.click()

    # 模拟下滑到底部操作

    for i in range(0,3):

        browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        time.sleep(3)

    # 商品列表的总页数

    total = wait.until(

        EC.presence_of_all_elements_located(

            (By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > em:nth-child(1) > b')

        )

    )

    html = browser.page_source.replace('xmlns', 'another_attr')

    parse_book(1,html)

    for page_num in range(2,int(total[0].text) + 1):

        print('当前第' + str(page_num) + '页')

        parse_next_page(page_num,browser,wait)

##解析下一页

def parse_next_page(page_num,browser,wait):

    next_page_button = wait.until(

        EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_bottomPage > span.p-num > a.pn-next > em'))

    )

    next_page_button.click()

    #滑动到页面底部，用于加载数据

    for i in range(0,3):

        browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        time.sleep(10)

    #一页显示60个商品，"#J_goodsList > ul > li:nth-child(60)确保60个商品都正常加载出来。

    wait.until(

        EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#J_goodsList > ul > li:nth-child(60)"))

    )

    # 判断翻页成功，当底部的分页界面上显示第几页时，就显示翻页成功。

    wait.until(

        EC.text_to_be_present_in_element((By.CSS_SELECTOR, "#J_bottomPage > span.p-num > a.curr"), str(page_num))

    )

    html = browser.page_source.replace('xmlns', 'another_attr')

    parse_book(page_num, html)

def parse_book(page,html):

    doc = pq(html)

    li_list = doc('.gl-item').items()

    print('-------------------第' + str(page) + '页的图书信息---------------------')

    for item in li_list:

        image_html = item('.gl-i-wrap .p-img')

        book_img_url = item.find('img').attr('data-lazy-img')

        if book_img_url == "done":

            book_img_url = item.find('img').attr('src')

        print('图片地址:' + book_img_url)

        item('.p-name').find('font').remove()

        book_name = item('.p-name').find('em').text()

        print('书名：' + book_name)

        price = item('.p-price').find('em').text() + str(item('.p-price').find('i').text())

        print('价格：' + price)

        commit = item('.p-commit').find('strong').text()

        print('评价数量：' + commit)

        shopnum = item('.p-shopnum').find('a').text()

        print('出版社：' + shopnum)

        print('++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++')

def main():

    parse_website()

if __name__ == "__main__":

    main()

selenium和pyquery抓取异步加载数据的更多相关文章

[Ext.Net]TreePanel 异步加载数据
异步加载数据指的是页面加载的时候只显示根目录,点击根目录再去加载其子目录. 下面就来介绍下这种异步加载的树结构要怎么实现现将例子的图 QQ图片20131225134353.jpg (12.1 KB, ...
winform异步加载数据到界面
做一个学习记录. 有两个需求: 1.点击按钮,异步加载数据,不卡顿UI. 2.把获取的数据加载到gridview上面. 对于需求1,2,代码如下: public delegate void ShowD ...
向上滚动或者向下滚动分页异步加载数据(Ajax + lazyload)[上拉加载组件]
/**** desc : 分页异步获取列表数据,页面向上滚动时候加载前面页码,向下滚动时加载后面页码 ajaxdata_url ajax异步的URL 如data.php page_val_name a ...
淘宝购物车页面智能搜索框Ajax异步加载数据
如果有朋友对本篇文章的一些知识点不了解的话,可以先阅读此篇文章.在这篇文章中,我大概介绍了一下构建淘宝购物车页面需要的基础知识. 这篇文章主要探讨的是智能搜索框Ajax异步加载数据.jQuery的社区 ...
Jquery zTree结合Asp.net实现异步加载数据
zTree结合Asp.net实现异步加载数据实现简单操作 zTree 下载 api 访问 :http://www.ztree.me/v3/main.php 例子中用到json数据转化 newtons ...
jquery easyui easyui-treegrid 使用异步加载数据
jquery easyui easyui-treegrid 使用异步加载数据 jquery easyui easyui-treegrid 异步请求 >>>>>>&g ...
Highcharts 异步加载数据曲线图表
导入 data.js 文件异步加载数据需要引入以下js 文件: <script src="http://code.highcharts.com/modules/data.js&quo ...
新手教程：不写JS，在MIP页中实现异步加载数据
从需求谈起:在 MIP 页中异步加载数据 MIP(移动网页加速器) 的加速原理除了靠谱的 MIP-Cache CDN 加速外,最值得一提的就是组件系统.所有 JS 交互都需要使用 MIP 组件实现 ...
iScroll.js 向上滑动异步加载数据回弹问题
iScroll是一款用于移动设备web开发的一款插件.像缩放.下拉刷新.滑动切换等移动应用上常见的一些效果都可以轻松实现. 现在最新版本是5.X,官网这里:http://iscrolljs.com/ ...

随机推荐

JDBC详解(二)
一:Statement与PreparedStatement的注意点存在sql注入的危险,如果用户传入的id为“2 or 1=1”,将删除表中的所有数据.而PreparedStatement有效的防止 ...
for master
冒泡排序 Bubble sort function bubleSort(){ var array=[1,8,9,3,2,5,4]; console.log('冒泡排序前',array); for(va ...
MATLAB：图像滤波，绝对值差（filter2，imabsdiff函数）
下面是对图像进行滤波,以及求滤波后的图像与原图像的绝对值差的实现过程,涉及到的函数有filter2,imabsdiff函数: close all; %关闭当前所有图形窗口,清空工作空间变量,清除工作空 ...
结尾非零数的奇偶性（问题来源于PythonTip）
给你一个正整数列表 L, 判断列表内所有数字乘积的最后一个非零数字的奇偶性.如果为奇数输出1,偶数则输出0.. 例如:L=[2,8,3,50] 则输出:0 L = [2,8,3,50] c2 = 0 ...
超级牛皮的oracle的分析函数over(Partition by...) 及开窗函数
over(Partition by...) 一个超级牛皮的ORACLE特有函数. 天天都用ORACLE,用了快2年了.最近才接触到这个功能强大而灵活的函数.真实惭愧啊! oracle的分析函数over ...
koa的洋葱圈模型
拿以下这段代码为例: const Koa = require('koa'); const app = new Koa(); // x-response-time app.use(async (ctx, ...
化工pdf下载
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
Hadoop集群-HDFS集群中大数据运维常用的命令总结
Hadoop集群-HDFS集群中大数据运维常用的命令总结作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客会简单涉及到滚动编辑,融合镜像文件,目录的空间配额等运维操作简介.话 ...
php 配置文件不加载的一次配置
最近在一台服务器上安装配置了5.6和7.1两个版本的php,之前是5.6的.使用都正常,7.1是后期安装的. 问题: 在7.1的程序目录中命名的配置文件为:php7-9026.ini,同时安装并在配置 ...
面向对象【day08】：类的特殊成员（一）
本节内容 1.__doc__2.__module__和__class__3.__init__4.__del__5 .__call__6 .__dict__7 .__str__8 .__getitem_ ...

selenium和pyquery抓取异步加载数据

selenium和pyquery抓取异步加载数据的更多相关文章

随机推荐

热门专题