一起学爬虫——使用selenium和pyquery爬取京东商品列表

layout: article

title: 一起学爬虫——使用selenium和pyquery爬取京东商品列表

mathjax: true

今天一起学起使用selenium和pyquery爬取京东的商品列表。本文的所有代码是在pycharm IDE中完成的，操作系统window 10。

1、准备工作

安装pyquery和selenium类库。依次点击file->settings，会弹出如下的界面：

然后依次点击：project->project Interpreter->"+",，如上图的红色框所示。然后会弹出下面的界面：

输入selenium，在结果列表中选中“selenium”，点击“install package”按钮安装selenium类库。pyquery也是一样的安装方法。

安装chrome和chrome driver插件。chrome dirver插件下载地址：http://npm.taobao.org/mirrors/chromedriver/。切记chrome和chrome dirver的版本要一致。我的chrome版本是70，对应chrome driver是2.44,2.43，2.42。

下载chrome driver解压后，将exe文件拷贝到pycharm开发空间的Scripts文件夹中：

**2、分析要爬取的页面 **

这次是爬取京东图书中计算机书籍类书籍的信息。

打开chrome，打开开发者工具，输入www.jd.com，分析查询输入框和查询按钮的css代码：

通过分析发现，搜索框的css代码是id=“key”，查询按钮的css代码是class=“button”。下面是使用selenium调用chrome浏览器在搜索框输入关键词“计算机书籍”并点击查询按钮出发查询请求的代码：

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from pyquery import PyQuery as pq

#通过Chrome()方法打开chrome浏览器

browser = webdriver.Chrome()

#访问京东网站

browser.get("https://www.jd.com")

#等待50秒

wait = WebDriverWait(browser, 50)

#通过css选择器的id属性获得输入框

input = browser.find_element_by_id('key')

#在输入框中写入要查询的信息

input.send_keys('计算机书籍')

#获取查询按钮

submit_button = browser.find_element_by_class_name('button')

#点击查询按钮

submit_button.click()

上面代码成功启动chrome浏览器，自动完成在搜索框中输入关键词并点击查询按钮的操作。

点击完查询按钮之后，会加载出符合条件的书籍，如下图所示：

。

鼠标往下滚动到达网页底部时，会看到分页的界面：

。

下一步要做的工作就是分析商品列表页和分页的css代码。

我们要爬去图书的书名、图片、价格、出版社、评价数量信息。下图是商品列表也的界面，

。

通过开发者工具可知class="gl-item"的li节点是一条商品的信息，上图这个的红色框。

绿色框是商品的图片信息。对应的是class=“p-img”的div节点。

蓝色框是商品的价格信息，对应的是class="p-price"的div节点。

黑色框是商品的名称信息，对应的是class="p-name"的div节点。

紫色狂是商品的评价信息，对应的是class="p-commit"的div节点。

褐色框是商品的出版社信息，对应的是class=“p-shopnum”的div节点。

我们使用pyquery解析商品的信息，使用selenium打开一个页面时，通过page_source属性就可以得到页面的源码。

这里有个坑需要注意：京东的商品列表页是显示固定数量的商品，当加载新的商品页的时候，并不是一下子把该页的商品都加载出来，而是鼠标向下滚动时才会动态加载新的商品。因此我们在使用selenium时，要将鼠标设置自动滚动到商品列表页的底部，这样就会把该页的所有商品都显示出现，爬取的数据才能完整，否则会出现丢失。

下面给出解析一个商品的代码：

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from pyquery import PyQuery as pq

import time

#通过Chrome()方法打开chrome浏览器

browser = webdriver.Chrome()

#访问京东网站

browser.get("https://www.jd.com")

#等待50秒

wait = WebDriverWait(browser, 50)

#通过css选择器的id属性获得输入框

input = browser.find_element_by_id('key')

#在输入框中写入要查询的信息

input.send_keys('计算机书籍')

#获取查询按钮

submit_button = browser.find_element_by_class_name('button')

#点击查询按钮

submit_button.click()

# 模拟下滑到底部操作

for i in range(1, 5):

    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    time.sleep(1)

#商品列表的总页数

total = wait.until(

    EC.presence_of_all_elements_located(

        (By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > em:nth-child(1) > b')

    )

)

html = browser.page_source.replace('xmlns', 'another_attr')

doc = pq(html)

#一个商品信息是存放在class=“gl-item”的li节点内，items()方法是获取所有的商品列表。

li_list = doc('.gl-item').items()

#循环解析每个商品的信息

for item in li_list:

    image_html = item('.gl-i-wrap .p-img')

    book_img_url = item.find('img').attr('data-lazy-img')

    if book_img_url == "done":

        book_img_url = item.find('img').attr('src')

    print('图片地址:' + book_img_url)

    item('.p-name').find('font').remove()

    book_name = item('.p-name').find('em').text()

    print('书名：' + book_name)

    price = item('.p-price').find('em').text() + str(item('.p-price').find('i').text())

    print('价格：' + price)

    commit = item('.p-commit').find('strong').text()

    print('评价数量：' + commit)

    shopnum  = item('.p-shopnum').find('a').text()

    print('出版社：' + shopnum)

    print('++++++++++++++++++++++++++++++++++++++++++++')

对于有分页的情况，需要一页一页的解析商品，我们可以通过selenium调用“下一页”按钮来获取下一页的源代码。我们来分析下一页的css代码，滚动鼠标到网页的底部，会看到分页的情况：

。

通过上图可知，需要获取到“下一页”按钮，然后调用click方法。相应的代码为：

    next_page_button = wait.until(

        EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_bottomPage > span.p-num > a.pn-next > em'))

    )

    next_page_button.click()

    #滑动到页面底部，用于加载数据

    for i in range(0,3):

        browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        time.sleep(10)

    #一页显示60个商品，"#J_goodsList > ul > li:nth-child(60)确保60个商品都正常加载出来。

    wait.until(

        EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#J_goodsList > ul > li:nth-child(60)"))

    )

    # 判断翻页成功，当底部的分页界面上显示第几页时，就显示翻页成功。

    wait.until(

        EC.text_to_be_present_in_element((By.CSS_SELECTOR, "#J_bottomPage > span.p-num > a.curr"), str(page_num))

    )

下面给出完整代码：

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from pyquery import PyQuery as pq

import time

#打开不同的浏览器实例

def openBrower(brower_type):

    if brower_type == 'chrome':

        return webdriver.Chrome()

    elif brower_type == 'firefox':

        return webdriver.Firefox()

    elif brower_type == 'safari':

        return webdriver.Safari()

    elif brower_type == 'PhantomJS':

        return webdriver.PhantomJS()

    else :

        return webdriver.Ie()

def parse_website():

    # 通过Chrome()方法打开chrome浏览器

    browser = openBrower('chrome')

    # 访问京东网站

    browser.get("https://www.jd.com")

    # 等待50秒

    wait = WebDriverWait(browser, 50)

    # 通过css选择器的id属性获得输入框。until方法表示浏览器完全加载到对应的节点，才返回相应的对象。presence_of_all_elements_located是通过css选择器加载节点

    input = wait.until(

        EC.presence_of_all_elements_located((By.CSS_SELECTOR, '#key'))

    )

    # input = browser.find_element_by_id('key')

    # 在输入框中写入要查询的信息

    input[0].send_keys('计算机书籍')

    # 查询按钮完全加载完毕，返回查询按钮对象

    submit_button = wait.until(

        EC.element_to_be_clickable((By.CSS_SELECTOR, '.button'))

    )

    # 点击查询按钮

    submit_button.click()

    # 模拟下滑到底部操作

    for i in range(0,3):

        browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        time.sleep(3)

    # 商品列表的总页数

    total = wait.until(

        EC.presence_of_all_elements_located(

            (By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > em:nth-child(1) > b')

        )

    )

    html = browser.page_source.replace('xmlns', 'another_attr')

    parse_book(1,html)

    for page_num in range(2,int(total[0].text) + 1):

        parse_next_page(page_num,browser,wait)

##解析下一页

def parse_next_page(page_num,browser,wait):

    next_page_button = wait.until(

        EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_bottomPage > span.p-num > a.pn-next > em'))

    )

    next_page_button.click()

    #滑动到页面底部，用于加载数据

    for i in range(0,3):

        browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        time.sleep(10)

    #一页显示60个商品，"#J_goodsList > ul > li:nth-child(60)确保60个商品都正常加载出来。

    wait.until(

        EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#J_goodsList > ul > li:nth-child(60)"))

    )

    # 判断翻页成功，当底部的分页界面上显示第几页时，就显示翻页成功。

    wait.until(

        EC.text_to_be_present_in_element((By.CSS_SELECTOR, "#J_bottomPage > span.p-num > a.curr"), str(page_num))

    )

    html = browser.page_source.replace('xmlns', 'another_attr')

    parse_book(page_num, html)

def parse_book(page,html):

    doc = pq(html)

    li_list = doc('.gl-item').items()

    print('-------------------第' + str(page) + '页的图书信息---------------------')

    for item in li_list:

        image_html = item('.gl-i-wrap .p-img')

        book_img_url = item.find('img').attr('data-lazy-img')

        if book_img_url == "done":

            book_img_url = item.find('img').attr('src')

        print('图片地址:' + book_img_url)

        item('.p-name').find('font').remove()

        book_name = item('.p-name').find('em').text()

        print('书名：' + book_name)

        price = item('.p-price').find('em').text() + str(item('.p-price').find('i').text())

        print('价格：' + price)

        commit = item('.p-commit').find('strong').text()

        print('评价数量：' + commit)

        shopnum = item('.p-shopnum').find('a').text()

        print('出版社：' + shopnum)

        print('++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++')

def main():

    parse_website()

if __name__ == "__main__":

    main()

3、总结

(1)要记得调用 browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")方法模拟鼠标向下滚动的操作加载数据，否则数据会不完整。

(2)在通过page_source获取网页源码时，如果有xmlns命名空间，则要将该命名空间空其他的字段代替，否则使用pyquery解析网页时，会解析不出数据。pyquery解析xmlns命名空间时，会自动隐藏掉某些属性。导致无法征程解析网页，原因不详，如果有人知道原因请告知。

(3)尽量用wait.until(EC.presence_of_all_elements_located())方法，这样可以避免网页无法正常加载而提前返回网页信息的情况。保证数据的准确。

一起学爬虫——使用selenium和pyquery爬取京东商品列表的更多相关文章

Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
爬虫系列(十三) 用selenium爬取京东商品
这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
Python3爬虫：（一）爬取拉勾网公司列表
人生苦短,我用Python 爬取原因:了解一下Python工程师在北上广等大中城市的薪资水平与入职前要求. Python3基础知识 requests,pyquery,openpyxl库的使用爬取前的 ...
python制作爬虫爬取京东商品评论教程
作者:蓝鲸类型:转载本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
Python爬虫-爬取京东商品信息-按给定关键词
目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
八个commit让你学会爬取京东商品信息
我发现现在不用标题党的套路还真不好吸引人,最近在做相关的事情,从而稍微总结出了一些文字.我一贯的想法吧,虽然才疏学浅,但是还是希望能帮助需要的人.博客园实在不适合这种章回体的文章.这里,我贴出正文的前 ...

随机推荐

python_类与对象学习笔记
class Phone: #手机属性===>类属性 # color='black' # price=4500 # brand='oppo' # size='5.5' #参数化-魔法方法--初始化 ...
《Java》第八周学习总结
第八周学习内容:课本第15章节的内容泛型与集合框架主要内容有 -泛型-链表-堆栈-散列映射-树集-树映射重点和难点-重点:泛型和集合的使用码云:https://gitee.com/ShengHu ...
一次mysql主从加keepalived配置搭建及切换演示
[需求] 根据需求需要搭建mysql主从架构数据库及加keepalived进行自动切换VIP [环境介绍] 系统环境:CentOS release 6.4 (Final) + Server vers ...
DUMP 5 企业级电商项目
[订单模块] 创建订单商品信息订单列表订单详情取消订单订单列表订单搜素订单详情订单发货 [创建订单] 购物车勾选商品涉及 Cart Product => 一个商品 ...
ARIMA模型原理
一.时间序列分析北京每年每个月旅客的人数,上海飞往北京每年的游客人数等类似这种顾客数.访问量.股价等都是时间序列数据.这些数据会随着时间变化而变化.时间序列数据的特点是数据会随时间的变化而变化. 随 ...
Machine Learning 思维导图
Feature Enigneering 经用 sns.distplot 测试一个Series 做 StandardScaler().fit_transform(Seriese) 之前和之后的图形形状 ...
idea2018注册
1.在网上随便找一个注册码,lanyu的即可,注册时会被提示此注册码已被取消. 2.修改hosts文件,目录:C:\Windows\System32\drivers\etc\hosts,在文件中添加 ...
python&django 实现页面中关联查询小功能（中级篇）
目的组合搜索实现如下图功能知识点 1.使用自定义标签模板(templatetags) 实现 models.py 和 views.py和初级篇一样重点如下:在app01目录下创建templatet ...
#2018-2019-2-20175204 张湲祯实验一《Java开发环境的熟悉》实验报告
2018-2019-2-20175204 张湲祯实验一 <Java开发环境的熟悉>实验报告一.实验内容及步骤一.使用JDK编译.运行简单的Java程序 1.输入cd zyz命令进入z ...
处理 oracle 数据库导入报错“IMP-00058: 遇到 ORACLE 错误 942”
在导入数据文件的时候出现了下图错误: 经过多次百度搜索问题.得知问题错误方向: 仔细的查询了被导入数据的数据库的版本: 而被导入的数据包 dmp 文件是从 oracle11g r2的版本导出的. 所 ...

一起学爬虫——使用selenium和pyquery爬取京东商品列表

layout: article title: 一起学爬虫——使用selenium和pyquery爬取京东商品列表 mathjax: true

一起学爬虫——使用selenium和pyquery爬取京东商品列表的更多相关文章

随机推荐

热门专题

layout: article

title: 一起学爬虫——使用selenium和pyquery爬取京东商品列表

mathjax: true