爬虫—Selenium爬取JD商品信息

一，抓取分析

　　本次目标是爬取京东商品信息，包括商品的图片，名称，价格，评价人数，店铺名称。抓取入口就是京东的搜索页面，这个链接可以通过直接构造参数访问https://search.jd.com/Search?keyword=iPhone，显示的就是第一页的搜索结果。

　　页面下方有一个分页导航，包括前7页的链接，下一页的链接和跳转任意页面的链接。

　　这里的商品显示结果一般都是100页，要获取每一页的内容只需要将页码从1到100遍历即可。所以，我们直接在页面输入框中输入要跳转的页面，点击确定按钮就跳转到对应的页面。

　　我们在这里不使用直接点击“下一页”，一旦爬取过程中出现异常退出，就无法切换到后续页面了。并且，在爬取过程中也需要记住当前的页码数。当我们利用Selenium加载某一页的商品后，在用相应的解析库解析即可。

二，获取商品列表

　　　我们首先需要构造一个抓取的URL：https://search.jd.com/Search?keyword=iPhone，参数keyword就是要搜索的关键字。只要改变这个参数，就能获取不同商品的列表，这里我们可以将它定义为一个变量。

# _*_ coding=utf-8 _*_

import pymongo

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

from urllib.parse import quote

# 配置Selenium

browser = webdriver.Chrome(executable_path=r'D:\Google\Chrome\Application\chromedriver')

wait = WebDriverWait(browser, 10)

keyword = 'iPhone'

# 配置MongoDB

MONGO_URL = 'localhost'

MONGO_DB = 'JD'

MONGO_COLLECTION = 'goods'

client = pymongo.MongoClient(MONGO_URL)

db = client[MONGO_DB]

def get_page(page):

    """

    获取页面

    :param page: 页码

    :return:

    """

    print('正在爬取第', page, '页')

    try:

        url = 'https://search.jd.com/Search?keyword=' + quote(keyword)

        browser.get(url)

        if page >= 1:

            # 页码搜索框加载成功

            search_page = wait.until(

                EC.presence_of_element_located(

                    (By.XPATH, '//div[@id="J_searchWrap"]//div[@id="J_bottomPage"]//span[2]/input'))

            )

            # 页码确认按钮加载成功

            submit = wait.until(

                EC.element_to_be_clickable((By.XPATH, '//div[@id="J_searchWrap"]//div[@id="J_bottomPage"]//span[2]/a')))

            print('button')

            search_page.clear()

            search_page.send_keys(page)

            submit.click()

        # 当前页码显示标识加载成功,对比我们传入的page，结果一致就返回True，证明是跳转到了传入的page页面

        wait.until(

            EC.text_to_be_present_in_element(

                (By.XPATH, '//div[@id="J_searchWrap"]//div[@id="J_bottomPage"]/span//a[@class="curr"]'), str(page))

        )

        # 商品列表加载成功

        wait.until(

            EC.presence_of_element_located((By.XPATH, '//div[@id="J_searchWrap"]//div[@id="J_goodsList"]/ul//li'))

        )

        print('Goods show successfully')

        get_goods()

    except TimeoutException:

        get_page(page)

def get_goods():

    """

    获取商品数据

    :return:

    """

    items = browser.find_elements_by_xpath('//div[@id="J_searchWrap"]//div[@id="J_goodsList"]/ul//li')

    for item in items:

        goods = {

            'img': item.find_element_by_xpath('//div[@class="p-img"]/a/img').get_attribute('src'),

            'price': item.find_element_by_xpath('//div[@class="p-price"]/strong').text,

            'commit': item.find_element_by_xpath('//div[@class="p-commit"]/strong').text,

            'title': item.find_element_by_xpath('//div[@class="p-name p-name-type-2"]/a').text,

            'shop': item.find_element_by_xpath('//div[@class="p-shop"]/span/a').text,

        }

        print(goods)

        save_to_mongo(goods)

def save_to_mongo(result):

    """

    保存到MongoDB

    :param result: 抓取到的结果：单个商品信息

    :return:

    """

    try:

        if db[MONGO_COLLECTION].insert(result):

            print('储存到MongoDB成功！')

    except Exception:

        print('存储到MongoDB失败！')

if __name__ == '__main__':

    for i in range(1, 10):

        get_page(i)

爬虫—Selenium爬取JD商品信息的更多相关文章

selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...
爬虫之selenium爬取京东商品信息
import json import time from selenium import webdriver """ 发送请求 1.1生成driver对象 2.1窗口最大 ...
爬虫系列(十三) 用selenium爬取京东商品
这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
Python爬虫-爬取京东商品信息-按给定关键词
目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...
Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）
之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息.但是在大规模的爬取的时候,Firefox消耗资源比较多,因此我们希望换一种资源消耗更小的方法来爬取相关的信息. 下 ...

随机推荐

ubuntu-12.04下安装postgresql
2013-10-01 20:42:57| moniter参考资料:Ubuntu 12.04下PostgreSQL-9.1安装与配置详解(在线安装)一.安装postgresqlbamboo@bam ...
hdu 4819 Mosaic
无论是线段树还是树状数组维护最大值最小值的时候一定要注意,如果有修改操作的话,这个最小值和最大值的更新一定不能由原来的和修改的值得到,一定要重新查询一次,否则可能出现当前最小值是原来的未修改值,但事实 ...
Drainage Ditches--hdu1532(网络流模板)
http://acm.hdu.edu.cn/showproblem.php?pid=1532 Drainage Ditches Time Limit: 2000/1000 MS (Java/Other ...
洛谷——P3353 在你窗外闪耀的星星
P3353 在你窗外闪耀的星星题目描述飞逝的的时光不会模糊我对你的记忆.难以相信从我第一次见到你以来已经过去了3年.我仍然还生动地记得,3年前,在美丽的集美中学,从我看到你微笑着走出教室,你将头向 ...
topcoder 649 DIV2
8 A:模拟 9:B:终于看懂题目... 题意:最多分解K次每分钟一个数可以分解成两个数或者-1: 关键字:DP,记忆花搜索. DP[I][J]=min(dp[i][j],1+max(dp[ii] ...
java数据结构和算法09（哈希表）
树的结构说得差不多了,现在我们来说说一种数据结构叫做哈希表(hash table),哈希表有是干什么用的呢?我们知道树的操作的时间复杂度通常为O(logN),那有没有更快的数据结构?当然有,那就是哈希 ...
LoadRunner 事务响应时间的组成
事务时间一个事务的时间是指持续时间,事务会完全记录下从事务开始到事务结束之间的时间差,那么事务的时间能真实地反映业务操作的时间吗?不能,就好像人用手按秒表来记录短跑时间一样,得出的时间并不是完全准确 ...
IEnumerator<TItem>和IEnumerator Java 抽象类和普通类、接口的区别——看完你就顿悟了
IEnumerable 其原型至少可以说有15年历史,或者更长,它是通过 IEnumerator 来定义的,而后者中使用装箱的 object 方式来定义,也就是弱类型的.弱类型不但会有性能问题,最主要 ...
IntelliJ IDEA jrebel6 安装，破解
一.Setting中在线安装JRebel插件,install 二.拷贝下载的jrebel.rar解压后把里面内容覆盖IDEA插件安装目录中此插件目录之下下载:http://pan.baidu.co ...
C项目实践--图书管理系统（1）
1.功能需求分析图书管理系统主要用于对大量的图书信息,包括书名.作者.出版社.出版日期.ISBN(书号)等进行增.删.改.查以及保存等操作.同时也包括对用户的管理,用户包括管理员和普通用户两种权限, ...

爬虫—Selenium爬取JD商品信息

一，抓取分析

二，获取商品列表

爬虫—Selenium爬取JD商品信息的更多相关文章

随机推荐

热门专题