爬虫之selenium爬取京东商品信息

import json

import time

from selenium import webdriver

"""

发送请求

    1.1生成driver对象

    2.1窗口最大化

    2.2下拉滚动条（保证每个位置都刷新）

    3.获取所有li标签列表

    遍历li标签列表提取图片的连接以及主播的名字

    保存图片

翻页

"""

driver = webdriver.Chrome()

driver.maximize_window()

time.sleep(1)

# 京东商品页

driver.get('https://list.jd.com/list.html?cat=9987,653,655&ev=exbrand%5F12669&sort=sort_rank_asc&trans=1&JL=3_%E5%93%81%E7%89%8C_%E9%AD%85%E6%97%8F%EF%BC%88MEIZU%EF%BC%89#J_crumbsBar')

while True:

    time.sleep(1)

    for i in range(16):

        driver.execute_script('window.scrollTo(0,{})'.format(i * 500))

        time.sleep(1)

    lis = driver.find_elements_by_xpath('//ul[@class="gl-warp clearfix"]/li')

    with open('京东.txt', 'w', encoding='utf-8') as f:

        for li in lis:

            # 商品图片、价格、评价人数、商品名

            img_url = li.find_element_by_xpath('./div/div[1]/a/img').get_attribute('src')

            price = li.find_element_by_xpath('.//strong[@class="J_price"]').text

            buyers = li.find_element_by_xpath('./div/div[5]/strong').text

            name = li.find_element_by_xpath('./div/div[4]//em').text

            # 将信息写入文本

            dic = {}

            dic['name'] = name

            dic['price'] = price

            dic['buyers'] = buyers

            json.dump(dic, f, ensure_ascii=False)

            f.write(',\n')

    try:

        next_url = driver.find_element_by_xpath('//a[@class="pn-next"]').click()

    except Exception as e:

        print(e)

        break

time.sleep(1)

driver.close()

爬虫之selenium爬取京东商品信息的更多相关文章

python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
爬虫系列(十三) 用selenium爬取京东商品
这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
爬虫—Selenium爬取JD商品信息
一,抓取分析本次目标是爬取京东商品信息,包括商品的图片,名称,价格,评价人数,店铺名称.抓取入口就是京东的搜索页面,这个链接可以通过直接构造参数访问https://search.jd.com/Sea ...
Python爬虫-爬取京东商品信息-按给定关键词
目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...
Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）
之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息.但是在大规模的爬取的时候,Firefox消耗资源比较多,因此我们希望换一种资源消耗更小的方法来爬取相关的信息. 下 ...
八个commit让你学会爬取京东商品信息
我发现现在不用标题党的套路还真不好吸引人,最近在做相关的事情,从而稍微总结出了一些文字.我一贯的想法吧,虽然才疏学浅,但是还是希望能帮助需要的人.博客园实在不适合这种章回体的文章.这里,我贴出正文的前 ...

随机推荐

（八十二）c#Winform自定义控件-穿梭框
前提入行已经7,8年了,一直想做一套漂亮点的自定义控件,于是就有了本系列文章. GitHub:https://github.com/kwwwvagaa/NetWinformControl 码云:ht ...
详解PHP魔术函数、魔术常量、预定义常量
一.魔术函数(13个) 1.__construct() 实例化对象时被调用, 当__construct和以类名为函数名的函数同时存在时,__construct将被调用,另一个不被调用. 2.__des ...
设计模式----行为型模式之命令模式(Command Pattern)
下面来自head first设计模式的命令模式一章节. 定义将"请求"封装成对象,以便使用不同的请求.队列或者日志来参数化其他对象.命令模式也支持可撤销的操作. 类图注: 1. ...
html5视频常用API接口
一.虽然有的属性是boolean类型,但仍旧建议按照XHTML书写(属性名=”属性值”)格式,避免出现错误 (下面加粗的属性为常用属性) 属性值功能描述 controls controls 是否显 ...
django开发中关于外键设置
django开发中关于外键设置我们建模型的时候会用到ForeignKey 而由于外键的约数会导致一些保存所有我们ctrl+左键进入源码源码 def __init__(self, to, on_d ...
通过机器学习的线性回归算法预测股票走势（用Python实现）
在本人的新书里,将通过股票案例讲述Python知识点,让大家在学习Python的同时还能掌握相关的股票知识,所谓一举两得.这里给出以线性回归算法预测股票的案例,以此讲述通过Python的sklearn ...
PHP range
1.函数的作用:生成范围内的数据 2.函数的参数: @param mixed $start @param mixed $end @param mixed $step 3.例子: <?php $n ...
POJ 3080 Blue Jeans(串)
题目网址:http://poj.org/problem?id=3080 思路: 以第一个DNA序列s为参考序列,开始做以下的操作. 1.将一个字母s[i]作为匹配串.(i为当前遍历到的下标) 2.遍历 ...
i春秋DMZ大型靶场实验(四)Hash基础
下载工具包打开目标机通过目录爆破发现 phpmyadmin 在登录位置尝试注入返现可以注入直接上sqlmap 上 bp 代理抓包 sqlmap.py -r bp.txt ...
算法<初级> - 第二章队列、栈、哈希表相关问题
算法 - 第二章数据结构题目一用数组实现大小固定的队列和栈(一面题) 数组实现大小固定栈 /*** * size是对头索引(initSize是固定大小) 也是当前栈大小 * size=下个进队i ...

爬虫之selenium爬取京东商品信息

爬虫之selenium爬取京东商品信息的更多相关文章

随机推荐

热门专题