JS+Selenium+excel追加写入，使用python成功爬取京东任何商品~

之前一直是requests库做爬虫，这次尝试下使用selenium做爬虫，效率不高，但是却没有限制，文章是分别结合大牛的selenium爬虫以及excel追加写入操作而成，还有待优化，打算爬取更多信息后进行词云分析

'''

爬取京东商品信息:

    请求url:

        https://www.jd.com/

    提取商品信息:

        .商品详情页

        .商品名称

        .商品价格

        .评价人数

        .商品商家

'''

# coding=UTF-

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import time

import xlrd

import xlwt

from xlutils.copy import copy

def write_excel_xls(path, sheet_name, value):

    index = len(value)  # 获取需要写入数据的行数

    workbook = xlwt.Workbook()  # 新建一个工作簿

    sheet = workbook.add_sheet(sheet_name)  # 在工作簿中新建一个表格

    for i in range(, index):

        for j in range(, len(value[i])):

            sheet.write(i, j, value[i][j])  # 像表格中写入数据（对应的行和列）

    workbook.save(path)  # 保存工作簿

    print("xls格式表格写入数据成功！")

def write_excel_xls_append(path, value):

    index = len(value)  # 获取需要写入数据的行数

    workbook = xlrd.open_workbook(path)  # 打开工作簿

    sheets = workbook.sheet_names()  # 获取工作簿中的所有表格

    worksheet = workbook.sheet_by_name(sheets[])  # 获取工作簿中所有表格中的的第一个表格

    rows_old = worksheet.nrows  # 获取表格中已存在的数据的行数

    new_workbook = copy(workbook)  # 将xlrd对象拷贝转化为xlwt对象

    new_worksheet = new_workbook.get_sheet()  # 获取转化后工作簿中的第一个表格

    for i in range(, index):

        for j in range(, len(value[i])):

            new_worksheet.write(i + rows_old, j, value[i][j])  # 追加写入数据，注意是从i+rows_old行开始写入

    new_workbook.save(path)  # 保存工作簿

    print("xls格式表格【追加】写入数据成功！")

def read_excel_xls(path):

    workbook = xlrd.open_workbook(path)  # 打开工作簿

    sheets = workbook.sheet_names()  # 获取工作簿中的所有表格

    worksheet = workbook.sheet_by_name(sheets[])  # 获取工作簿中所有表格中的的第一个表格

    for i in range(, worksheet.nrows):

        for j in range(, worksheet.ncols):

            print(worksheet.cell_value(i, j), "\t", end="")  # 逐行逐列读取数据

        print()

def get_good(driver):

    value = []

    # 通过JS控制滚轮滑动获取所有商品信息

    js_code = '''

            window.scrollTo(,);

        '''

    driver.execute_script(js_code)  # 执行js代码

    # 等待数据加载

    time.sleep()

    # 、查找所有商品div

    # good_div = driver.find_element_by_id('J_goodsList')

    good_list = driver.find_elements_by_class_name('gl-item')

    n =

    for good in good_list:

        # 根据属性选择器查找

        # 商品链接

        good_url = good.find_element_by_css_selector(

            '.p-img a').get_attribute('href')

        # 商品名称

        good_name = good.find_element_by_css_selector(

            '.p-name em').text.replace("\n", "--")

        # 商品价格

        good_price = good.find_element_by_class_name(

            'p-price').text.replace("\n", ":")

        # 评价人数

        good_commit = good.find_element_by_class_name(

            'p-commit').text.replace("\n", " ")

        # good_content = f'''

        #                 商品链接: {good_url}

        #                 商品名称: {good_name}

        #                 商品价格: {good_price}

        #                 评价人数: {good_commit}

        #                 \n

        #                 '''

        # print(good_content)

        # with open('jd.txt', 'a', encoding='utf-8') as f:

        #     f.write(good_content)

        value1 = [good_url, good_name, good_price, good_commit]

        value.append(value1)

    return value

if __name__ == '__main__':

    good_name = input('请输入爬取商品信息:').strip()

    num = int(input('请输入要爬取的页数：'))

    driver = webdriver.Chrome()

    driver.implicitly_wait()

    # # 、往京东主页发送请求

    driver.get('https://www.jd.com/')

    #

    # # 、输入商品名称，并回车搜索

    input_tag = driver.find_element_by_id('key')

    input_tag.send_keys(good_name)

    input_tag.send_keys(Keys.ENTER)

    time.sleep()

    # 评论数排行

    driver.find_element_by_link_text('评论数').click()

    time.sleep()

    book_name_xls = good_name + '.xls'

    sheet_name_xls = good_name

    value_title = [["商品链接", "商品名称", "商品价格", "评价人数"], ]

    write_excel_xls(book_name_xls, sheet_name_xls, value_title)

    for i in range(, num):

        value = get_good(driver)

        write_excel_xls_append(book_name_xls, value)

        next_tag = driver.find_element_by_class_name('pn-next')

        next_tag.click()

        time.sleep()

        read_excel_xls(book_name_xls)

    driver.close()

JS+Selenium+excel追加写入，使用python成功爬取京东任何商品~的更多相关文章

Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...
python大规模爬取京东
python大规模爬取京东主要工具 scrapy BeautifulSoup requests 分析步骤打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点我们可以看到这个页面 ...
python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
Python爬虫-爬取京东商品信息-按给定关键词
目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
python利用urllib实现的爬取京东网站商品图片的爬虫
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...
毕设二:python 爬取京东的商品评论
# -*- coding: utf-8 -*- # @author: Tele # @Time : 2019/04/14 下午 3:48 # 多线程版 import time import reque ...
Python 爬虫-爬取京东手机页面的图片
具体代码如下: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...
一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...

随机推荐

coding++：error Could not read JSON: Unexpected token (START_OBJECT), expected START_ARRAY: need JSON Array to contain As.WRAPPER_ARRAY type information for class java.lang.Object
Spring源码中是使用容器中的ObjectMapper对象进行序列化和反序列化. 当我们将自定义的ObjectMapper对象放入IOC容器中后,会自动覆盖SpringBoot自动装载的Object ...
C - Monkey and Banana
文章目录题意如下思路如下题解如下: A group of researchers are designing an experiment to test the IQ of a monkey. ...
B - Charlie's Change
Charlie is a driver of Advanced Cargo Movement, Ltd. Charlie drives a lot and so he often buys coffe ...
跨域问题：Cross origin requests are only supported for protocol schemes: http...
跨域:Cross origin requests are only supported for protocol schemes: http, data, chrome, chrome-extensi ...
C#通用类库整理--序列化类
程序员在编写应用程序的时候往往要将程序的某些数据存储在内存中,然后将其写入某个文件或是将它传输到网络中的另一台计算机上以实现通讯.这个将程序数据转化成能被存储并传输的格式的过程被称为"序列 ...
来，让我们一起来学习VIM
什么是VIM vim是一个高度可定制的文本编辑器,被很多专业的程序员使用,并获得了程序员的一致好评. 下图是Vim的官网vim.org 你可以在Vim的官网免费下载并使用Vim,同样可以在Vim官网学 ...
Android视频悬浮窗口实现
前言本文例子实现了点击显示悬浮窗口,同时窗口可播放视频,拖动位置,点击关闭及返回APP页面,通过例子来讲述悬浮窗口实现原理及细节处理,效果图如下所示: 原理 WindowManager对View视图 ...
五个简单的shell脚本
1.编写shell脚本 ex1.sh,提示用户输入用户名,并判断此用户名是否存在. (提示:利用read.grep和/etc/passwd) #!/bin/bash echo "请输入用户名 ...
ThinkPHP3.2.3集成微信分享JS-SDK实践
先来看看微信分享效果:在没有集成微信分享js-sdk前是这样的:没有摘要,缩略图任意抓取正文图片在集成微信分享js-sdk后是这样的:标题,摘要,缩略图自定义一.下载微信SDK开发包下载地址:ht ...
33.1 File 获取目录下的所有文件及子目录
重要获取功能 String[] list() 返回当前路径下所有的文件和文件夹名称 //注意:只有指向文件夹的File对象才可以调用该方法(指向文件的file对象使用list会报错npe) File[ ...

JS+Selenium+excel追加写入，使用python成功爬取京东任何商品~

JS+Selenium+excel追加写入，使用python成功爬取京东任何商品~的更多相关文章

随机推荐

热门专题