Python 爬取淘宝商品数据挖掘分析实战

Python
爬取淘宝商品数据挖掘分析实战

项目内容

本案例选择>> 商品类目：沙发；

数量：共100页 4400个商品；

筛选条件：天猫、销量从高到低、价格500元以上。

爬取淘宝商品数据挖掘分析实战">

项目目的

1. 对商品标题进行文本分析词云可视化

2. 不同关键词word对应的sales的统计分析

3. 商品的价格分布情况分析

4. 商品的销量分布情况分析

5. 不同价格区间的商品的平均销量分布

6. 商品价格对销量的影响分析

7. 商品价格对销售额的影响分析

8. 不同省份或城市的商品数量分布

9.不同省份的商品平均销量分布

注：本项目仅以以上几项分析为例。

项目步骤

1. 数据采集：Python爬取淘宝网商品数据

2. 对数据进行清洗和处理

3. 文本分析：jieba分词、wordcloud可视化

4. 数据柱形图可视化 barh

5. 数据直方图可视化 hist

6. 数据散点图可视化 scatter

7. 数据回归分析可视化 regplot

工具&模块：

工具：本案例代码编辑工具 Anaconda的Spyder

模块：requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn
等。

原代码和相关文档后台回复“淘宝”下载

一、爬取数据

因淘宝网是反爬虫的，虽然使用多线程、修改headers参数，但仍然不能保证每次100%爬取，所以
我增加了循环爬取，每次循环爬取未爬取成功的页直至所有页爬取成功停止。

说明：淘宝商品页为JSON格式这里使用正则表达式进行解析；

代码如下：

爬取淘宝商品数据挖掘分析实战">

二、数据清洗、处理：

(此步骤也可以在Excel中完成再读入数据)

代码如下：

爬取淘宝商品数据挖掘分析实战">

说明：根据需求，本案例中只取了 item_loc, raw_title, view_price, view_sales
这4列数据，主要对标题、区域、价格、销量进行分析。

代码如下:

爬取淘宝商品数据挖掘分析实战">

三、数据挖掘与分析：

【1】. 对 raw_title 列标题进行文本分析：

使用结巴分词器，安装模块pip install jieba

爬取淘宝商品数据挖掘分析实战">

对 title_s（list of list 格式）中的每个list的元素（str）进行过滤剔除不需要的词语，即
把停用词表stopwords中有的词语都剔除掉：

爬取淘宝商品数据挖掘分析实战">

因为下面要统计每个词语的个数，所以为了准确性这里对过滤后的数据 title_clean 中的每个list的元素进行去重，即
每个标题被分割后的词语唯一。

爬取淘宝商品数据挖掘分析实战">

观察 word_count 表中的词语，发现jieba默认的词典无法满足需求：

有的词语（如
可拆洗、不可拆洗等）却被cut，这里根据需求对词典加入新词（也可以直接在词典dict.txt里面增删，然后载入修改过的dict.txt）

爬取淘宝商品数据挖掘分析实战">

词云可视化：

安装模块 wordcloud：

方法1： pip install wordcloud

方法2：下载Packages安装：pip install 软件包名称

软件包下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

注意：要把下载的软件包放在Python安装路径下。

代码如下：

爬取淘宝商品数据挖掘分析实战">

分析结论：

1. 组合、整装商品占比很高；

2. 从沙发材质看：布艺沙发占比很高，比皮艺沙发多；

3. 从沙发风格看：简约风格最多，北欧风次之，其他风格排名依次是美式、中式、日式、法式等；

4. 从户型看：小户型占比最高、大小户型次之，大户型最少。

【2】. 不同关键词word对应的sales之和的统计分析：

（说明：例如词语 ‘简约’，则统计商品标题中含有‘简约’一词的商品的销量之和，即求出具有‘简约’风格的商品销量之和）

代码如下：

爬取淘宝商品数据挖掘分析实战">

对表df_word_sum 中的 word 和 w_s_sum 两列数据进行可视化

（本例中取销量排名前30的词语进行绘图）

爬取淘宝商品数据挖掘分析实战">

由图表可知：

1. 组合商品销量最高；

2. 从品类看：布艺沙发销量很高，远超过皮艺沙发；

3. 从户型看：小户型沙发销量最高，大小户型次之，大户型销量最少；

4. 从风格看：简约风销量最高，北欧风次之，其他依次是中式、美式、日式等；

5. 可拆洗、转角类沙发销量可观，也是颇受消费者青睐的。

【3】. 商品的价格分布情况分析：

分析发现，有一些值太大，为了使可视化效果更加直观，这里我们结合自身产品情况，选择价格小于20000的商品。

代码如下：

爬取淘宝商品数据挖掘分析实战">

由图表可知：

1. 商品数量随着价格总体呈现下降阶梯形势，价格越高，在售的商品越少；

2. 低价位商品居多，价格在500-1500之间的商品最多，1500-3000之间的次之，价格1万以上的商品较少；

3. 价格1万元以上的商品，在售商品数量差异不大。

【4】. 商品的销量分布情况分析：

同样，为了使可视化效果更加直观，这里我们选择销量大于100的商品。

代码如下：

爬取淘宝商品数据挖掘分析实战">

由图表及数据可知：

1. 销量100以上的商品仅占3.4% ，其中销量100-200之间的商品最多，200-300之间的次之；

2. 销量100-500之间，商品的数量随着销量呈现下降趋势，且趋势陡峭，低销量商品居多；

3. 销量500以上的商品很少。

【5】. 不同价格区间的商品的平均销量分布：

代码如下：

爬取淘宝商品数据挖掘分析实战">

由图表可知：

1. 价格在1331-1680之间的商品平均销量最高，951-1331之间的次之，9684元以上的最低；

2. 总体呈现先增后减的趋势，但最高峰处于相对低价位阶段；

3. 说明广大消费者对购买沙发的需求更多处于低价位阶段，在1680元以上价位越高平均销量基本是越少。

【6】. 商品价格对销量的影响分析：

同上，为了使可视化效果更加直观，这里我们结合自身产品情况，选择价格小于20000的商品。

代码如下：

爬取淘宝商品数据挖掘分析实战">

由图表可知：

1. 总体趋势：随着商品价格增多其销量减少，商品价格对其销量影响很大；

2.
价格500-2500之间的少数商品销量冲的很高，价格2500-5000之间的商品多数销量偏低，少数相对较高，但价格5000以上的商品销量均很低
没有销量突出的商品。

【7】. 商品价格对销售额的影响分析：

代码如下：

爬取淘宝商品数据挖掘分析实战">

由图表可知：

1. 总体趋势：由线性回归拟合线可以看出，商品销售额随着价格增长呈现上升趋势；

2. 多数商品的价格偏低，销售额也偏低；

3.
价格在0-20000的商品只有少数销售额较高，价格2万-6万的商品只有3个销售额较高，价格6-10万的商品有1个销售额很高，而且是最大值。

【8】. 不同省份的商品数量分布：

代码如下：

爬取淘宝商品数据挖掘分析实战">

由图表可知：

1. 广东的最多，上海次之，江苏第三，尤其是广东的数量远超过江苏、浙江、上海等地，说明在沙发这个子类目，广东的店铺占主导地位；

2. 江浙沪等地的数量差异不大，基本相当。

【9】. 不同省份的商品平均销量分布：

代码如下：

爬取淘宝商品数据挖掘分析实战">

热力型地图

爬取淘宝商品数据挖掘分析实战">

作者后记

孙方辉
从事数据分析工作，热爱数据统计与挖掘分析，本文献给学习Python的朋友们，欢迎大佬们的指点！

Python 爬取淘宝商品数据挖掘分析实战的更多相关文章

Python 爬取淘宝商品信息和相应价格
!只用于学习用途! plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html) :获得商品价格和view_pri ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
爬取淘宝商品信息，放到html页面展示
爬取淘宝商品信息 import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng= ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
甜咸粽子党大战，Python爬取淘宝上的粽子数据并进行分析
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 爬虫爬取淘宝数据,本次采用的方法是:Selenium控制Chrome浏览 ...

随机推荐

Android 开发环境部署
引言在windows安装Android的开发环境不简单也说不上算复杂,本文写给第一次想在自己Windows上建立Android开发环境投入Android浪潮的朋友们,为了确保大家能顺利完成开发环 ...
记录一次TabBar使用本地图片
方法一: 第一步:import addpng from '../../assets/img/add.png' 第二步: { title: '找折扣', image: addpng}, 即可. 方法 ...
python 调用dll 动态链接库结构体参数及回调函数等示例
结构体示例: 这里是 C 代码的部分,主要是结构体的声明和回调函数定义. // 新版本定义 typedef enum { DevCard, DevLocator, DevReader } DevTyp ...
mkfs - 创建一个 Linux 文件系统
总览 mkfs [ -V ] [ -t 文件系统类型 ] [ fs-选项 ] 文件系统 [ 块 ] 描述 mkfs mkfs 用来在指定设备创建一个 Linux 文件系统,通常是在硬盘上. 文件系统 ...
1、Framework7
一. <!DOCTYPE html> <html> <head>  <meta charset="ut ...
10年前文章_嵌入开发使用的服务器配置 tftp ,http,nfs
tftp server 安装 dnsmasq, 在目录 /etc/dnsmasq.d 下生成包含如下内容的配置文件 tftp.conf enable-tftptftp-root=/tftpboot ...
MongoDB的特殊操作
相比关系型数据库, Array [1,2,3,4,5] 和 Object { 'name':'DragonFire' } 是MongoDB 比较特殊的类型了特殊在哪里呢?在他们的操作上又有什么需要注 ...
linux C++ 通讯架构（一）nginx安装、目录、进程模型
nginx是C语言开发的,号称并发处理百万级别的TCP连接,稳定,热部署(运行时升级),高度模块化设计,可以用C++开发. 一.安装和目录 1.1 前提 epoll,linux内核版本为2.6或以上 ...
HTTP教程
适合人群本教程已为计算机学科毕业生和Web开发人员准备,帮助他们了解与超文本传输协议(HTTP)相关的基本到高级概念. 预备知识在继续本教程之前,最好对Web概念,Web浏览器,Web服务器, ...
ubuntu1804隐藏顶部工作栏
先安装 sudo apt-get install gnome-shell-extension-autohidetopbar 然后安装 sudo apt-get install gnome-shell- ...

Python 爬取淘宝商品数据挖掘分析实战

Python 爬取淘宝商品数据挖掘分析实战的更多相关文章

随机推荐

热门专题