Python3数据分析与挖掘建模实战

Python数据分析简介

Python入门

运行:cmd下"python hello.py"

基本命令:

第三方库

安装

Windows中

pip install numpy

或者下载源代码安装

python setup.py install

Pandas默认安装不能读写Excel文件,需要安装xlrd和xlwt库才能支持excel的读写

pip install xlrd

pip install xlwt

StatModel可pip可exe安装,注意,此库依赖于Pandas和patsy

Scikit-Learn是机器学习相关的库,但是不包含人工神经网络

model.fit()     #训练模型,监督模型fit(X,y),非监督模型fit(X)

# 监督模型接口

model.predict(X_new)        #预测新样本

model.predict_proba(X_new)  #预测概率

model.score()               #得分越高,fit越好

# 非监督模型接口

model.transform()           #从数据中学到新的“基空间”

model.fit_transform()       #从数据中学到新的基,并按照这组基进行转换

Keras是基于Theano的强化的深度学习库,可用于搭建普通神经网络,各种深度学习模型,如自编码器,循环神经网络,递归神经网络,卷积神经网络。Theano也是一个Python库,能高效实现符号分解,速度快,稳定性好,实现了GPU加速,在密集型数据处理上是CPU的10倍,缺点是门槛太高。Keras的速度在Windows会大打折扣。

Windows下:安装MinGWindows--安装Theano---安装Keras--安装配置CUDA

Gensim用来处理语言方面的任务,如文本相似度计算、LDA、Word2Vec等,建议在Windows下运行。

Linux中

sudo apt-get install python-numpy

sudo apt-get install python-scipy

sudo apt-get install python-matplotlib

使用

Matplotlib默认字体是英文,如果要使用中文标签,

plt.rcParams['font.sans-serif'] = ['SimHei']

保存作图图像时,负号显示不正常:

plt.rcParams['axes.unicode_minus'] = False

数据探索

脏数据:缺失值、异常值、不一致的值、重复数据

异常值分析

  1. 简单统计量分析:超出合理范围的值
  2. 3sigma原则:若正态分布,异常值定义为偏差超出平均值的三倍标准差;否则,可用远离平均值的多少倍来描述。
  3. 箱型图分析:异常值定义为小于Q_L-1.5IQR或者大于Q_U +1.5IQR。Q_L是下四分位数,全部数据有四分之一比他小。Q_U是上四分位数。IQR称为四分位数间距,IQR=Q_U-Q_L

分布分析

定量数据的分布分析:求极差(max-min),决定组距和组数,决定分点,列出频率分布表,绘制频率分布直方图。

定性数据的分布分析:饼图或条形图

对比分析

统计量分析

集中趋势度量:均值、中位数、众数

离中趋势度量:极差、标准差、变异系数、四份位数间距

变异系数为:s表示标准差,x表示均值

周期性分析

贡献度分析

又称帕累托分析,原理是帕累托法则,即20/80定律,同样的投入放在不同的地方会产生不同的收益。

相关性分析

途径:绘制散点图、散点图矩阵、计算相关系数

Pearson相关系数:要求连续变量的取值服从正态分布。

$$
\begin{cases}

{|r|\leq 0.3}&\text{不存在线性相关}\

0.3 < |r| \leq 0.5&\text{低度线性相关}\

0.5 < |r| \leq 0.8&\text{显著线性相关}\

0.8 < |r| \leq 1&\text{高度线性相关}\

\end{cases}
$$

相关系数r的取值范围[-1, 1]

Spearman相关系数:不服从正态分布的变量、分类或等级变量之间的关联性可用该系数,也称等级相关系数。

对两个变量分别按照从小到大的顺序排序,得到的顺序就是秩。R_i表示x_i的秩次,Q_i表示y_i的秩次。

判定系数:相关系数的平方,用来解释回归方程对y的解释程度。

数据探索函数

电子商务网站用户行为分析及服务推荐

数据抽取:建立数据库--导入数据--搭建Python数据库操作环境

数据分析

  1. 网页类型分析
  2. 点击次数分析
  3. 网页排名

数据预处理

  1. 数据清洗:删除数据(中间页面网址、发布成功网址、登录助手页面)
  2. 数据变化:识别翻页网址并去重,错误分类网址手动分类,并进一步分类
  3. 属性规约:只选择用户和用户选择的网页数据

模型构建

基于物品的协同滤波算法:计算物品之间的相似度,建立相似度矩阵;根据物品的相似度和用户的历史行为给用户生成推荐列表。

相似度计算方法:夹角余弦、Jaccard系数、相关系数

财政收入影响因素分析及预测模型

数据分析

  1. 描述性统计分析
  2. 相关分析

模型构建

对于财政收入、增值税、营业税、企业所得税、政府性基金、个人所得税

  1. Adaptive-Lasso变量选择模型:去除无关变量
  2. 分别建立灰色预测模型与神经网络模型

基于基站定位数据的商圈分析

数据预处理

  1. 属性规约:删除冗余属性,合并时间属性
  2. 数据变换:计算工作日人均停留时间、凌晨、周末、日均等指标,并标准化。

模型构建

  1. 构建商圈聚类模型:采用层次聚类算法
  2. 模型分析:对聚类结果进行特征观察

电商产品评论数据情感分析

文本采集:八爪鱼采集器(爬虫工具)

文本预处理:

  1. 文本去重:自动评价、完全重复评价、复制的评论
  2. 机械压缩去词:
  3. 删除短句

文本评论分词:采用Python中文分词包“Jieba”分词,精度达97%以上。

模型构建

  1. 情感倾向性模型:生成词向量;评论集子集的人工标注与映射;训练栈式自编码网

Python3数据分析与挖掘建模实战✍✍✍的更多相关文章

  1. Python3数据分析与挖掘建模实战 ☝☝☝

    Python3数据分析与挖掘建模实战 Python数据分析简介 Python入门 运行:cmd下"python hello.py" 基本命令: 第三方库 安装 Windows中 p ...

  2. Python3数据分析与挖掘建模实战 学习 教程

    Python3数据分析与挖掘建模实战 学习 教程 Python数据分析简介Python入门 运行:cmd下"python hello.py" 基本命令: 第三方库安装Windows ...

  3. Python3数据分析与挖掘建模实战

    Python3数据分析与挖掘建模实战  整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大家看的时 ...

  4. 《MATLAB数据分析与挖掘实战》赠书活动

    <MATLAB数据分析与挖掘实战>是泰迪科技在数据挖掘领域探索10余年经验总结与华南师大.韩山师院.广东工大.广技师   等高校资深讲师联合倾力打造的巅峰之作.全书以实践和实用为宗旨,深度 ...

  5. 【读书笔记与思考】《python数据分析与挖掘实战》-张良均

    [读书笔记与思考]<python数据分析与挖掘实战>-张良均 最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基 ...

  6. 学习参考《Python数据分析与挖掘实战(张良均等)》中文PDF+源代码

    学习Python的主要语法后,想利用python进行数据分析,感觉<Python数据分析与挖掘实战>可以用来学习参考,理论联系实际,能够操作数据进行验证,基础理论的内容对于新手而言还是挺有 ...

  7. python数据分析与挖掘实战

    <python数据分析与挖掘实战>PDF&源代码&张良均 下载:链接:https://pan.baidu.com/s/1TYb3WZOU0R5VbSbH6JfQXw提取码: ...

  8. python数据分析与挖掘实战第二版pdf-------详细代码与实现

    [书名]:PYTHON数据分析与挖掘实战 第2版[作者]:张良均,谭立云,刘名军,江建明著[出版社]:北京:机械工业出版社[时间]:2020[页数]:340[isbn]:9787111640028 学 ...

  9. 零基础数据分析与挖掘R语言实战课程(R语言)

    随着大数据在各行业的落地生根和蓬勃发展,能从数据中挖金子的数据分析人员越来越宝贝,于是很多的程序员都想转行到数据分析, 挖掘技术哪家强?当然是R语言了,R语言的火热程度,从TIOBE上编程语言排名情况 ...

随机推荐

  1. 数据结构学习笔记——顺序数组1

    线性表最简单的刚开始就是顺序存储结构,我是看着郝斌的视频一点一点来的,严蔚敏的书只有算法,没有具体实现,此笔记是具体的实现 为什么数据结构有ADT呢,就是为了满足数据结构的泛性,可以在多种数据类型使用 ...

  2. php开发面试题---Linux常用命令大全

    php开发面试题---Linux常用命令大全 一.总结 一句话总结: ls 查看目录中的文件 cd .. 返回上一级目录 cat 查看文件内容 touch 新建文件或修改时间 1.linux 系统信息 ...

  3. Java-Class-C:com.github.pagehelper.PageHelper

    ylbtech-Java-Class-C:com.github.pagehelper.PageHelper 1.返回顶部   2.返回顶部 1.1. import com.github.pagehel ...

  4. 4. Jmeter主界面的介绍

    上篇文章我们已经介绍过如何安装Jmeter.那么在本篇文章我们将要介绍Jmeter主界面有哪些功能.我们双击jmeter.bat,如下图所示(注意我这是jmeter5.0版本): 我们将Jmter主界 ...

  5. 2019牛客多校第二场A-Eddy Walker

    Eddy Walker 题目传送门 解题思路 因为走过所有的点就会停下来,又因为是从0出发的,所以当n>1时,在0停下来的概率为0,其他的为1/(n-1); 代码如下 #include < ...

  6. 20140702 赋值构造函数的形参为什么一定用引用。string类的赋值运算函数的注意点

    1.复制构造函数为什么一定要用引用,而不是用值 类名::复制构造函数(类名&引用名) 传递引用,可以避免复制,如果一个数据相当大的化,进行复制会浪费很多时间的. 类名::复制构造函数(类名 变 ...

  7. MFS分布式文件系统【2】MFS MASTER 部署

    MFS版本 mfs-1.6.27 MFS-MASTER 192.168.1.190 MFS-CHUNKSERVER1 192.168.1.252 MFS-CHUNKSERVER2 192.168.1. ...

  8. 2018-6-17-win10-UWP-全屏

    title author date CreateTime categories win10 UWP 全屏 lindexi 2018-06-17 17:51:19 +0800 2018-2-13 17: ...

  9. 【模板篇】Link Cut Tree模板(指针)

    网上一片一片的LCT都是数组写的 orz 用指针写splay的人想用指针写LCT找板子都不好找QAQ 所以能A题了之后自然要来回报社会, 把自己的板子丢上来(然而根本没有人会看) LCT讲解就省省吧, ...

  10. vue组件基础之父子传值

    可以看出数据从后端获取过来,最外层的父组件接收数据,子组件不能直接获取,必须由父组件传递,此时使用props,并且父组件的值更新后,子组件的值也会随之更新,但是反过来通过修改子组件props来影响父组 ...