Python数据分析实例操作

import pandas as pd  #导入pandas

import matplotlib.pyplot as plt #导入matplotlib

from pylab import *

mpl.rcParams['font.sans-serif'] = ['SimHei']

mpl.rcParams['axes.unicode_minus'] = False

%matplotlib inline

数据读取与索引

bra = pd.read_csv('data/bra.csv')

bra.head()

选取列

bra.content

bra[['creationTime','productColor']].head()

选择行

bra[1:6]

选择行和列

bra.ix[[2,3],[1,3]]  #使用ix

bra.ix[1:5,['productColor']]

bra.iloc[[2,3],[1,3]] #使用iloc

bra.loc[1:5,['content','creationTime','productSize']] #使用loc

bra.loc[1:5,'content':'userClientShow']

数据预处理

缺失值

bra.describe() #查看数据的分布情况,可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数等相关信息

bra['userClientShow'].unique()  #userClientShow列有几种选项

bra['userClientShow'].isnull().sum() #初始缺失值数量

bra['userClientShow'].fillna('不详',inplace=True) #缺失值替换为“不详”

bra['userClientShow'].isnull().sum() #赋值后的缺失值数量

新增列

bra.dtypes #查看属性

bra['creationTime'] = pd.to_datetime(bra['creationTime']) #更新类型

bra.dtypes

bra['hour'] = [i.hour for i in bra['creationTime']] #新建hour列

bra

字符串操作

bra.productSize.unique() #查看productSize的唯一值

cup = bra.productSize.str.findall('[a-zA-Z]+').str[0] #新增列cup

cup2 = cup.str.replace('M','B')

cup3 = cup2.str.replace('L','C')

cup4 = cup3.str.replace('XC','D')

bra['cup'] = cup4

bra.head()

bra['cup'].unique() #查看cup唯一值

数据转换

bra.productColor.unique() #查看productColor唯一值

def getColor(s):

    if '黑' in s:

        return '黑色'

    elif '肤' in s:

        return '肤色'

    elif '蓝' in s:

        return '蓝色'

    elif '红' in s:

        return '红色'

    elif '紫' in s:

        return '紫色'

    elif '白' in s:

        return '白色'

    elif '粉' in s:

        return '粉色'

    elif '灰' in s:

        return '灰色'

    elif '绿' in s:

        return '绿色'

    elif '青' in s:

        return '青色'

    else:

        return s

bra['color'] = bra['productColor'].map(getColor) #从productColor列查询，赋值到定义的函数getColor，最终新增列color

bra

bra.color.unique() #查询color的唯一值

数据可视化

x = [1991,1992,1993,1994,1995,1996,1997]

y = [23,56,38,29,34,56,92]

plt.plot(x,y) #调用函数plot

plt.figure(figsize=(8,6),dpi=80) #调用函数firgure

plt.plot(x,y)

hour = bra.groupby('hour')['hour'].count()  #hour列排序

hour

plt.xlim(0,25) #横轴0~25

plt.plot(hour,linestyle='solid',color='royalblue',marker='8') #颜色深蓝

cup_style = bra.groupby('cup')['cup'].count() #cup列唯一值得数量

cup_style

plt.figure(figsize=(8,6),dpi=80)

labels = list(cup_style.index)

plt.xlabel('cup') #x轴为cup

plt.ylabel('count') #y轴为count数量

plt.bar(range(len(labels)),cup_style,color='royalblue',alpha=0.7) #alpha为透明度

plt.xticks(range(len(labels)),labels,fontsize=12)

plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='y',alpha=0.6)

plt.legend(['user-count'])

for x,y in zip(range(len(labels)),cup_style):

plt.text(x,y,y,ha='center',va='bottom')

color_style = bra.groupby('color')['color'].count() #color列唯一值得数量

color_style

plt.figure(figsize=(8,6),dpi=80)

plt.subplot(facecolor='gainsboro',alpha=0.2)

colors = ['brown','orange','gray','white','pink','purple','red','green','wheat','blue','gold','springgreen','black'] #颜色种类

labels = list(color_style.index)

plt.xlabel('count') #x轴为count数量

plt.ylabel('color') #y轴为color

plt.title('Color Distribution') #定义标题

plt.barh(range(len(labels)),color_style,color=colors,alpha=1)

plt.yticks(range(len(labels)),labels,fontsize=12)

plt.grid(color='#95a5a6',linestyle='--',linewidth=1,axis='x',alpha=0.4)

bra.head(30)

Python数据分析实例操作的更多相关文章

python数据分析实例(1)
1.获取数据: 想要获得道指30只成分股的最新股价 import requests import re import pandas as pd def retrieve_dji_list(): try ...
创建Python数据分析的Docker镜像+Docker自定义镜像commit,Dockerfile方式解析+pull,push,rmi操作
实例解析Docker如何通过commit,Dockerfile两种方式自定义Dcoker镜像,对自定义镜像的pull,push,rmi等常用操作,通过实例创建一个Python数据分析开发环境的Dock ...
【Python数据分析】Python3操作Excel(二) 一些问题的解决与优化
继上一篇[Python数据分析]Python3操作Excel-以豆瓣图书Top250为例对豆瓣图书Top250进行爬取以后,鉴于还有一些问题没有解决,所以进行了进一步的交流讨论,这期间得到了一只尼玛 ...
Python之虚拟机操作：利用VIX二次开发，实现自己的pyvix（系列一）成果展示和python实例
在日常工作中,需要使用python脚本去自动化控制VMware虚拟机,现有的pyvix功能较少,而且不适合个人编程习惯,故萌发了开发一个berlin版本pyvix的想法,暂且叫其OpenPyVix.O ...
小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据
在家为国家做贡献太无聊,不如跟我一起学点 Python 人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Panda ...
小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
Python数据分析之Pandas操作大全
从头到尾都是手码的,文中的所有示例也都是在Pycharm中运行过的,自己整理笔记的最大好处在于可以按照自己的思路来构建矿建,等到将来在需要的时候能够以最快的速度看懂并应用=_= 注:为方便表述,本章设 ...
小白学 Python 数据分析（17）：Matplotlib（二）基础操作
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
【读书笔记与思考】《python数据分析与挖掘实战》-张良均
[读书笔记与思考]<python数据分析与挖掘实战>-张良均最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基 ...

随机推荐

【P2P浏览器】跟大家讨论一个想法
内容分享者通过这个浏览器来创建自己待分享的内容任谁看了这些内容,就会在本地保存一份,成为一个节点只要任一个节点在线,别人就能看这些内容在线的节点越多,获取这些内容的速度越快任何使用这个浏览器的人, ...
趁webpack5还没出，先升级成webpack4吧
上一次将webpack1升级到3,也仅是半年前,前端工具发展变化太快了,如今webpack4已经灰常稳定,传说性能提升非常高,值得升级. 一直用着的webpack3越来越慢,一分多钟的编译时间简直不 ...
改BUG方法
---恢复内容开始--- 今天改了半天参数,后来发现原来是表设置错了,于是决定总结出遇到BUG时的方法,等下次再遇到BUG时,过一遍每个方法就会减少解决BUG的时间,话不多说,写 ①检查表.数据库是否 ...
IDEA配置maven(配置阿里云中央仓库)
前言 idea配置maven后如果不修改中央仓库地址创建maven则出奇的慢,不管你用MyEclipse还是idea都慢的不要不要的,实在不能忍受. 这种条件下发现一个阿里云中央仓库来点福利,有福利了 ...
python元祖操作和内置方法
1 元祖:元祖可以理解为一个不可变的列表 2 用途:用于存放多个值,当存放的多个值只有读的需求而没有改的需求时用元祖最合适 3 定义:在()内用逗号分隔开多个任意类型的值.注意:当只有一个元素的时候, ...
[转]ionic3项目实战教程三（创建provider、http请求、图文列表、滑动列表）
本文转自:https://blog.csdn.net/lyt_angularjs/article/details/81145468 版权声明:本文为博主原创文章,转载请注明出处.谢谢! https:/ ...
jQuery合并同一列中相同文本的相邻单元格
一.效果图二.在html的head中引入jQuery <script language="javascript" src="${pageContext.reque ...
java_单词长度
题目内容: 你的程序要读入一行文本,其中以空格分隔为若干个单词,以‘.’结束.你要输出这行文本中每个单词的长度.这里的单词与语言无关,可以包括各种符号,比如“it's”算一个单词,长度为4.注意,行中 ...
css3 Box model 与 Box-sizing
1.Box Model(盒模型) CSS中的Box Model分为两种:第一种是W3C的标准模型,另一种是IE的传统模型.它们的相同之处是对元素的width.height.padding.border ...
Java 开源博客 Solo 1.8.0 发布 - 改进文件上传
本次发布主要是更新了编辑器,使其更好地支持文件上传.(1.8.0 版本变更记录请看这里) 我们的 Markdown 编辑器: 另外,我们对 HTTPS 的支持也更完善了,欢迎大家试用! 简介 Solo ...

Python数据分析实例操作

数据读取与索引

选取列

选择行

选择行和列

数据预处理

缺失值

新增列

字符串操作

数据转换

数据可视化

Python数据分析实例操作的更多相关文章

随机推荐

热门专题