丈夫气力全,一个拟当千。猛气冲心出,视死亦如眠。

绘图 Matplotlib
可视化是在整个数据挖掘的关键辅助工具,可以清晰的理解数据,从而调整我们的分析方法。

能将数据进行可视化,更直观的呈现
使数据更加客观、更具说服力

matplotlib.pyplot模块
import matplotlib.pyplot as plt

构造数据
实现绘图
创建画布
绘制图像
显示图像
基本代码
创建画布:plt.figure()
figsize:指定图的长宽
dpi:图像的清晰度
返回fig对象
绘制图像:plt.plot()
显示图像:plt.show()

其他功能 修改刻度
plt.xticks()
plt.yticks()
标题
plt.title(文字,fontsize=大小)
网格
plt.grid(True,alpha=透明度,linestyle=样式)
保存 .savefig(文件名)

常见图像
折线图 散点图 柱状图 饼图 直方图
折线图
特点:像是数据的变化趋势 反映事物的变化情况(变化)
关键词:变化
api:plt.plot(x,y)

散点图
特点:判断变量之间是否存在数量关联趋势,展示离群点(分布规律)
关键词:规律
api:plt.scatter(x,y)

柱状图
特点:展示各个数据的大小,比较数据差别
关键词:比大小
api:plt.bar(x, width, align='center', **kwargs)
Parameters:
x : 需要传递的数据

width : 柱状图的宽度

align : 每个柱状图的位置对齐方式
{‘center’, ‘edge’}, optional, default: ‘center’

**kwargs :
color:选择柱状图的颜色

直方图
特点:绘制连续性的数据展示一组或者多组数据的分布状况
关键词:统计分组,分布
api:matplotlib.pyplot.hist(x, bins=None)
x : 需要传递的数据
bins : 组距

饼图
特点:分类数据的占比情况()
关键词:占比
api:plt.pie(x, labels=,autopct=,colors)
x:数量,自动算百分比 列表
labels:每部分名称 列表
autopct:占比显示指定%1.2f%% 字符串 .2表是几位
colors:每部分颜色

绘制
准备数据
绘制图像
创建画布
绘制图像
显示图像

Numpy开源的python科学计算库 比list(列表)更具效率
快速处理任意维度的数组,支持常见的数组和矩阵操作
矩阵:二维数组
使用 ndarray(多维度数组) 对象来处理多维数组 它描述了-相同类型-的“items”的集合

内存块分格
ndarray 数值类型相同,可以直接读取
list 数据类型不同,读取地址在读取数据
并行化计算 类似GPU
内置了并行运算功能,系统有多核心时,做某种计算,会自动做并行计算
底层代码,效率远高于纯python代码
底层用c编写

n维数组 属性,形状,类型

ndarray 属性
对象.shape:数据的形状
对象.ndim:数据的维度
对象.size:数据的个数
对象.dtype:数据的类型
int32,int64,float32,float64,uint8(0,255)
对象.itemsize:一个元素的长度

创建数组
.array([[]],dtype=类型(numpy.int32)/"类型")

基本操作
生成数组
生成0-1数组
从现有数组生成
生成固定范围数组
生成随机数组

生成数组的方法
import numpy as np
0和1的数组
np.ones(shape, dtype)
np.ones_like(a, dtype)
np.zeros(shape, dtype)
np.zeros_like(a, dtype)

从现有数组生成
np.array(object, dtype)

np.asarray(a, dtype)

a = np.array([[1,2,3],[4,5,6]])
# 从现有的数组当中创建
a1 = np.array(a)---深拷贝
# 相当于索引的形式,并没有真正的创建一个新的
a2 = np.asarray(a)---浅拷贝

生成固定范围的数组
等差数列

np.linspace (start, stop, num, endpoint)

创建-等差-数组 — 指定数量
参数:
start:序列的起始值
stop:序列的终止值
num:要生成的等间隔样例数量,默认为50
endpoint:序列中是否包含stop值,默认为ture

np.arange(start,stop, step, dtype)

创建等差数组 — 指定步长
参数
step:步长,默认值为1

等比数列

np.logspace(start,stop, num)

参数:
num:要生成的等比数列数量,默认为50
不传值默认base=10

生成随机数组
np.random模块

正态分布
--------------------

--------------------

Pandas (面板数据分析)数据处理的库
-以numpy为基础 借np在计算方面性能高的优势
--基于matplotlib,能够简便的画图
---有独特的数据格式

有良好的图表可读性
处理数据
读取文件
封装了matplotlib,numpy的画图和计算

pandas的数据结构
1.series
由一组数据和与之相关的索引俩部分构成
创建
import pandas as pd

属性

2.DataFrame
创建
属性

数据运算
DataF
直接运算
对象【列名】+1---加1
对象【】.add(1)加1
对象【】.sub(1)--减1

逻辑运算
布尔索引
&---and
|---or

对象[对象[].条件 逻辑运算符 对象[].条件]

逻辑运算函数
query(expr)
expr查询字符串

isin([])在一个区间

统计
对象.describe() --描述(行数,最大,最小,中位数,四分之三位数..)
abs--绝对值
prod--求积
idmax--最大值索引
argmax--最大值下表-np
mode--众数
max--最大值
--axis--轴向 -参数
std--标准差
median 中位数

累计统计函数
cumsum()-前n个数的和

排序 .sort_index()
去重 .unique()
直方图-hest()
.plot(figsize = (画布大小))--画图

自定义运算
对象.apply(func,axis = 0)
def func():
执行内容
return ..

匿名函数
对象.apply(lambda x)

文件读取和操作
文本文件:--csv,--json,html,local clipboard(剪切板)
二进制文件:Excel,--HDF5,SAS
数据库:SQL
读取read_文件格式
存储,写 to_文件格式
读取文件
read_csv69:39 2019/11/1269:39 2019/11/125
pands.read_csv(路径,usecols=[],stp=',')
filepath_or_buffer:文件路径
sep :分隔符,默认用","隔开
usecols:指定读取的列名,列表形式

to_csv
DataFrame.to_csv(path_or_buf=None, sep=', ’, columns=None, header=True, index=True, mode='w', encoding=None)

path_or_buf :文件路径
sep :分隔符,默认用","隔开
columns :选择需要的列索引,列表
header :boolean or list of string, default True,是否写进列索引值
index:是否写进行索引
mode:'w':重写, 'a' 追加

绘图 Matplotlib Numpy Pandas的更多相关文章

  1. python绘图:matplotlib和pandas的应用

    在进行数据分析时,绘图是必不可少的模式探索方式.用Python进行数据分析时,matplotlib和pandas是最常用到的两个库.1.matplotlib库的应用准备工作如下:打开ipython,输 ...

  2. python 数据分析工具之 numpy pandas matplotlib

    作为一个网络技术人员,机器学习是一种很有必要学习的技术,在这个数据爆炸的时代更是如此. python做数据分析,最常用以下几个库 numpy pandas matplotlib 一.Numpy库 为了 ...

  3. 无用之学matplotlib,numpy,pandas

    一.matplotlib学习 matplotlib: 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建 例子1: # coding=utf- from ...

  4. 第一章:AI人工智能 の 数据预处理编程实战 Numpy, Pandas, Matplotlib, Scikit-Learn

    本课主题 数据中 Independent 变量和 Dependent 变量 Python 数据预处理的三大神器:Numpy.Pandas.Matplotlib Scikit-Learn 的机器学习实战 ...

  5. linux下安装numpy,pandas,scipy,matplotlib,scikit-learn

    python在数据科学方面需要用到的库: a.Numpy:科学计算库.提供矩阵运算的库. b.Pandas:数据分析处理库 c.scipy:数值计算库.提供数值积分和常微分方程组求解算法.提供了一个非 ...

  6. 常用统计分析python包开源学习代码 numpy pandas matplotlib

    常用统计分析python包开源学习代码 numpy pandas matplotlib 待办 https://github.com/zmzhouXJTU/Python-Data-Analysis

  7. matplotlib 和 pandas 两个包的安装

    matplotlib是强大的python 绘图包.pandas 是强大的python分析工具包.numpy是强大的python统计包. 都超级好用,而且最近开始动手实践机器学习算法了.特此备注一下安装 ...

  8. Python绘图matplotlib

    转自http://blog.csdn.net/ywjun0919/article/details/8692018 Python图表绘制:matplotlib绘图库入门 matplotlib 是pyth ...

  9. Python: NumPy, Pandas学习资料

    NumPy 学习资料 书籍 NumPy Cookbook_[Idris2012] NumPy Beginner's Guide,3rd_[Idris2015] Python数据分析基础教程:NumPy ...

随机推荐

  1. MSYS2 常见操作

    博客转自:http://www.cnblogs.com/vincenzo/archive/2010/05/13/1734230.html 和 https://blog.csdn.net/langres ...

  2. 基于EasyDSS流媒体RTMP、HLS(m3u8)、HTTP-FLV、RTSP流媒体服务器解决方案创建视频点播、短视频、视频资源库等视频播放系统

    需求背景 最近有很多用户咨询关于视频点播问题,主要需求集中在如何搭建属于自己的视频点播平台: 实现的功能可以大体归类为:对应自身拥有的视频文件,需要发布到一个网站,其他用户都可以实现点播观看. 针对于 ...

  3. rpm和deb包制作和升级执行步骤

    deb安装包升级和安装都是dpkg -i .deb命令,升级时直接覆盖安装新包安装步骤:1 preinst install2 postinst configure升级步骤:1 先执行旧包prerm u ...

  4. FormsAuthentication使用指南,实现登录

    一般情况下,在我们做访问权限管理的时候,会把用户的正确登录后的基本信息保存在Session中,以后用户每次请求页面或接口数据的时候,拿到Session中存储的用户基本信息,查看比较他有没有登录和能否访 ...

  5. 修改jar的.class文件,并重新打包

    使用javassist修改.class文件,并重新打包 Javassist是一款字节码编辑工具,可以直接编辑和生成Java生成的字节码,以达到对.class文件进行动态修改的效果.熟练使用这套工具,可 ...

  6. jvm面试常见题

    背景:jvm相关题目面试必问,后面要深入的进行总结. JVM 面试知识整理 jvm调优命令 调优工具 Minor GC ,Full GC 触发条件 Minor GC触发条件:当Eden区满时,触发Mi ...

  7. Mybatis获取数据库自增主键

    一般我们都为将表中主键列设置为自增,当我们执行插入语句时,比如这样 //测试添加 Employee employee = new Employee(null, "jerry4",n ...

  8. QT_QML 界面设计Row和Column布局

    Column与Row的使用方式类似,下面以Column为例子: Column{ x: label_poseParamValue.x + label_poseParamValue.width + 10 ...

  9. 创建 django 项目命令

    创建Django项目 django-admin startproject HelloWorld Django创建app cd HelloWorld python manage.py startapp ...

  10. 《学渣的电子技术自学笔记》——三极管的放大区、截止区与饱和区(基于NPN型)

    <学渣的电子技术自学笔记>--三极管的放大区.截止区与饱和区(基于NPN型) 1.放大区   三极管输出特性曲线近似水平的部分是放大区.在放大区,\(I_C=\overline{β}I_B ...