pandas 是数据分析时必须用到的一个库,功能非常强大

其有两种数据结构:一维Series   二维表DataFrame(一般读取后的数据都是df)

导入:import pandas as pd

数据读取:pd.read_csv('d:/a.csv',dtype=objec,encoding='utf-8')

     pd.read_csv('d:/a.txt',dtype=objec,encoding='utf-8') 

pd.read_excel('d:/a.xls',dtype=objec,encoding='utf-8')

dtype:指定数据读取后的类型     encoding:指定编码  jupyter默认为utf-8

数据输出:pd.to_excel(path)

一次写入多张表:利用ExcelWriter()方法

with pd.ExcelWriter(r'd:/test.xlsx',encoding='utf8') as writer:  #利用ExcelWriter()创建一个工作薄,并指定路径和名字 r表示后面的输入为长字符串,可以省略报错再加

  df1.to_excel(writer,sheet_name='sheet1')   #写入刚刚创建的工作薄并给工作表命名有几个表就写入几次

  df2.to_excel(writer,sheet_name='sheet2')

数据统计:

pandas 做数据统计的时候有两种聚合方式:

1,groupby()分组

2,pivot_table()透视表

pandas 分析实例:

筛选出需要的字段并赋值给新的df,方法是df[['字段名','字段名']]

注意需要加两个中括号

选取某一列数据:有两种方法 df['字段名'] 或df.字段名

选取符合要求的数据:类似高级筛选

  方法是字段加上条件判断:如df.分公司=='渝北'   df.时间>='2019-01-01'   如果多重判断可以使用& 或者 or 简化为:| 竖线 但是每个条件要()起来

  同一列的多重筛选方法:df.分公司.isin(['....','....'])

模糊筛选方法:如不知道具体名称,只知道名称包含什么 可以说使用str.contains()方法

一个特别实用的技巧:

  在筛选条件之前加上“~”会得到相反得结果如:

字符串文本提取:

python提取文本非常方便——利用切片如:

提取日期的年份   ’2019-06-02‘[:4]

提取月份:

如果有不规则的数据需要文本提取,则找到相似的规律执行 比如日期都有 ’-‘,思路是通过find()函数找到其的位置,然后再切片提取。

怎样将整列数据应用文本提取?

  就是前面讲过的 apply() 方法

这里定义了一个匿名函数lambda来实现,有关匿名函数请看以前的博客

分类统计:

利用groupby()实现聚类  利用统计函数实现计算

常见的统计函数有:count(),sum(),mean()等

指定统计某一列:

筛选所需数据:如计数大于500

对值进行排序:sort_values(ascending=False)  默认为True升序  False为降序

对行进行筛选:利用df.loc['....']实现 loc 是pandas中对行进行操作

利用透视表pivot_table()进行分类统计:

  pd.pivot_table(df,index=' ',columns=' ',values=' ',aggfunc=' ',margins= ,margins_name=' ',fill_value=)

#df:数据源  index:分组字段   columns:列字段  values:计数对象字段  aggfunc:调用函数   margins:添加汇总  margins_name:赋值汇总名称  fill_value:填充空值

筛选方法和上面讲的一样

暂停一下,改天继续。

 

python 数据分析之pandas的更多相关文章

  1. Python数据分析库pandas基本操作

    Python数据分析库pandas基本操作2017年02月20日 17:09:06 birdlove1987 阅读数:22631 标签: python 数据分析 pandas 更多 个人分类: Pyt ...

  2. Python数据分析之pandas基本数据结构:Series、DataFrame

    1引言 本文总结Pandas中两种常用的数据类型: (1)Series是一种一维的带标签数组对象. (2)DataFrame,二维,Series容器 2 Series数组 2.1 Series数组构成 ...

  3. Python 数据分析:Pandas 缺省值的判断

    Python 数据分析:Pandas 缺省值的判断 背景 我们从数据库中取出数据存入 Pandas None 转换成 NaN 或 NaT.但是,我们将 Pandas 数据写入数据库时又需要转换成 No ...

  4. Python数据分析之pandas学习

    Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利 ...

  5. python数据分析之pandas数据选取:df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]

    1 引言 Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用.本文主要介绍Pandas的几种数据选取的方法. Pandas中,数据主要保存为Dataframe和Se ...

  6. Python数据分析之pandas

    Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利 ...

  7. Python数据分析之Pandas操作大全

    从头到尾都是手码的,文中的所有示例也都是在Pycharm中运行过的,自己整理笔记的最大好处在于可以按照自己的思路来构建矿建,等到将来在需要的时候能够以最快的速度看懂并应用=_= 注:为方便表述,本章设 ...

  8. Python数据分析之pandas入门

    一.pandas库简介 pandas是一个专门用于数据分析的开源Python库,目前很多使用Python分析数据的专业人员都将pandas作为基础工具来使用.pandas是以Numpy作为基础来设计开 ...

  9. 教程 | 一文入门Python数据分析库Pandas

    首先要给那些不熟悉 Pandas 的人简单介绍一下,Pandas 是 Python 生态系统中最流行的数据分析库.它能够完成许多任务,包括: 读/写不同格式的数据 选择数据的子集 跨行/列计算 寻找并 ...

  10. Python数据分析之Pandas读写外部数据文件

    1 引言 数据分析.数据挖掘.可视化是Python的众多强项之一,但无论是这几项中的哪一项都必须以数据作为基础,数据通常都存储在外部文件中,例如txt.csv.excel.数据库.本篇中,我们来捋一捋 ...

随机推荐

  1. 30种SQL语句优化

    1.'对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用 ...

  2. day59:Linux:编辑工具vim&文件类型&文件属性

    目录 1.Linux编辑工具vim 2.Linux文件类型 3.Linux文件属性 4.今日份Linux练习题 Linux编辑工具vim 1.什么是vim 文本文件的编辑工具,  和windows的n ...

  3. .NETCore在析构函数(Finalize)在Linux下引起程序异常退出现象

    目       录 1.      现象概述... 1 2.      操作数据库的代码... 2 3.      引起的异常... 2 4.      异常信息分析... 3 5.      分析结 ...

  4. ARCENGINE 10 开发遇到的一些问题

    许多版友在刚刚使用ArcGIS 10做开发的时候,都会遇到这样那样的问题.在担任实习版主的这一个多月里,看到了这么几个与开发环境相关的问题,重复被提到相当多,于是我就做了这个FAQ.Q:哪儿有10的A ...

  5. Android Handler MessageQueue Looper 消息机制原理

    提到Android里的消息机制,便会提到Message.Handler.Looper.MessageQueue这四个类,我先简单介绍以下这4个类 之间的爱恨情仇. Message 消息的封装类,里边存 ...

  6. Layman H5+Webapp+MUI App 页面滑至到底部自动加载新的内容

    要点:使用jquery的scroll()方法实现,当用户滚动指定的元素时,会发生 scroll 事件 scroll 事件适用于所有可滚动的元素和 window 对象(浏览器窗口) scroll() 方 ...

  7. Arduino 串行外设接口(SPI)

    时间有限有其他项目工作在忙,感觉作者写的不错,就先记录下来了. 这几天用SPI--Arduino 在供应商的电子原件上游离游走,重要的是可以读写了, 下面是在查资料看到的一篇不错的文章关于用Ardui ...

  8. Opencv的imread用法

    所有参考来自网上仅仅做学习记录用,具体正确性需要在具体项目各自验证,不涉及具体错误代码处理调试等问题,欢迎发现发现问题~ 参考: 1. https://blog.csdn.net/LiheZhu/ar ...

  9. Bayer Pattern——RGGB

    原博客地址:https://blog.csdn.net/joe9280/article/details/46952947 参考:https://blog.csdn.net/wgx571859177/a ...

  10. Java 客户端操作 FastDFS 实现文件上传下载替换删除

    FastDFS 的作者余庆先生已经为我们开发好了 Java 对应的 SDK.这里需要解释一下:作者余庆并没有及时更新最新的 Java SDK 至 Maven 中央仓库,目前中央仓库最新版仍旧是 1.2 ...