快速了解pandas
pandas主要就下面两方面:(只要稍微了解下面两点,那你就会用了)
1、两种数据结构(Series和DataFrame)
2、对这两种数据进行处理(主要是对DataFrame处理)
--------------------------------------------------------------------------------------------------------
正文:
1、两种数据结构(Series和DataFrame)
Series:有属性:index,values
DataFrame:有属性:index,columns,valuess
简单来说:series组成dataframe
series是这样:

dataframe是这样:

2、对这两种数据进行处理(主要是对DataFrame处理)
例如:读取csv到DataFrame
import pandas as pd
df = pd.read_csv('1.csv')
清洗数据
#1、用数字0填充空值:
df.fillna(value=0) #2、使用列prince的均值对NA进行填充:
df[‘prince’].fillna(df[‘prince’].mean()) #3、清楚city字段的字符空格:
df[‘city’]=df[‘city’].map(str.strip) #4、大小写转换:
df[‘city’]=df[‘city’].str.lower() #5、更改数据格式:
df[‘price’].astype(‘int’) #6、更改列名称:
df.rename(columns={‘category’: ‘category-size’}) #7、删除后出现的重复值:
df[‘city’].drop_duplicates() #8 、删除先出现的重复值:
df[‘city’].drop_duplicates(keep=‘last’) #9、数据替换:
df[‘city’].replace(‘sh’, ‘shanghai’)
如需更深入的了解各种方法可自行网上查阅
快速了解pandas的更多相关文章
- 快速上手pandas(上)
pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation to ...
- 使用Pandas_UDF快速改造Pandas代码
1. Pandas_UDF介绍 PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式,以减少PySpark和Pandas之间的开销. Pandas_ ...
- 快速入门Pandas
教你十分钟学会使用pandas. pandas是python数据分析的一个最重要的工具. 基本使用 # 一般以pd作为pandas的缩写 import pandas as pd # 读取文件 df = ...
- 快速入门 Pandas
先po几个比较好的Pandas入门网站十分钟入门:http://www.codingpy.com/article/a-quick-intro-to-pandas/手册前2章:http://pda.re ...
- 快速上手pandas(下)
和上文一样,先导入后面会频繁使用到的模块: In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as p ...
- Pandas快速上手(一):基本操作
本文包含一些 Pandas 的基本操作,旨在快速上手 Pandas 的基本操作. 读者最好有 NumPy 的基础,如果你还不熟悉 NumPy,建议您阅读NumPy基本操作快速熟悉. Pandas 数据 ...
- 数据分析常用库(numpy,pandas,matplotlib,scipy)
概述 numpy numpy(numeric python)是 python 的一个开源数值计算库,主要用于数组和矩阵计算.底层是 C 语言,运行效率远高于纯 python 代码.numpy主要包含2 ...
- Windows下搭建Apache+Django+Python Web服务环境
最近在学Django,想用Apache搭建一个服务器环境,因此在网上看了好多资料,很多都是用Python2.6和Apache2.2搭建的环境,不过我还是想用Python35和Apache24来搭建,具 ...
- Pandas_key_point
10分钟快速入门pandas: http://pandas.pydata.org/pandas-docs/stable/10min.html ----------------------------- ...
随机推荐
- Os-hackNos-1靶机过关记录
靶机地址:172.16.1.198(或112) kali地址:172.16.1.108 1 信息收集 靶机界面如下 简单查看 OS:Ubuntu Web:Apache2.4.18 尝试端口扫描 开放 ...
- Python神库分享之geoip2 IP定位库
先安装这两个 pip install python-geoip-geolite2 -i https://pypi.douban.com/simple pip install geoip2 然后下载资源 ...
- Java 多线程 -- 协作模型:生产消费者实现方式一:管程法
多线程通过管程法实现生产消费者模式需要借助中间容器作为换从区,还包括生产者.消费者.下面以蒸馒头为列,写一个demo. 中间容器: 为了防止数据错乱,还需要给生产和消费方法加锁 并且生产者在容器写满的 ...
- php的一个有意思的命令:-S
php -S localhost:8188 /web 会启动一个监控IP:PORT 的http服务,算是简易的web服务器吧.基本上,实现了PHP+MySQL就可以建立一个简易测试网站的环境.
- Java锁之自旋锁
Java锁之自旋锁 自旋锁:spinlock,是指尝试获取锁的线程不会立即阻塞,而是采用循环的方式去尝试获取锁,这样的好处是减少线程上下文切换的消耗,缺点是循环会消耗CPU 原来提到的比较并交换,底层 ...
- ASP.NET Core Razor Pages 初探
最近新建 Asp.net Core MVC 项目的时候不小心选错了个模板,发现了一种新的项目模板.它使用cshtml视图模板,但是没有Controller文件夹.后来才发现这是ASP.NET Core ...
- Ubuntu parted 命令 写在脚本里时要带 -s 参数
否则会要求用户输入,造成脚本卡住.
- 梁国辉获Yes评分表系统3.0计算机软件著作权
梁国辉获Yes评分表系统3.0计算机软件著作权 Liang Guohui won the Yes score system 3 computer software copyright 登记证书如下 R ...
- Ansible 配置文件详解
# config file for ansible -- http://ansible.com/ # ============================================== # ...
- Norwegian Wood
0 前言 <挪威的森林>是村上春树很有名的一部小说,但我想大多数人阅读的时候都只是把书名当作一个符号,而不是作为故事去追究. 我国台湾知名文学评论家杨照先生说过:村上的书里有太多太多典故, ...