一.数据导入和导出

(一)读取csv文件

1.本地读取

import pandas as pd
df = pd.read_csv('tips.csv') #根据自己数据文件保存的路径填写(p.s. python填写路径时,要么使用/,要么使用\\)

2.网络读取

import pandas as pd
data_url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv" #填写url读取
df = pd.read_csv(data_url)

3.读取数据库

# 读取mysql 数据
con = pymysql.connect(host='192.168.159.129',user='root',password="mysql",database='mysql',port=3306,charset='utf8')
a = pd.read_sql_query('select * from user;',con=con)
print(type(a))

二.提取和筛选需要的数据

print(df.head())  #打印数据前五行
print(df.tail()) #打印数据后5行
print(df.columns) #打印列名
print(df.index) #打印行名
print(df.ix[10:20, 0:3]) #打印10~20行前三列数据
print(df.iloc[[1,3,5],[2,4]]) #提取不连续行和列的数据,这个例子提取的是第1,3,5行,第2,4列的数据
print(df.iat[3,2]) #专门提取某一个数据,这个例子提取的是第三行,第二列数据(默认从0开始算)
print(df.drop(df.columns[1, 2], axis = 1)) #舍弃数据前两列
print(df.drop(df.columns[[1, 2]], axis = 0)) #舍弃数据前两行
print(df.shape) #打印维度
print(df.iloc[3]) #选取第3行
print(df.iloc[2:4]) #选取第2到第3行
print(df.iloc[0,1]) #选取第0行1列的元素 print(df.dtypes) # 查看数据类型
print(df[df.tip > 8 ]) #选取tip列大于8的 #数据筛选同样可以用”或“和”且“作为筛选条件,比如
df[(df.tip>7)|(df.total_bill>50)] #筛选出小费大于$7或总账单大于$50的数据
df[(df.tip>7)&(df.total_bill>50)] #筛选出小费大于$7且总账单大于$50的数据
df[['day','time']][(df.tip>7)|(df.total_bill>50)] #假如加入了筛选条件后,我们只关心day和time
print(df.describe()) #描述性统计

三.数据处理

1.数据转置

print(df.T)

2.数据排序

print(df.sort_values(by='size',ascending=False)) # 根据 size 列进行排序,ascending=False 降序。默认升序

四.缺失值处理

1.填充缺失值

df['tip'].fillna("hello") # 指定数据代替缺失值

df['tip'].fillna(method='pad') #用前一个数据代替缺失值

df['tip'].fillna(method='bfill') #用后一个数据代替缺失值

2.删除缺失值

df['tip'].dropna(axis=0) #删除缺失行

df['tip'].dropna(axis=1) #删除缺失列

五.数据分组

group = df.groupby('day') #按day这一列进行分组

print(group.first())#打印每一组的第一行数据

print(group.last())#打印每一组的最后一行数据

六.保持数据

1.写入数据库

# 导入必要模块
import pandas as pd
from sqlalchemy import create_engine # 初始化数据库连接,使用pymysql模块
# MySQL的用户:root, 密码:mysql, 端口:3306,数据库:mydb
# 读取csv 数据
df = pd.read_csv('tips.csv')
engine = create_engine('mysql+pymysql://root:mysql@192.168.159.129:3306/my_data?charset=utf8')
df.to_sql('tips', con=engine, index=True,if_exists='fail') # 将df 数据读取写入到mysql 数据库,表名为 tips,index=True 表示写入行索引 if_exists 存在“fail”、“replace”、“append”,则默认为“fail” 如果表已经存在,如何进行操作。 *fail:引发ValueError。 *replace:在插入新值之前删除表。 *append:在现有表中插入新值。

Pandas常用命令的更多相关文章

  1. [译]Pandas常用命令对照清单

    我们在内容中使用以下简写: df pandas的DataFrame对象 s pandas的Series对象 导入以下包开始 import pandas as pd import numpy as np ...

  2. [Python]Conda 介绍及常用命令

    一.介绍 Anaconda 是一个用于科学计算的 Python 发行版,支持 Linux, Mac, Windows, 包含了众多流行的科学计算.数据分析的 Python 包.其使用conda系统进行 ...

  3. Ubuntu常用命令及git常用命令

    1. CMakeLists.txt中指定OpenCV路径 set(OPENCV_DIR /***/***/opencv-2.4.9) 2. cmake工程编译安装 mkdir build cd bui ...

  4. ubuntu源与常用python配置pip源(win)、pip常用命令

    pip常用命令 ubuntu更新系统源 首先备份/etc/apt/sources.list mv /etc/apt/sources.list /etc/apt/sources.list.bak 然后下 ...

  5. Linux 常用命令(持续补充)

    常用命令: command &:将进程放在后台执行 ctrl + z:暂停当前进程 并放入后台 jobs:查看当前后台任务 bg( %id):将任务转为后台执行 fg( %id):将任务调回前 ...

  6. LVM基本介绍与常用命令

    一.LVM介绍LVM是 Logical Volume Manager(逻辑卷管理)的简写,它是Linux环境下对磁盘分区进行管理的一种机制LVM - 优点:LVM通常用于装备大量磁盘的系统,但它同样适 ...

  7. Linux学习笔记(一):常用命令

    经过统计Linux中能够识别的命令超过3000种,当然常用的命令就远远没有这么多了,按照我的习惯,我把已经学过的Linux常用命令做了以下几个方面的分割: 1.文件处理命令 2.文件搜索命令 3.帮助 ...

  8. git常用命令(持续更新中)

    git常用命令(持续更新中) 本地仓库操作git int                                 初始化本地仓库git add .                       ...

  9. 【原】npm 常用命令详解

    今年上半年在学习gulp的使用,对npm的掌握是必不可少的,经常到npm官网查询文档让我感到不爽,还不如整理了一些常用的命令到自己博客上,于是根据自己的理解简单翻译过来,终于有点输出,想学习npm这块 ...

随机推荐

  1. BZOJ 1412 [ZJOI2009]狼和羊的故事 | 网络流

    显然是个最小割嘛! 一开始我是这么建图的: 源点向狼连INF 羊向汇点连INF 每两个相邻格子间连双向边,边权为1 然后T成狗 后来我是这么建图的: 源点向狼连INF 羊向汇点连INF 狼和空地向相邻 ...

  2. 【暴力Treap 或 离线归并】子串计数(genies)

    子串计数(genies) Description 给出一段含有n个元素的序列a,要求求出子串和小于等于t的子串个数 Input Data 输入共两行第一行包含两个整数,n,t分别表示序列a元素的个数和 ...

  3. luogu1373 小a和uim之大逃离 (dp)

    直接设f[i][j][k][l][2]是在(i,j)时两人分数是k,l,复杂度会爆掉 但其实只需要知道两人分数只差就行了 所以设f[i][j][k][2],k是分数之差%(K+1),最后一位表示该谁走 ...

  4. jQuery EasyUI API 中文文档 - 消息框(Messager)

    http://www.cnblogs.com/Philoo/archive/2011/11/15/jeasyui_api_messager.html Messager  消息框 博客园 风流涕淌 (p ...

  5. Linux掉电处理

    在嵌入式设备中,掉电处理一直是一项比较麻烦的工作,在具有Linux系统的设备中,系统的种种数据的处理更是增加掉电处理的难度.现在做以下几点总结,再遇到类似问题可以做个参考. 1,系统启动的处理 在系统 ...

  6. Ajax跨域CORS

    在Ajax2.0中多了CORS允许我们跨域,但是其中有着几种的限制:Origin.Methods.Headers.Credentials 1.Origin 当浏览器用Ajax跨域请求的时候,会带上一个 ...

  7. matplotlib交互模式与pacharm单独Figure设置

    matplotlib交互模式与pacharm单独Figure设置 觉得有用的话,欢迎一起讨论相互学习~Follow Me Matpotlib交互模式 在运行python程序时有时候需要生成以下的 动态 ...

  8. Spark记录-Scala字符串

    Scala字符串 在Scala中的字符串和Java中的一样,字符串是一个不可变的对象,也就是一个不能修改的对象.可以修改的对象,如数组,称为可变对象.字符串是非常有用的对象,在本节的最后部分,我们将介 ...

  9. Training (deep) Neural Networks Part: 1

    Training (deep) Neural Networks Part: 1 Nowadays training deep learning models have become extremely ...

  10. [机器学习&数据挖掘]朴素贝叶斯数学原理

    1.准备: (1)先验概率:根据以往经验和分析得到的概率,也就是通常的概率,在全概率公式中表现是“由因求果”的果 (2)后验概率:指在得到“结果”的信息后重新修正的概率,通常为条件概率(但条件概率不全 ...