Pandas操作
python使用pandas读取csv import pandas as pd
#数据筛选
usetTable = pd.read_csv(filename,header = 0)
mask = True ^ userTable['ID'].isin(['',''])&.....
show = userTable[mask] #例子,包含6105的行
userTable[userTable['ID'].isin([''])]
userTable[userTable['ID'].isin([6105])] #统计某种数据出现的次数
result = userTable.group(['列名1','列名2']).size().result_index(name = 'count') #表连接(列名一致)
result = pd.merge(result1,result2,how = 'left', on=['列名1','列名2'])
#表连接(列名不一致)
result = pd.merge(result1,result2,how = 'left', left_on = '列名',right_on = '列名') #去除重复项
result = result1[~result1.duplicated(subset = ['列名1','列名2'], keep = 'last')] #对指定项进行累加,展示
result = result1.groupby([])['count'].sum().reset_index() #选取用户在不同地点的最大时间
result = result1.groupby([])['time'].max().reset_index() #返回特定值的行
table[tabel.flag == 1] #loc,iloc,ix
'''
loc通过标签索引读取行数据
iloc通过行号索引
ix结合两种
'''
#取某几列数据
iloc[:,[1,2]] #python中的三元表达式
h = "变量1" if a>b else "变量2"
table.groupby('b').['key'].apply(lambda i: i.iloc[1] if len(i)>2 else len(i))#此处的i应用于每一行或每一列,自动匹配 #按照年龄排序
students = [('joh','A',15),('jat','B',12),('dev','B',10)]#tuple
list1 = sorted(students,key = lambda student:students[2])#list
sorted(cmp,key,reverse)#reverse默认为False,升序。 #过滤,每一行返回的是最大值
index1 = result.groupby()[].transform(max)
index2 = ( index1 == result['count']) #取特定列
usetTable[['列名1','列名2']]
#删除特定列
userTable.drop('列名',axis =1)
axis = 0 表示沿着行标签方向执行方法
axis = 1 表示沿着列标签方向执行方法 #返回特定数据所在的行号
d = df[(df.Boolcol ==3 )& (df.attr == 32)].index.tolist() #查看某几列的值
df.head(n) #获取行号
raw = df.shape[0] #通过行号获取其他数据
df.ix[d]['数据'] #list转array
np.array([list]) #array存为csv
pd.DataFrame(data = array).to_csv('yy',mode = 'a',header=False) #获取某一列不重复的数据及个数
len(df['列名'].unique()) #python作图
#设置X轴
pd.set_index('列名') pd.plot.line() pd.random.randn(10,4) fig, axes = plt.subplots(2,1) pd.plot(kind ='bar', ax = axe[0])
#垂直柱状图
kind = 'bar'
#垂直密度图
kind = 'kde'
#水平柱状图
kind = 'barh'
#指定在某个子图上作图
ax = axe[0]
#生成堆积柱状图
stacked = True
#饼图
pd.plot.pie(subplots = True) pd.plot.scatter(x = '列名',y = '列名') #使用pd.Series把dataframe转成Series
pd.series(df['列名'].values,index = df['']) #返回列数
userTable.colums.size #将组内的列表合并,数据聚合
result = table.groupby(['id']).aggregate(lambda x: list(x)) #python去除字符串两端的符号
strip()去除首末
lstrip()去除左边
rstrip()去除右边 #把含有Nan的行删除
df.dropna() #删除列为空的行
table = pd.read_csv("", dtype = {'CUST_ID':str})
mask = table['CUST_ID'].isnull()
table = table[~mask] #取列名
DataFrame.colums.values.tolist() #转化为python可识别的数值
np.nan:nan
np.Inf:Inf #对分组后的数据采取不同的运算方式
data = df.groupby('A')
data.agg({'B':'mean', 'c':'sum'}) #按照A分组后,对多列采取相同的聚合方式
df.groupby('A').apply(np.mean) #将某列数据按数据值分成不同范围,进行分组运算
df = pd.DataFrame({'Age'}:np.random.randint(20,70,100),
'sex':np.random.choice(['male','female'],size=(10))) #生成时间格式
pd.dta_range('2018-6-20', periods =20, freq = '5min') #按照范围分组
age_groups = pd.cut(df['age'], bins = [19,40,65,np.inf])
result = df.groupby(age_groups).max() #生成交叉表
pd.crosstab(age_groups,df['sex']) #分组后,转为dict
A = dic(list(df.groupby('key')))
A['a'] temp = df.groupby('type')
for name,group in temp:
print(name)#str
print(group)#DataFrame fo x in temp:
print(x)#tuple agg使用:针对不同的列,应用不同的聚合函数
#按照A分组后,对另一列采取不同的聚合方式
df.groupby('A')['B'].agg({'mean':np.mean,'std':np.std}) #按照A分组后,对不同的列采取不同的处理方式
df.groupby('A').agg({'B':[np.mean,'sum'],'C':['count',np.std]}) #分组后,按照某几列排序
#按照时间排序
result.groupby(['a.id'],group_keys = False).apply(
lambda g: g.sort_value('b.time',ascending = True)) #按照指定列排序
DF.sort_values(by = '列名', ascending = True) #取某一列的值
tble['列名'].str[0:10]
#增加一列
table['new'] = talbe['列名'].str[0:10] #lambda函数
my_lambda = lambda arg: arg+1
result = my_lambda(123)
等价于
def func(arg):
return arg+1
result = func(123) #读取csv问价
pd.read_csv(error_bad_lines = False(跳过错误行),
quoting = CSV.QUOTE_NONE(指定字符使用时不收分隔符影响)) #pandas按照正则匹配
index = table['b.str'].str.contains(r'^\$.*')
result = table[index] #获取特定值所在的列
result[result['a.id' == 2018]]
result[result['a.time' >= '2018-04-01']]
#保留第一次出现的行
df.drop_duplicates(subset = ['',''],keep='first')

python数据分析开发中的常用整理的更多相关文章

  1. Windows开发中一些常用的辅助工具

    经常有人问如何快速的定位和解决问题,很多时候答案就是借助工具, 记录个人Windows开发中个人常用的一些辅助工具.   (1) Spy++ 相信windows开发中应该没人不知道这个工具, 我们常用 ...

  2. Python Web开发中的WSGI协议简介

    在Python Web开发中,我们一般使用Flask.Django等web框架来开发应用程序,生产环境中将应用部署到Apache.Nginx等web服务器时,还需要uWSGI或者Gunicorn.一个 ...

  3. React在开发中的常用结构以及功能详解

    一.React什么算法,什么虚拟DOM,什么核心内容网上一大堆,请自行google. 但是能把算法说清楚,虚拟DOM说清楚的聊聊无几.对开发又没卵用,还不如来点干货看看咋用. 二.结构如下: impo ...

  4. JS 开发中数组常用的方法

    大家有没有想过,js数组为什么会有这么多的方法,没错,就是为了不同场景下处理数据的需要,就像设计模式一样,都是为了能更好的处理当前场景的需要. 首先怎么创建一个数组呢, // 两种方式 // 1,构造 ...

  5. 【Cocos2d-x游戏开发】细数Cocos2d-x开发中那些常用的C++11知识

    自从Cocos2d-x3.0开始,Cocos2dx就正式的使用了C++11标准.C++11简洁方便的特性使程序的可拓展性和可维护性大大提高,也提高了代码的书写速度. 下面我们就来一起学习一下Cocos ...

  6. Python Django开发中XSS内容过滤问题的解决

    from:http://stackoverflow.com/questions/699468/python-html-sanitizer-scrubber-filter 通过下面这个代码就可以把内容过 ...

  7. python数据分析笔记中panda(1)

    1 例子1 from pandas import read_csv; df = read_csv('H://pythonCode//4.1//1.csv') df 截图 1.1 修改表的内容编码 df ...

  8. Python入门之Pycharm开发中最常用快捷键

    要查阅Pycharm的快捷键,当然要看官方文档,https://www.jetbrains.com/help/pycharm/mastering-keyboard-shortcuts.html 编辑类 ...

  9. Python数据分析开发环境

    准备工作 下载并安装最新版本的Anaconda 下载并安装最新版本的Visual Studio Code 编辑器 Tips: 可以选择自己喜欢并且熟悉的编辑器或IDE.如:VIM.Emacs.Note ...

随机推荐

  1. DVWA-基于布尔值的盲注与基于时间的盲注学习笔记

    DVWA-基于布尔值的盲注与基于时间的盲注学习笔记 基于布尔值的盲注 一.DVWA分析 将DVWA的级别设置为low 1.分析源码,可以看到对参数没有做任何过滤,但对sql语句查询的返回的结果做了改变 ...

  2. GIT版本管理工具教程

    目录 GIT版本管理工具教程 一 Git初始化 二 简单指令使用 基本操作 简单总结 三 Git进阶 Git三大区域 Git回滚 Git分支 Git工作流 四 Github代码管理仓库 第一步:注册G ...

  3. 【设计模式】Adapter

    前言 Adapter设计模式,允许客户端使用接口不兼容的类. 昨天收拾一些以前的东西,发现了藏在柜子里的一条线,这条线叫做OTG.这条线的一端是micro-usb的输出口,另一端是usb的输入口.这条 ...

  4. ASP.NET Core系列:读取配置文件

    1. 控制台应用 新建一个控制台应用,添加两个Package: Install-Package Microsoft.Extensions.Configuration Install-Package M ...

  5. AI 的架构与核心

    AI 的架构 人工智能的架构分为三层:应用层.技术层和基础层. 应用层聚焦在人工智能和各行业各领域的结合.技术层是算法.模型和技术开发.基础层则是计算能力和数据资源. 数据收集:获取什么类型的数据,数 ...

  6. centos7 ntp server & samba

    最近公司内部一个需求:必须 Linux建个 ntp server ,并且 Windows可以net time \\ip 访问. 想要解决问题,还得解决前置问题. 服务器不能上网,无法直接访问外部 yu ...

  7. C语言的常量

    #include<stdio.h> int main(void) { ; //定义一个常量,不能被修改,可以赋初值:常量的标识符建议使用大写字母 ; //初始化 printf(" ...

  8. 3. gn入门

    Chromium是用gn和ninja进行编译的,即gn把.gn文件转换成.ninja文件,然后ninja根据.ninja文件将源码生成目标程序.gn和ninja的关系就与cmake和make的关系差不 ...

  9. pdfium去掉v8支持

    GYP_DEFINES='pdf_enable_v8=0 pdf_enable_xfa=0' build/gyp_pdfium 未测试  ???????????

  10. 201871010121-王方-《面向对象程序设计java》第十六周实验总结

    项目 内容 这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh 这个作业的要求在哪里 https://www.cnblogs.com/nwnu-daizh/p/ ...