Python pandas学习笔记

参考文献：《Python金融大数据分析》

#导入模块

import pandas as pd

#生成dataframe

df = pd.DataFrame([10,20,30,40], columns=['numbers'],index=['a','b','c','d'])

print('df:', df)

#常用的一些操作

print('df.index:', df.index)

print('df.columns:', df.columns)

print("df.sum():", df.sum())

#以下操作等价

print(df**2)

print(df.apply(lambda x: x**2))

#关于索引的使用

#print("df.ix['a']:", df.ix['a'])

#print("df.ix[['a','c']]:", df.ix[['a','c']])

#print("df.ix[ df.index[[1,3]] ]:", df.ix[ df.index[[1,3]] ])

print("df['numbers']:", df['numbers'])

#添加数据

#直接添加一列数据

df['float'] = (1.5, 2.3, 4.5, 6.7)

print('df:', df)

print("df['float']:", df['float'])

#print("df['float'].ix[['a', 'b']]", df['float'].ix[['a', 'b']])

#可以直接取dataframe作为一列，通过index指定对应的行

df['names'] = pd.DataFrame(['tom', 'lucy', 'denny', 'kate'], index=['d', 'c', 'b', 'a'])

print('df:', df)

#如果指定了一个不存在的index，那么默认不添加该记录，只添加已有index的记录，没有指定的index，默认值为NaN

df['names_s'] = pd.DataFrame(['tom', 'lucy', 'denny', 'king'], index=['d', 'c', 'b', 'z'])

print('df:', df)

#补充数据，注意使用append方法不直接修改原dataframe

#注意。该方式下索引变更为简单索引，这是一个问题

df1 = df.append({'names':'haha', 'numbers':100, 'float':0.01, 'names_s':'xixi'}, ignore_index=True)

print('df:', df)

print('df1:', df1)

#一个正确提供索引信息的方式

df = df.append( pd.DataFrame( {'names':'haha', 'numbers':100, 'float':0.01, 'names_s':'xixi'}, index=['z',]) )

print('df:', df)

#缺漏信息的处理：以原结构的索引为基准，不改变索引数目和名称，join默认添加已经存在的索引，新添加的（即原先不存在的）索引不添加新的索引和值，已存在未指定数值的索引默认值为NaN

df2 = df.join( pd.DataFrame([11,22,33,44,55], index=['a', 'b', 'c', 'd', 'y'], columns=['int']) )

print('df2:', df2)

#实现并集连接：即实现添加新的索引

df = df.join( pd.DataFrame([11,22,33,44,55], index=['a', 'b', 'c', 'd', 'y'], columns=['int']), how='outer' )

print('df:', df)

#一些结果

print( "df[['numbers', 'int']].mean():", df[['numbers', 'int']].mean() )

print( "df[['numbers', 'int']].std():", df[['numbers', 'int']].std() )

小括号匹配的问题

import re

#小括号：匹配整个字段，但结果只取括号中匹配的字符串

text = r'http://baidu.com'

p = r'http://(.+?).com'

pat = re.compile(p)

print(pat.findall(text))#结果是['baidu']

text2 = r'matlab.python.ruby.python.c'

p2 = r'matlab.+?.ruby'

pat2 = re.compile(p2)

print(pat2.findall(text2))#结果是['matlab.python.ruby']

p3 = r'matlab(.+?.)ruby'

pat3 = re.compile(p3)

print(pat3.findall(text2))#结果是['.python.']

#如果需要精确匹配括号，通过添加反斜杠\的方式转义

text4 = r'matlab(python)ruby.matlab.python.ruby.c'

p4 = r'matlab(.+?.)ruby'

pat4 = re.compile(p4)

print(pat4.findall(text4))#结果是['(python)', '.python.']

p5 = r'matlab(\(.+?.\))ruby'

pat5 = re.compile(p5)

print(pat5.findall(text4))#结果是['(python)']

#匹配同一文本串中多个子部分内容

text6 = r'target="http://www.baidu.com" is "百度" and target="http://www.sougou.com" is "搜狗"'

p6 = r'target="(.+?)" is "(.+?)"'

pat6 = re.compile(p6)

print(pat6.findall(text6))#结果是[('http://www.baidu.com', '百度'), ('http://www.sougou.com', '搜狗')]

Python pandas学习笔记的更多相关文章

Python pandas学习总结
本来打算学习pandas模块,并写一个博客记录一下自己的学习,但是不知道怎么了,最近好像有点急功近利,就想把别人的东西复制过来,当心沉下来,自己自觉地将原本写满的pandas学习笔记删除了,这次打算写 ...
【转】Pandas学习笔记（一）基本介绍
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Python Click 学习笔记（转）
原文链接:Python Click 学习笔记 Click 是 Flask 的团队 pallets 开发的优秀开源项目,它为命令行工具的开发封装了大量方法,使开发者只需要专注于功能实现.恰好我最近在开发 ...
0003.5-20180422-自动化第四章-python基础学习笔记--脚本
0003.5-20180422-自动化第四章-python基础学习笔记--脚本 1-shopping """ v = [ {"name": " ...
Python Flask学习笔记之模板
Python Flask学习笔记之模板 Jinja2模板引擎默认情况下,Flask在程序文件夹中的templates子文件夹中寻找模板.Flask提供的render_template函数把Jinja ...
Python Flask学习笔记之Hello World
Python Flask学习笔记之Hello World 安装virtualenv,配置Flask开发环境 virtualenv 虚拟环境是Python解释器的一个私有副本,在这个环境中可以安装私有包 ...
Pandas 学习笔记
Pandas 学习笔记 pandas 由两部份组成,分别是 Series 和 DataFrame. Series 可以理解为"一维数组.列表.字典" DataFrame 可以理解为 ...
获取字段唯一值工具- -ArcPy和Python案例学习笔记
获取字段唯一值工具- -ArcPy和Python案例学习笔记目的:获取某一字段的唯一值,可以作为工具使用,也可以作为函数调用联系方式:谢老师,135-4855-4328,xiexiaokui# ...

随机推荐

iOS 如何使用TabbarController
xcode中给我内置很多app模版,不过很多时候我们需要更加灵活的初始化项目.下面我就简单介绍一下,如何从0开始制作一个tabbar app. 创建个项目,由于我们从头开始写程序,因此理论上对模版没有 ...
【C++】双边滤波器（bilateral filter）
Bilateral Filtering for Gray and Color Images 双边滤波器:保留边界的平滑滤波器. 在局部上,就是在灰度值差异不大的区域平滑,在灰度值差异比较大的边界地区保 ...
（转）SpringMVC学习(八)——SpringMVC中的异常处理器
http://blog.csdn.net/yerenyuan_pku/article/details/72511891 SpringMVC在处理请求过程中出现异常信息交由异常处理器进行处理,自定义异常 ...
core下的routelink
core mvc中 routelink返回和 framework mvc中返回的不一样,core中返回 IHtmlContent, 而 fw 中返回 MvcHtmlString 在写分页方法中用到了r ...
python读取绝对路径的三种方式
import pandas as pd dood_inf0=pd.read_csv("C:\\Users\\Administrator\\Desktop\\food_info.csv&quo ...
剑指Offer整理笔记
说在前面,本篇的目的是为了学习剑指offer,以及博客园的排版功能,并将文章排版得整洁得体. 梵蒂冈梵蒂冈地方官方
Gameia
F - Gameia HDU - 6105 Alice and Bob are playing a game called 'Gameia ? Gameia !'. The game goes l ...
mysql多字段组合删除重复行
DELETEFROM boll_paramWHERE id in ( SELECT a.id FROM ( SELECT id FROM boll_param WHERE (symbol, time_ ...
(十八)python 3 回调函数
回调函数:把函数的指针(地址)作为参数传递给另一个函数,当这个指针被用来调用其所指向的函数时,我们就说这是回调函数.回调函数不是由该函数的实现方直接调用,而是在特定的事件或条件发生时由另外的一方调用的 ...
关于Hibernate中No row with the given identifier exists问题的原因及解决
今天遇到一个bug,截图如下有两张表,table1和table2.产生此问题的原因就是table1里做了关联<one-to-one>或者<many-to-one unique=&q ...

Python pandas学习笔记

Python pandas学习笔记的更多相关文章

随机推荐

热门专题