在开始学习之前,我们需要安装pandas模块.由于我安装的python的版本是2.7,故我们在https://pypi.python.org/pypi/pandas/0.16.2/#downloads 此网站上下载的0.16.2版本,下载后解压缩利用dos命令打开对应的文件下,并运行 python setup.py install安装,可能会出现报错:error: Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat…
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 1 pandas读取文件的解析函数 read_csv 读取带分隔符的数据,默认分隔符 逗号 read_table 读取带分隔符的数据,默认分隔符 “\t” read_fwf 读取定宽.列格式数据(无分隔符) read_clipboard 读取剪贴板中的数据(将网页转换为表格) 1.1 读取excel数据 import pandas as pd import numpy as np fi…
1 合并数据集 pandas.merge pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None) import pandas as pd from pandas impor…
[ python数据分析笔记——数据加载与整理] https://mp.weixin.qq.com/s?__biz=MjM5MDM3Nzg0NA==&mid=2651588899&idx=4&sn=bf74cbf3cd26f434b73a581b6b96d9ac&chksm=bdbd1b388aca922ee87842d4444e8b6364de4f5e173cb805195a54f9ee073c6f5cb17724c363&mpshare=1&scene=…
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 1 读取excel数据 import pandas as pd import numpy as np file = 'D:\example.xls' df = pd.DataFrame(pd.read_excel(file)) df 2 检测缺失值 2.1 isnull返回一个含有布尔值的对象 import pandas as pd import numpy as np file =…
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 首先,需要导入pandas库的Series和DataFrame In [21]: from pandas import Series,DataFrame In [22]: import pandas as pd Series 是一种类似一维数组的对象,是一组数据与索引的组合.如果没设置索引,默认会加上. In [23]: obj = Series([4,3,5,7,8,1,2]) In…
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 层次化索引主要解决低纬度形式处理高纬度数据的问题 import pandas as pd import numpy as np from pandas import Series,DataFrame data = Series(np.random.randn(12),index=[['],['张三','李四','王五','张三','李四','王五','张三','李四','王五','张三…
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 第一 重新索引 Series的reindex方法 In [15]: obj = Series([3,2,5,7,6,9,0,1,4,8],index=['a','b','c','d','e','f','g', ...: 'h','i','j']) In [16]: obj1 = obj.reindex(['a','b','c','d','e','f','g','h','i','j','…
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. In [1]: import numpy as np In [2]: import pandas as pd In [3]: from pandas import DataFrame,Series In [4]: data = {'class':['语文','数学','英语'],'score':[120,130,140]} In [5]: frame = DataFrame(data)…
数据分析和建模大部分时间都用在数据准备上,数据的准备过程包括:加载,清理,转换与重塑. 合并数据集 pandas对象中的数据可以通过一些内置方法来进行合并: pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来,实现类似于数据库中的连接操作. pandas.cancat表示沿着一条轴将多个对象堆叠到一起. 实例方法combine_first可以将重复数据编接在一起,用一个对象中的值填充另一个对象的缺失值. 下面将进行分别讲解: 1.数据库风格的DateFrame合并…