写在前面的话: 实例中的所有数据都是在GitHub上下载的,打包下载即可. 地址是:http://github.com/pydata/pydata-book 还有一定要说明的: 我使用的是Python2.7,书中的代码有一些有错误,我使用自己的2.7版本调通. # coding: utf-8 import pandas as pd unames = ['user_id','gender','age','occupation','zip'] users = pd.read_table('D:\So…
绘图和可视化 matplotlib入门 创建窗口和画布 fig = plt.figure() ax1 = fig.add_subplot(2,2,1) ax2 = fig.add_subplot(2,2,2) ax3 = fig.add_subplot(2,2,3) plt.show(fig) 方便创建多个画布 fig, axes = plt.subplots(2,3) print axes plt.show(fig) 调整subplot周围的间距 颜色.标记.线型 ax.plot(x,y,'g…
数据加载.存储与文件格式 读写文本格式的数据 逐块读取文本文件 read_xsv参数nrows=x 要逐块读取文件,需要设置chunksize(行数),返回一个TextParser对象. 还有一个get_chunk方法,它使你可以读取任意大小的块. 将数据写出到文本格式 DataFrame的to_csv() Series的to_csv()和from_csv()和read_csv() 手工处理分隔符格式 JSON数据 python标准库中有专门操作模块 json.loads() json.dump…
NumPy基础:数组和矢量计算 NumPy的ndarray:一种多维数组对象 该对象是一个快速灵活的大数据集容器.你可以利用这种数组对整块数据执行一些数学运算,其语法跟标量元素之间的运算一样 列表转换为数组 二维列表 数据类型 其他一些自动生成的数组 arange() ndarray的数据类型 使用astype()方法转换类型,如果将浮点数转换成整数,则小数部分将会被截断,如果某个字符串数组全是数字,也可以用其转换为数值形式 数组和标量之间的运算 数组很重要,因为它使你不用编写循环即可对主句执行…
数据规整化:清理.转换.合并.重塑 合并数据集 pandas.merge pandas.concat combine_first 数据库风格的DataFrame合并 索引上的合并 join()实例方法 轴向连接 NumPy中有concatenation pandas中concat() 合并重叠数据 NumPy中的where() pandas中的combine_first 重塑和轴向旋转 重塑层次化索引 stack() 列到行 unstack() 行到列 将长格式旋转为宽格式 不懂 数据转换 移除…
引言 1 列表推导式 records = [json.loads(line) for line in open(path)] 这是一种在一组字符串(或一组别的对象)上执行一条相同操作(如json.loads)的简洁方式.在一个打开的文件句柄上进行迭代即可获得一个由行组成的序列.现在,records对象就成为一组Python字典了. {u'a': u'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko)…
pandas入门 数据结构 Series Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成.仅由一组数据即可产生最简单的Series: 可以通过索引的方式选取Series中的单个或一组值. 运算(根据布尔型数组进行过滤,标量乘法,应用数学函数). 根据字典创建Series. NaN(not a number)表示缺失或NA值. isnull()和notnoll()用于检测缺失数据. 在算术运算中会自动对齐不同索引的数据. Se…
此文对Python中时期.时间戳.时区处理等阐述十分清楚,特别值得推荐学习. 原文链接:https://blog.csdn.net/wuzlun/article/details/80287517…
以此记录阅读和学习<利用Python进行数据分析>这本书中的觉得重要的点! 第一章:准备工作 1.一组新闻文章可以被处理为一张词频表,这张词频表可以用于情感分析. 2.大多数软件是由两部分代码组成:少量需要占用大部分执行时间的代码,以及大量不经常执行的“粘合剂代码”. cython已经成为python领域中创建编译型扩展以及对接c/c++代码的一大途径. 3.在那些要求延迟性非常小的应用程序中(例如高频交易系统),为了尽最大可能地优化性能,耗费时间使用诸如C++这样更低级.更低生产率的语言进行…
http://www.cnblogs.com/batteryhp/p/4868348.html 第一章 准备工作 今天开始码这本书--<利用python进行数据分析>.R和python都得会用才行,这是码这本书的原因.首先按照书上说的进行安装,google下载了epd_free-7.3-1-win-x86.msi,译者建议按照作者的版本安装,EPDFree包括了Numpy,Scipy,matplotlib,Chaco,IPython.这里的pandas需要自己安装,对应版本为pandas-0.…