探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等. 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别: 传统的统计分析方法通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析.但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人满意. 探索性数据分析方法注重数据的真实分布,…
一.简介 Python for Data Analysis这本书的特点是将numpy和pandas这两个工具介绍的很详细,这两个工具是使用Python做数据分析非常重要的一环,numpy主要是做矩阵的运算,pandas主要是做数据的预处理,另外本书还教了其他数据分析相关的工具,比如matplotlib用来作图,iPython用来测试.调试代码.本书着重在工具介绍,所以在阅读前最好要对数据分析的理论有一定的了解. 二.Jupyter和Python的介绍 Jupyter是结合代码输入.运行到结果显示…
<深入浅出数据分析>英文名为Head First Data Analysis Code, 这本书中提供了学习使用的数据和程序,原书链接由于某些原因不 能打开,这里在提供一个下载的链接.去下面的网页中可以找到到链接,不知道为什么博客中不能插入csdn的链接. https://www.zybuluo.com/Jpz/note/153697 压缩包中包含的文件如下: bathing_friends_unlimited.xls hfda.R hfda_ch04_home_page1.csv hfda_…
绘图和可视化 matplotlib入门 创建窗口和画布 fig = plt.figure() ax1 = fig.add_subplot(2,2,1) ax2 = fig.add_subplot(2,2,2) ax3 = fig.add_subplot(2,2,3) plt.show(fig) 方便创建多个画布 fig, axes = plt.subplots(2,3) print axes plt.show(fig) 调整subplot周围的间距 颜色.标记.线型 ax.plot(x,y,'g…
数据加载.存储与文件格式 读写文本格式的数据 逐块读取文本文件 read_xsv参数nrows=x 要逐块读取文件,需要设置chunksize(行数),返回一个TextParser对象. 还有一个get_chunk方法,它使你可以读取任意大小的块. 将数据写出到文本格式 DataFrame的to_csv() Series的to_csv()和from_csv()和read_csv() 手工处理分隔符格式 JSON数据 python标准库中有专门操作模块 json.loads() json.dump…
NumPy基础:数组和矢量计算 NumPy的ndarray:一种多维数组对象 该对象是一个快速灵活的大数据集容器.你可以利用这种数组对整块数据执行一些数学运算,其语法跟标量元素之间的运算一样 列表转换为数组 二维列表 数据类型 其他一些自动生成的数组 arange() ndarray的数据类型 使用astype()方法转换类型,如果将浮点数转换成整数,则小数部分将会被截断,如果某个字符串数组全是数字,也可以用其转换为数值形式 数组和标量之间的运算 数组很重要,因为它使你不用编写循环即可对主句执行…
引言 1 列表推导式 records = [json.loads(line) for line in open(path)] 这是一种在一组字符串(或一组别的对象)上执行一条相同操作(如json.loads)的简洁方式.在一个打开的文件句柄上进行迭代即可获得一个由行组成的序列.现在,records对象就成为一组Python字典了. {u'a': u'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko)…
一.文字处理 之前在练习爬虫时,常常爬了一堆乱七八糟的字符下来,当时就有找网络上一些清洗数据的方式,这边pandas也有提供一些,可以参考使用看看.下面为两个比较常见的指令,往往会搭配使用. split(“,”)可以将文字串分割,冒号里的为分割依据,左边的代码就是把两个冒号中间的文字串视为一个单元. strip()去除空白符号. 1.正则表达式 正则表达式为处理文字搜索匹配的功能,python可以直接导入re模块来使用.用法为下. 可直接用split来编译再拆解,也可以先用compile编译,再…
数据规整化:清理.转换.合并.重塑 合并数据集 pandas.merge pandas.concat combine_first 数据库风格的DataFrame合并 索引上的合并 join()实例方法 轴向连接 NumPy中有concatenation pandas中concat() 合并重叠数据 NumPy中的where() pandas中的combine_first 重塑和轴向旋转 重塑层次化索引 stack() 列到行 unstack() 行到列 将长格式旋转为宽格式 不懂 数据转换 移除…
pandas入门 数据结构 Series Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成.仅由一组数据即可产生最简单的Series: 可以通过索引的方式选取Series中的单个或一组值. 运算(根据布尔型数组进行过滤,标量乘法,应用数学函数). 根据字典创建Series. NaN(not a number)表示缺失或NA值. isnull()和notnoll()用于检测缺失数据. 在算术运算中会自动对齐不同索引的数据. Se…