一.简介 Python for Data Analysis这本书的特点是将numpy和pandas这两个工具介绍的很详细,这两个工具是使用Python做数据分析非常重要的一环,numpy主要是做矩阵的运算,pandas主要是做数据的预处理,另外本书还教了其他数据分析相关的工具,比如matplotlib用来作图,iPython用来测试.调试代码.本书着重在工具介绍,所以在阅读前最好要对数据分析的理论有一定的了解. 二.Jupyter和Python的介绍 Jupyter是结合代码输入.运行到结果显示…
一.Pandas文件读写 pandas很核心的一个功能就是数据读取.导入,pandas支援大部分主流的数据储存格式,并在导入的时候可以做筛选.预处理.在读取数据时的选项有超过50个参数,可见pandas对于各式各样的数据都能有非常好的应对能力.下面先介绍基本的读取指令. 前面两个read_csv和read_table是用的比较多的两种.下面为实际操作的范例. 当然大部分的时候数据导入不会这么顺利,因为源数据里可能会有多种的分离方式,里面还会夹杂一些脏数据,所以pandas附上了一些选项来帮助导入…
一.pandas介绍 本篇程序上篇内容,在numpy下面继续介绍pandas,本书的作者是pandas的作者之一.pandas是非常好用的数据预处理工具,pandas下面有两个数据结构,分别为Series和DataFrame,DataFrame之前我在一些实战案例中有用过,下面先对这两个数据结构做介绍. 二.Series Series最简单的一个功能就是对一组数字打上ID,用法为下 可以看到Series会自动把数字打上0~3对应的ID,也可以对ID自定义名称 这样就可以用key-value的形式…
一.文字处理 之前在练习爬虫时,常常爬了一堆乱七八糟的字符下来,当时就有找网络上一些清洗数据的方式,这边pandas也有提供一些,可以参考使用看看.下面为两个比较常见的指令,往往会搭配使用. split(“,”)可以将文字串分割,冒号里的为分割依据,左边的代码就是把两个冒号中间的文字串视为一个单元. strip()去除空白符号. 1.正则表达式 正则表达式为处理文字搜索匹配的功能,python可以直接导入re模块来使用.用法为下. 可直接用split来编译再拆解,也可以先用compile编译,再…
<Python for Data Analysis>一书由Wes Mckinney所著,中文译名是<利用Python进行数据分析>.这里记录一下学习过程,其中有些方法和书中不同,是按自己比较熟悉的方式实现的. 第三个实例:US Baby Names 1880-2010 简介: 美国社会保障总署(SSA)提供了一份从1880年到2010年的婴儿姓名频率的数据 数据地址: https://github.com/wesm/pydata-book/tree/2nd-edition/data…
<Python for Data Analysis>一书由Wes Mckinney所著,中文译名是<利用Python进行数据分析>.这里记录一下学习过程,其中有些方法和书中不同,是按自己比较熟悉的方式实现的. 第二个实例:MovieLens 1M Data Set 简介: GroupLens Research提供了从MovieLens用户那里收集来的一系列对90年代电影评分的数据 数据地址:http://files.grouplens.org/datasets/movielens/…
<Python for Data Analysis>一书由Wes Mckinney所著,中文译名是<利用Python进行数据分析>.这里记录一下学习过程,其中有些方法和书中不同,是按自己比较熟悉的方式实现的. 第四个实例:USDA Food Database 简介:美国农业部(USDA)制作了一份有关食物营养信息的数据 数据下载地址: https://github.com/wesm/pydata-book/tree/2nd-edition/datasets/usda_food 准备…
<Python for Data Analysis>一书由Wes Mckinney所著,中文译名是<利用Python进行数据分析>.这里记录一下学习过程,其中有些方法和书中不同,是按自己比较熟悉的方式实现的. 第一个实例:1.usa.gov data from bit.ly 简介:2011年,URL缩短服务bit.ly和美国政府网站usa.gov合作,提供了一份从生成.gov或.mil短链接用户那里收集来的匿名数据 数据下载地址:https://github.com/wesm/py…
Python for Data Analysis, 2nd Edition https://www.safaribooksonline.com/library/view/python-for-data/9781491957653/ Get complete instructions for manipulating, processing, cleaning, and crunching datasets in Python. Updated for Python 3.6, the second…
<利用python进行数据分析>一书的第五章源码与读书笔记 直接上代码 # -*- coding:utf-8 -*-# <python for data analysis>第五章, pandas基础# 高级数据结构与操作工具 import pandas as pdimport numpy as npimport time start = time.time()# pandas的数据结构, series and dataframe# 1.series,类似一维数据, 一个字典,建立了…
<利用python进行数据分析>第四章的程序,介绍了numpy的基本使用方法.(第三章为Ipython的基本使用) 科学计算.常用函数.数组处理.线性代数运算.随机模块…… # -*- coding:utf-8 -*-# <python for data analysis>第四章, numpy基础# 数组与矢量计算import numpy as npimport time # 开始计时start = time.time() # 创建一个arraydata = np.array([[…
< python for data analysis >一书的第十章例程, 主要介绍时间序列(time series)数据的处理.label:1. datetime object.timestamp object.period object2. pandas的Series和DataFrame object的两种特殊索引:DatetimeIndex 和 PeriodIndex3. 时区的表达与处理4. imestamp object.period object的频率概念,及其频率转换5. 两种频…
<利用Python进行数据分析>第七章的代码. # -*- coding:utf-8 -*-# <python for data analysis>第七章, 数据规整化 import pandas as pdimport numpy as npimport time start = time.time()# 1.合并数据集,有merge.join.concat三种方式# 1.1.数据库风格的dataframe合并(merge & join)# merge函数将两个dataf…
# -*- coding:utf-8 -*-# <python for data analysis>第九章# 数据聚合与分组运算import pandas as pdimport numpy as npimport time # 分组运算过程 -> split-apply-combine# 拆分 应用 合并start = time.time()np.random.seed(10)# 1.GroupBy技术# 1.1.引文df = pd.DataFrame({ 'key1': ['a',…
1.2 Why Python for Data Analysis?(为什么使用Python做数据分析) 这节我就不进行过多介绍了,Python近几年的发展势头是有目共睹的,尤其是在科学计算,数据处理,AI方面,否则大家也不会来看这本书了. 使用Python的一些优点 Python是一门胶水语言,可以把不同语言整合起来,比如上层代码使用Python编写,底层代码用C,C++等语言实现. 解决了两种语言的问题.以前做研究用一门语言写原型(比如R,SAS),效果好了才会用其他语言去重新实现一遍(比如J…
一.文件权限 1.查看文件权限 (1)文件权限 在 Linux 中对于文件有四种访问权限,列举如下: 可读取:r,Readable 可写入:w,Writable 可执行:x,Execute 无权限:- 另外,在 Linux 中对于权限的设置有三组对象,列举如下: 所有者:u,User 所属组:g,Group 其他用户:o,Other (2)查看文件权限 我们可以使用 ls -l 文件名 命令查看一个文件的权限,其中每一行显示内容的第一个字段就是对文件权限的描述 例如: user@ubuntu:~…
Python笔记之 - 一张截图诠释"文件读写" ! 源代码如下: # 文件读写 str_test1 = "先创建txt文件再写入内容: 我是大帅哥" # with open("file_path.xxx", "w") as f 语句会先创建一个xxx格式的文件并以只写方式打开 , # 再往文件里面写入内容(以只写方式会覆盖原内容), 而且这种语句的好处是不用再在末尾调用.close()关闭文件. with open(&quo…
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):Pandas (二)数据结构 Series 小白学 Python 数据分析(4):Pandas (三)数据结构 DataFrame 小白学 Python 数据分析(5):Pandas (四)基础操作(1)查看数据 小白学 Python 数据分析(6):Pandas (五)基础操作(2)数据选择 小白学…
NoteBook of <Data Analysis with Python> 3.IPython基础 Tab自动补齐 变量名 变量方法 路径 解释 ?解释, ??显示函数源码 ?搜索命名空间 %run命令 %run 执行所有文件 %run -i 访问变量 Ctrl-C中断执行 %paste可以粘贴剪切板的一切文本 一般使用%cpaste因为可以改 键盘快捷键 魔术命令 %timeit 检测任意语句的执行时间 %magic显示魔术命令的详细文档 %xdel v 删除变量,并清除其一切引用 注册…
Data Analysis with Python ch02 一些有趣的数据分析结果 Male描述的是美国新生儿男孩纸的名字的最后一个字母的分布 Female描述的是美国新生儿女孩纸的名字的最后一个字母的分布…
Python 文件读写 Python内置了读写文件的函数,用法和C是兼容的.本节介绍内容大致有:文件的打开/关闭.文件对象.文件的读写等. 本章节仅示例介绍 TXT 类型文档的读写,也就是最基础的文件读写,也需要注意编码问题:其他文件的读写及编码相关详见专题的博文. open()   close()     with open(...) as ... 看以下示例就能了解 Python 的 open() 及 close() 函数.这边调用 read()方法可以一次读取文件的全部内容,Python把…
打算写讲义,目录已经想好. Content basic of python jupyter 开发环境 python 基本语法 利用python脚本完成工作 numpy for matrix computation 向量化或矩阵化编程思想 numpy常见函数以及matlab对比 DataFrame for data analysis pandas 与sql对比 pyodps 中的dataFrame basic plotting skills 用matplotlib与ggplot画图 常用图形绘制方…
读写文件是最常见的IO操作.python内置了读写文件的函数. 读写文件前,我们先必须了解一下,在磁盘上读写文件的功能都是由操作系统完成的,现代操作系统不允许普通的程序直接对磁盘进行操作,所以, 读写文件就是请求操作系统打开一个文件对象通常称为文件描述符,然后,通过操作系统提供的借口从这个文件中读取数据,或者把数据写入这个文件对象 读文件: >>> f = open('/Users/michael/test.txt', 'r') 标示符'r'表示读,这样,我们就成功地打开了一个文件. 如…
模块1.什么是模块?可以理解为一个py文件其实就是一个模块.比如xiami.py就是一个模块,想引入使用就在代码里写import xiami即可2.模块首先从当前目录查询,如果没有再按path顺序逐一查询(sys.path)3.一个模块只会被导入一次. 模块的导入方式:0.import sys 导入模块1.from sys import path from语句从模块中导入一个指定的部分(提倡的写法)2.from -- import * 把一个模块的所有内容全都导入(建议不要用这种) 3.from…
模块1.什么是模块?可以理解为一个py文件其实就是一个模块.比如xiami.py就是一个模块,想引入使用就在代码里写import xiami即可2.模块首先从当前目录查询,如果没有再按path顺序逐一查询(sys.path)3.一个模块只会被导入一次. 模块的导入方式:0.import sys 导入模块1.from sys import path from语句从模块中导入一个指定的部分(提倡的写法)2.from …… import * 把一个模块的所有内容全都导入(建议不要用这种) 3.from…
文件读写的流程 类比windows中手动操作txt文档,说明python中如何操作txt文件? 什么是文件的内存对象(文件句柄)? 演示怎么读取文件 ① 演示如下 f = open(r"D:\python_project\mxxl\test.txt", "r", encoding="utf-8") data = f.read() print(data[:245]) f.close() 结果如下: ② 一个很奇怪的现象? f = open(r&qu…
1.前言 本文主要是对Microsoft Extensible Firmware Initiative FAT32 File System Specification中文翻译版的学习笔记. 每个FAT文件系统基本区域由4部分组成,这些基本区域按如下顺序排列: 对于FAT32典型区域分布如下: 本节主要介绍文件和目录数据区长目录项 2.长目录项 长目录项就是拥有如下普通属性的短目录项 3.长目录项结构 4.长短目录项的组织和联结 (1)由于早期的MS-DOS/Windows系统中,只有短目录是可见…
1.字节流 FileInputStream.FileOutputStream ①FileInputStream import java.io.FileInputStream; public class FileInputStreamDemo { public static void main(String[] args) throws Exception { FileInputStream in = new FileInputStream("D:\\a.txt"); // 构建一个字节…
演示写数据的操作: 结论:往文件中写入数据,如果文件不存在,先创建文件,再写入内容 #1.打开文件 fw=open(r'd.txt','w',encoding='utf-8') #2.写数据操作 fw.write('李白威武霸气\n') #以下操作出现了覆盖的情况 fw.write('hank is a shuaige') #3.关闭文件 fw.close() ''' 文件一旦被close了,就不能再次执行相关函数的调用了,否则报错: ''' # fw.write('nsdfasg') fw=o…
近期项目中可能要用到Flash存取数据,并与JS互调,所以就看了一下ActionScript 3.0,现把学习结果分享一下,希望对新手有帮助. 目录 ActionScript 3.0简介 Hello World 文件读写 数据存储(SharedObject) 与JS互调 ActionScript 3.0简介 ActionScript 3.0 是一种强大的面向对象编程语言,ActionScript 3 符合 ECMAScript Language Specification 第三版.它还包含基于…