Python(Head First)学习笔记:五
5 推导数据:处理数据、格式、编码、解码、排序
处理数据:从Head First Python 上下载资源文件,即:james.txt,julie.txt,mikey.txt,sarah.txt。
实例一:打开以上文件,将数据提取到列表中
>>> with open('james.txt') as jaf:
data = jaf.readline()
james = data.strip().split(',')
with open('julie.txt')as juf:
data = juf.readline()
julie = data.strip().split(',')
>>> print(james)
['2-34', '3:21', '2.34', '2.45', '3.01', '2:01', '2:01', '3:10', '2-22']
>>> print(julie)
['2.59', '2.11', '2:11', '2:23', '3-10', '2-23', '3:10', '3.21', '3-21']
>>> with open('mikey.txt')as mif:
data = mif.readline()
mikey = data.strip().split(',')
with open('sarah.txt')as saf:
data = saf.readline()
sarah = data.strip().split(',')
>>> print(mikey)
['2:22', '3.01', '3:01', '3.02', '3:02', '3.02', '3:22', '2.49', '2:38']
>>> print(sarah)
['2:58', '2.58', '2:39', '2-25', '2-55', '2:54', '2.18', '2:55', '2:55']
data.strip().split(','),这种形式的代码段叫方法串链(method chaining)。
第一个方法strip()应用到data中的数据行,这个方法会去除字符串中不想要的空白符;
第二个方法split(',')会创建一个列表;
采用这种方法可以把多个方法串链接在一起,生成所需要的结果。从左到右读。
排序:有两种方式
一、原地排序(In-plice sorting)
使用sort()方法,新生成的数据会替代原来的数据;
二、复制排序(Copied sorting)
保留原来的数据,然后新生成一个排序后的数据;
>>> data2=[6,3,1,2,4,5]
>>> data2
[6, 3, 1, 2, 4, 5]
>>> sorted(data2)
[1, 2, 3, 4, 5, 6]
>>> data2
[6, 3, 1, 2, 4, 5]
>>> data3=sorted(data2)
>>> data3
[1, 2, 3, 4, 5, 6]
>>> data1=[2,4,6,5,1,3]
>>> data1.sort()
>>> data1
[1, 2, 3, 4, 5, 6]
使用print(sorted(data))来输出之前的james,julie,mikey,sarah列表,如下:
>>> print(sorted(james))
['2-22', '2-34', '2.34', '2.45', '2:01', '2:01', '3.01', '3:10', '3:21']
>>> print(sorted(julie))
['2-23', '2.11', '2.59', '2:11', '2:23', '3-10', '3-21', '3.21', '3:10']
>>> print(sorted(mikey))
['2.49', '2:22', '2:38', '3.01', '3.02', '3.02', '3:01', '3:02', '3:22']
>>> print(sorted(sarah))
['2-25', '2-55', '2.18', '2.58', '2:39', '2:54', '2:55', '2:55', '2:58']
会发现,排序并不正确,目标是从左到右,从小到大。
仔细看,发现有'-',':','.'这些符号,因为符号不统一,所以会影响排序。
接下来,创建一个函数,名为:sanitize(),作用是:从各个选手的列表接收一个字符串,
然后处理这个字符串,将找到的'-'和':'替换为'.'并返回清理过的字符串,此外如果字符串
本身已经包含'.',那么就不需要在做清理工作了。
函数代码如下:
>>> def sanitize(time_string):
if'-'in time_string:
splitter='-'
elif ':'in time_string:
splitter=':'
else:
return(time_string)
(mins,secs)=time_string.split(splitter)
return(mins+'.'+secs)
实例二:接下来实现正确排序上面四个文件生成的列表
>>> with open('james.txt') as jaf:
data = jaf.readline()
james=data.strip().split(',')
with open('julie.txt')as juf:
data = juf.readline()
julie=data.strip().split(',')
with open('mikey.txt')as mif:
data = mif.readline()
mikey=data.strip().split(',')
with open('sarah.txt')as saf:
data = saf.readline()
sarah=data.strip().split(',')
clean_james=[]
clean_julie=[]
clean_mikey=[]
clean_sarah=[]
for each_t in james:
clean_james.append(sanitize(each_t))
for each_t in julie:
clean_julie.append(sanitize(each_t))
for each_t in mikey:
clean_mikey.append(sanitize(each_t))
for each_t in sarah:
clean_sarah.append(sanitize(each_t))
>>> print(clean_james)
['2.34', '3.21', '2.34', '2.45', '3.01', '2.01', '2.01', '3.10', '2.22']
>>> print(clean_julie)
['2.59', '2.11', '2.11', '2.23', '3.10', '2.23', '3.10', '3.21', '3.21']
>>> print(clean_mikey)
['2.22', '3.01', '3.01', '3.02', '3.02', '3.02', '3.22', '2.49', '2.38']
>>> print(clean_sarah)
['2.58', '2.58', '2.39', '2.25', '2.55', '2.54', '2.18', '2.55', '2.55']
重新排序如下:
>>> print(sorted(clean_james))
['2.01', '2.01', '2.22', '2.34', '2.34', '2.45', '3.01', '3.10', '3.21']
>>> print(sorted(clean_julie))
['2.11', '2.11', '2.23', '2.23', '2.59', '3.10', '3.10', '3.21', '3.21']
>>> print(sorted(clean_mikey))
['2.22', '2.38', '2.49', '3.01', '3.01', '3.02', '3.02', '3.02', '3.22']
>>> print(sorted(clean_sarah))
['2.18', '2.25', '2.39', '2.54', '2.55', '2.55', '2.55', '2.58', '2.58']
推导列表
>>> print(sorted([sanitize(t)for t in james]))
['2.01', '2.01', '2.22', '2.34', '2.34', '2.45', '3.01', '3.10', '3.21']
>>> print(sorted([sanitize(t)for t in julie]))
['2.11', '2.11', '2.23', '2.23', '2.59', '3.10', '3.10', '3.21', '3.21']
>>> print(sorted([sanitize(t)for t in mikey]))
['2.22', '2.38', '2.49', '3.01', '3.01', '3.02', '3.02', '3.02', '3.22']
>>> print(sorted([sanitize(t)for t in sarah]))
['2.18', '2.25', '2.39', '2.54', '2.55', '2.55', '2.55', '2.58', '2.58']
Python的列表推导是这种语言支持函数编程概念的一个例子。
列表推导的妙处:通过使用列表推导可以大幅减少需要维护的代码。
迭代删除重复项:
>>> unique_james=[]
>>> for each_t in james:
if each_t not in unique_james:
unique_james.append(each_t)
>>> print(unique_james[0:3])
['2-34', '3:21', '2.34']
通过not in操作符来滤除列表中的重复项。
用集合删除重复项:
通过set()可以创建一个新的集合,属于“工厂函数”,用于创建某种类型的新的数据项。
重新定义函数,精简代码,将数据返回代码前完成分解/去除空白符处理。
>>> unique_james=[]
>>> for each_t in james:
if each_t not in unique_james:
unique_james.append(each_t) >>> print(unique_james[0:3])
['2-34', '3:21', '2.34']
>>> def get_coach_data(filename):
try:
with open(filename)as f:
data=f.readline()
return(data.strip().split(','))
except IOError as ioerr:
print('File error: '+ str(ioerr))
return(None) >>> sarah1 = get_coach_data('sarah.txt')
>>> print(sorted(set([sanitize(t)for t in james]))[0:3])
['2.01', '2.22', '2.34']
>>> print(sarah1)
['2:58', '2.58', '2:39', '2-25', '2-55', '2:54', '2.18', '2:55', '2:55']
>>> print(sorted(set([sanitize(t)for t in sarah1]))[0:3])
['2.18', '2.25', '2.39']
函数串链:如 print(sorted(set([sanitize(t)for t in sarah1]))[0:3]),需要从右往左读,和方法串链正好相反。
本质上是一堆函数的嵌套操作。
总结
Python术语:1原地排序:转换然后替换;
2复制排序:转换然后返回;
3方法串链:对数据应用一组方法;
4函数串链:对数据应用一组函数;
5列表推导:在一行上指定一个转换;
6分片:从一个列表,访问多个列表项;
7集合:一组无需的数据项,其中不包含重复项。
具体方法:1 sort():原地排序;
2 sorted():复制排序;
3 对于以下代码:
new=[]
for t in old:
new.append(len(t))
可以用列表推导代替:new=[len(t) for t in old];
4 分片:使用my_list[3:6]可以访问列表my_list从索引位置3到索引位置6的列表数据项;
5 使用set()工厂方法可以创建一个集合。
------------------------------------------------The End of Fifth Chapter------------------------------------------------
Python(Head First)学习笔记:五的更多相关文章
- python3.4学习笔记(五) IDLE显示行号问题,插件安装和其他开发工具介绍
python3.4学习笔记(五) IDLE显示行号问题,插件安装和其他开发工具介绍 IDLE默认不能显示行号,使用ALT+G 跳到对应行号,在右下角有显示光标所在行.列.pycharm免费社区版.Su ...
- Go语言学习笔记五: 条件语句
Go语言学习笔记五: 条件语句 if语句 if 布尔表达式 { /* 在布尔表达式为 true 时执行 */ } 竟然没有括号,和python很像.但是有大括号,与python又不一样. 例子: pa ...
- C#可扩展编程之MEF学习笔记(五):MEF高级进阶
好久没有写博客了,今天抽空继续写MEF系列的文章.有园友提出这种系列的文章要做个目录,看起来方便,所以就抽空做了一个,放到每篇文章的最后. 前面四篇讲了MEF的基础知识,学完了前四篇,MEF中比较常用 ...
- Requests:Python HTTP Module学习笔记(一)(转)
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...
- (转)Qt Model/View 学习笔记 (五)——View 类
Qt Model/View 学习笔记 (五) View 类 概念 在model/view架构中,view从model中获得数据项然后显示给用户.数据显示的方式不必与model提供的表示方式相同,可以与 ...
- java之jvm学习笔记五(实践写自己的类装载器)
java之jvm学习笔记五(实践写自己的类装载器) 课程源码:http://download.csdn.net/detail/yfqnihao/4866501 前面第三和第四节我们一直在强调一句话,类 ...
- python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
- Learning ROS for Robotics Programming Second Edition学习笔记(五) indigo computer vision
中文译著已经出版,详情请参考:http://blog.csdn.net/ZhangRelay/article/category/6506865 Learning ROS for Robotics Pr ...
- Python Built-in Function 学习笔记
Python Built-in Function 学习笔记 1. 匿名函数 1.1 什么是匿名函数 python允许使用lambda来创建一个匿名函数,匿名是因为他不需要以标准的方式来声明,比如def ...
- Typescript 学习笔记五:类
中文网:https://www.tslang.cn/ 官网:http://www.typescriptlang.org/ 目录: Typescript 学习笔记一:介绍.安装.编译 Typescrip ...
随机推荐
- java并发编程(二)----创建并运行java线程
实现线程的两种方式 上一节我们了解了关于线程的一些基本知识,下面我们正式进入多线程的实现环节.实现线程常用的有两种方式,一种是继承Thread类,一种是实现Runnable接口.当然还有第三种方式,那 ...
- java学习-NIO(五)NIO学习总结以及NIO新特性介绍
我们知道是NIO是在2002年引入到J2SE 1.4里的,很多Java开发者比如我还是不知道怎么充分利用NIO,更少的人知道在Java SE 7里引入了更新的输入/输出 API(NIO.2).但是对于 ...
- C语言编程入门之--第五章C语言基本运算和表达式-part2
5.1.4 再来一个C库函数getchar吸收回车键 回车键也是一个字符,在使用scanf的时候,输入完毕要按下回车键,这时候回车键也会被输入到stdin流中,会搞乱我们的程序. 注意:stdin是输 ...
- Git下载加速教程
方法一 大家普遍采取的是更改本地的host文件,然后cmd命令刷新 1.访问这里,依次获取下面三个url的ping的ip github.com github.global.ssl.fastly.net ...
- 《机器学习技法》---soft-margin SVM
1. soft-margin SVM的形式 其中ξn表示每个点允许的犯错程度(偏离margin有多远),但是犯错是有代价的,也就是目标函数里面要最小化的.c控制对犯错的容忍程度. 2. 推导soft ...
- go 学习笔记之数组还是切片都没什么不一样
上篇文章中详细介绍了 Go 的基础语言,指出了 Go 和其他主流的编程语言的差异性,比较侧重于语法细节,相信只要稍加记忆就能轻松从已有的编程语言切换到 Go 语言的编程习惯中,尽管这种切换可能并不是特 ...
- opencv3 编程入门学习笔记(一): 基本函数介绍
滤波 blur (均值滤波) 均值滤波是典型的线性滤波算法, 主要方法为领域平均法(即用一片图像区域的各个像素的平均值来代替原图像中的各个像素值) 缺点: 不能很好的保护图像细节, 在图像去噪的同时也 ...
- 纯前端下载pdf链接文件,而不是打开预览的解决方案
纯前端下载pdf链接文件,而不是打开预览的解决方案 一,介绍与需求 1.1,介绍 XMLHttpRequest 用于在后台与服务器交换数据.这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行 ...
- 纯数据结构Java实现(1/11)(动态数组)
我怕说这部分内容太简单后,突然蹦出来一个大佬把我虐到哭,还是悠着点,踏实写 大致内容有: 增删改查,泛型支持,扩容支持,复杂度分析.(铺垫: Java语言中的数组) 基础铺垫 其实没啥好介绍的,顺序存 ...
- jmeter学习笔记-----第一天
环境简介:apache-jmeter-3.3 win10系统 一.Jmeter录制操作步骤: 1.工作台---添加HTTP代理服务器: 2.为自己笔记本的浏览器设置相同代理: 3.测试计划下-s ...