Python(Head First)学习笔记：五

5 推导数据：处理数据、格式、编码、解码、排序

　　处理数据：从Head First Python 上下载资源文件，即：james.txt，julie.txt，mikey.txt，sarah.txt。

　　实例一：打开以上文件，将数据提取到列表中

>>> with open('james.txt') as jaf:

    data = jaf.readline()

    james = data.strip().split(',')

    with open('julie.txt')as juf:

        data = juf.readline()

        julie = data.strip().split(',')

>>> print(james)

['2-34', '3:21', '2.34', '2.45', '3.01', '2:01', '2:01', '3:10', '2-22']

>>> print(julie)

['2.59', '2.11', '2:11', '2:23', '3-10', '2-23', '3:10', '3.21', '3-21']

>>> with open('mikey.txt')as mif:

    data = mif.readline()

    mikey = data.strip().split(',')

    with open('sarah.txt')as saf:

        data = saf.readline()

        sarah = data.strip().split(',')

>>> print(mikey)

['2:22', '3.01', '3:01', '3.02', '3:02', '3.02', '3:22', '2.49', '2:38']

>>> print(sarah)

['2:58', '2.58', '2:39', '2-25', '2-55', '2:54', '2.18', '2:55', '2:55']

　　data.strip().split(',')，这种形式的代码段叫方法串链（method chaining）。

　　第一个方法strip()应用到data中的数据行，这个方法会去除字符串中不想要的空白符；

　　第二个方法split(',')会创建一个列表；

　　采用这种方法可以把多个方法串链接在一起，生成所需要的结果。从左到右读。

　　排序：有两种方式

　　　　一、原地排序(In-plice sorting)

　　　　　　使用sort()方法，新生成的数据会替代原来的数据；

　　　　二、复制排序(Copied sorting)

　　　　　　保留原来的数据，然后新生成一个排序后的数据；

>>> data2=[6,3,1,2,4,5]
>>> data2
[6, 3, 1, 2, 4, 5]

>>> sorted(data2)
[1, 2, 3, 4, 5, 6]
>>> data2
[6, 3, 1, 2, 4, 5]
>>> data3=sorted(data2)
>>> data3
[1, 2, 3, 4, 5, 6]
>>> data1=[2,4,6,5,1,3]
>>> data1.sort()
>>> data1
[1, 2, 3, 4, 5, 6]

　　使用print(sorted(data))来输出之前的james,julie,mikey,sarah列表，如下：

>>> print(sorted(james))
['2-22', '2-34', '2.34', '2.45', '2:01', '2:01', '3.01', '3:10', '3:21']
>>> print(sorted(julie))
['2-23', '2.11', '2.59', '2:11', '2:23', '3-10', '3-21', '3.21', '3:10']
>>> print(sorted(mikey))
['2.49', '2:22', '2:38', '3.01', '3.02', '3.02', '3:01', '3:02', '3:22']
>>> print(sorted(sarah))
['2-25', '2-55', '2.18', '2.58', '2:39', '2:54', '2:55', '2:55', '2:58']

　　会发现，排序并不正确，目标是从左到右，从小到大。

　　仔细看，发现有'-'，':'，'.'这些符号，因为符号不统一，所以会影响排序。

　　接下来，创建一个函数，名为：sanitize()，作用是：从各个选手的列表接收一个字符串，

　　然后处理这个字符串，将找到的'-'和':'替换为'.'并返回清理过的字符串，此外如果字符串

　　本身已经包含'.'，那么就不需要在做清理工作了。

　　　　函数代码如下：

>>> def sanitize(time_string):
　　　　if'-'in time_string:
　　　　　　splitter='-'
　　　　elif ':'in time_string:
　　　　　　splitter=':'
　　　　else:
　　　　　　return(time_string)
　　　　(mins,secs)=time_string.split(splitter)
　　　　return(mins+'.'+secs)

　　　　实例二：接下来实现正确排序上面四个文件生成的列表

>>> with open('james.txt') as jaf:

    data = jaf.readline()

    james=data.strip().split(',')

    with open('julie.txt')as juf:

        data = juf.readline()

        julie=data.strip().split(',')

    with open('mikey.txt')as mif:

        data = mif.readline()

        mikey=data.strip().split(',')

    with open('sarah.txt')as saf:

        data = saf.readline()

        sarah=data.strip().split(',')

    clean_james=[]

    clean_julie=[]

    clean_mikey=[]

    clean_sarah=[]

    for each_t in james:

        clean_james.append(sanitize(each_t))

    for each_t in julie:

        clean_julie.append(sanitize(each_t))

    for each_t in mikey:

        clean_mikey.append(sanitize(each_t))

    for each_t in sarah:

        clean_sarah.append(sanitize(each_t))

>>> print(clean_james)

['2.34', '3.21', '2.34', '2.45', '3.01', '2.01', '2.01', '3.10', '2.22']

>>> print(clean_julie)

['2.59', '2.11', '2.11', '2.23', '3.10', '2.23', '3.10', '3.21', '3.21']

>>> print(clean_mikey)

['2.22', '3.01', '3.01', '3.02', '3.02', '3.02', '3.22', '2.49', '2.38']

>>> print(clean_sarah)

['2.58', '2.58', '2.39', '2.25', '2.55', '2.54', '2.18', '2.55', '2.55']

　　重新排序如下：　

>>> print(sorted(clean_james))
['2.01', '2.01', '2.22', '2.34', '2.34', '2.45', '3.01', '3.10', '3.21']
>>> print(sorted(clean_julie))
['2.11', '2.11', '2.23', '2.23', '2.59', '3.10', '3.10', '3.21', '3.21']
>>> print(sorted(clean_mikey))
['2.22', '2.38', '2.49', '3.01', '3.01', '3.02', '3.02', '3.02', '3.22']
>>> print(sorted(clean_sarah))
['2.18', '2.25', '2.39', '2.54', '2.55', '2.55', '2.55', '2.58', '2.58']

　　推导列表　　　　　　　

>>> print(sorted([sanitize(t)for t in james]))
['2.01', '2.01', '2.22', '2.34', '2.34', '2.45', '3.01', '3.10', '3.21']
>>> print(sorted([sanitize(t)for t in julie]))
['2.11', '2.11', '2.23', '2.23', '2.59', '3.10', '3.10', '3.21', '3.21']
>>> print(sorted([sanitize(t)for t in mikey]))
['2.22', '2.38', '2.49', '3.01', '3.01', '3.02', '3.02', '3.02', '3.22']
>>> print(sorted([sanitize(t)for t in sarah]))
['2.18', '2.25', '2.39', '2.54', '2.55', '2.55', '2.55', '2.58', '2.58']

　　Python的列表推导是这种语言支持函数编程概念的一个例子。

　　列表推导的妙处：通过使用列表推导可以大幅减少需要维护的代码。

　　迭代删除重复项：

>>> unique_james=[]
>>> for each_t in james:
　　　　if each_t not in unique_james:
　　　　　　unique_james.append(each_t)

　　　　　　>>> print(unique_james[0:3])
　　　　　　　　　　['2-34', '3:21', '2.34']

　　　　　　　　通过not in操作符来滤除列表中的重复项。

　　用集合删除重复项：

　　　　　　通过set()可以创建一个新的集合，属于“工厂函数”，用于创建某种类型的新的数据项。　　

　　重新定义函数，精简代码，将数据返回代码前完成分解/去除空白符处理。

>>> unique_james=[]

>>> for each_t in james:

    if each_t not in unique_james:

        unique_james.append(each_t)

>>> print(unique_james[0:3])

['2-34', '3:21', '2.34']

>>> def get_coach_data(filename):

    try:

        with open(filename)as f:

            data=f.readline()

        return(data.strip().split(','))

    except IOError as ioerr:

        print('File error: '+ str(ioerr))

        return(None)

>>> sarah1 = get_coach_data('sarah.txt')

>>> print(sorted(set([sanitize(t)for t in james]))[0:3])

['2.01', '2.22', '2.34']

>>> print(sarah1)
['2:58', '2.58', '2:39', '2-25', '2-55', '2:54', '2.18', '2:55', '2:55']
>>> print(sorted(set([sanitize(t)for t in sarah1]))[0:3])
['2.18', '2.25', '2.39']

　　函数串链：如 print(sorted(set([sanitize(t)for t in sarah1]))[0:3])，需要从右往左读，和方法串链正好相反。

　　本质上是一堆函数的嵌套操作。

　　总结

　　　　Python术语：1原地排序：转换然后替换；

　　　　　　　　　　 2复制排序：转换然后返回；

　　　　　　　　　　 3方法串链：对数据应用一组方法；

　　　　　　　　　　 4函数串链：对数据应用一组函数；

　　　　　　　　　　 5列表推导：在一行上指定一个转换；

　　　　　　　　　　 6分片：从一个列表，访问多个列表项；

　　　　　　　　　　 7集合：一组无需的数据项，其中不包含重复项。

　　　　具体方法：1 sort()：原地排序；

　　　　　　　　　2 sorted()：复制排序；

　　　　　　　　　3 对于以下代码：

　　　　　　　　　　 new=[]

　　　　　　　　　　for t in old:

　　　　　　　　　　　　new.append(len(t))

　　　　　　　　　　可以用列表推导代替：new=[len(t) for t in old]；

　　　　　　　　　4 分片：使用my_list[3:6]可以访问列表my_list从索引位置3到索引位置6的列表数据项；　　　　　　　　　

　　　　　　　　　5 使用set()工厂方法可以创建一个集合。

------------------------------------------------The End of Fifth Chapter------------------------------------------------

Python(Head First)学习笔记：五的更多相关文章

python3.4学习笔记(五) IDLE显示行号问题，插件安装和其他开发工具介绍
python3.4学习笔记(五) IDLE显示行号问题,插件安装和其他开发工具介绍 IDLE默认不能显示行号,使用ALT+G 跳到对应行号,在右下角有显示光标所在行.列.pycharm免费社区版.Su ...
Go语言学习笔记五：条件语句
Go语言学习笔记五: 条件语句 if语句 if 布尔表达式 { /* 在布尔表达式为 true 时执行 */ } 竟然没有括号,和python很像.但是有大括号,与python又不一样. 例子: pa ...
C#可扩展编程之MEF学习笔记(五)：MEF高级进阶
好久没有写博客了,今天抽空继续写MEF系列的文章.有园友提出这种系列的文章要做个目录,看起来方便,所以就抽空做了一个,放到每篇文章的最后. 前面四篇讲了MEF的基础知识,学完了前四篇,MEF中比较常用 ...
Requests:Python HTTP Module学习笔记（一）（转）
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...
（转）Qt Model/View 学习笔记 (五)——View 类
Qt Model/View 学习笔记 (五) View 类概念在model/view架构中,view从model中获得数据项然后显示给用户.数据显示的方式不必与model提供的表示方式相同,可以与 ...
java之jvm学习笔记五(实践写自己的类装载器)
java之jvm学习笔记五(实践写自己的类装载器) 课程源码:http://download.csdn.net/detail/yfqnihao/4866501 前面第三和第四节我们一直在强调一句话,类 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
Learning ROS for Robotics Programming Second Edition学习笔记(五) indigo computer vision
中文译著已经出版,详情请参考:http://blog.csdn.net/ZhangRelay/article/category/6506865 Learning ROS for Robotics Pr ...
Python Built-in Function 学习笔记
Python Built-in Function 学习笔记 1. 匿名函数 1.1 什么是匿名函数 python允许使用lambda来创建一个匿名函数,匿名是因为他不需要以标准的方式来声明,比如def ...
Typescript 学习笔记五：类
中文网:https://www.tslang.cn/ 官网:http://www.typescriptlang.org/ 目录: Typescript 学习笔记一:介绍.安装.编译 Typescrip ...

随机推荐

Scala基础语法学习（一）
1. val和var的区别 val定义的是一个常量,无法改变其内容 scala> val s = 0 s: Int = 0 scala> s = 2 <console>:12: ...
给面试官讲明白：一致性Hash的原理和实践
"一致性hash的设计初衷是解决分布式缓存问题,它不仅能起到hash作用,还可以在服务器宕机时,尽量少地迁移数据.因此被广泛用于状态服务的路由功能" 01分布式系统的路由算法假设 ...
送礼物「JSOI 2015」RMQ+01分数规划
[题目描述] 礼品店一共有N件礼物排成一列,每件礼物都有它的美观度.排在第\(i(1\leq i\leq N)\)个位置的礼物美观度为正整数\(A_I\).JYY决定选出其中连续的一段,即编号为礼物\ ...
什么是Kafka？
通过Kafka的快速入门 https://www.cnblogs.com/tree1123/p/11150927.html 能了解到Kafka的基本部署,使用,但他和其他的消息中间件有什么不同呢? K ...
hbase集群region数量和大小的影响
1.Region数量的影响通常较少的region数量可使群集运行的更加平稳,官方指出每个RegionServer大约100个regions的时候效果最好,理由如下: 1)Hbase的一个特性MSLA ...
python + selenium webdriver 复合型css样式的元素定位方法
<div class="header layout clearfix"></div> 当元素没有id,没有name,没有任何,只有一个class的时候,应该 ...
Spring-boot:多模块打包
<plugin> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot ...
spring中的事件 applicationevent 讲的确实不错（转）
event,listener是observer模式一种体现,在spring 3.0.5中,已经可以使用annotation实现event和eventListner里. 我们以spring-webflo ...
C笔记_C语言环境、编译、预处理
1.环境 gcc -v //查看环境变量 gcc 同 g++ gcc main.c -o main.exe gcc main.c //默认生成a.exe 2.编译预处理: gcc -E main ...
深入浅出TypeScript（2）- 用TypeScript创建web项目
前言在第一篇中,我们简单介绍了TypeScript的一些简单语法,那么如果我们只是简单使用TypeScript开发一个web项目,应该做哪些准备?接下来我们就结合TypeScript和Webpack ...

Python(Head First)学习笔记：五

Python(Head First)学习笔记：五的更多相关文章

随机推荐

热门专题