Python学习笔记——数据结构和算法（二）

1、字典中一个键映射多个值

　　可以使用collections中的defaultdict来实现，defalultdict接受list或者set为参数

from collections import defaultdict

d = defaultdict(list)

d['a'].append(1)

d['a'].append(2)

d['b'].append(4)

>>> d
defaultdict(<type 'list'>, {'a': [1, 2], b: [4]})

2、字典排序

　　使用 collections 模块中的 OrderedDict 类，会保持元素的插入顺序。可以控制json编码后的程序

from collections import OrderedDict

d = OrderedDict()

d['foo'] = 1

d['bar'] = 2

d['spam'] = 3

d['grok'] = 4

# Outputs "foo 1", "bar 2", "spam 3", "grok 4"

>>> import json

>>> json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

　　注意，一个 OrderedDict 的大小是一个普通字典的两倍，因为它内部维护着另外一个链表。

3、字典的运算

　　d = {'a':1}，d.keys()、d.values(), d.items()在python 2中返回的是列表。在python3中，d.items()在返回的是一个个包含(键，值)对的元素视图对象，支持集合操作，d.keys()返回一个展现键集合的键视图对象，同样支持集合操作，d.values()返回值得视图对象，但是不支持集合操作。

　　如在python3中

# Find keys in common

a.keys() & b.keys() # { 'x', 'y' }

# Find keys in a that are not in b

a.keys() - b.keys() # { 'z' }

# Find (key,value) pairs in common

a.items() & b.items() # { ('y', 2) }

4、删除序列相同元素并保持顺序

　　如果序列上的值都是 hashable 类型，可以用下面的方式来实现：

def dedupe(items):

    seen = set()

    for item in items:

        if item not in seen:
            yield item
            seen.add(item)

　　如果序列的元素不是hashable的，则不能直接放进set中，我们可以通过传入一个转换成hashable的方法来处理序列中的元素。上面的实例改成下面的样子：

def dedupe(items, key=None):

    seen = set()

    for item in items:

        val = item if not key else key(item)

        if val not in item:

            yield item

            seen.add(val)

>>> a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]

>>> dedupe(a, key=lambda d: (d['x'],d['y']))

#同样可以过来文件中重复行

with open(somefile,'r') as f:

for line in dedupe(f):

    ...

5、序列中出现次数最多的元素

　　可以使用循环和一个字典进行统计，也可以直接使用collections.Counter 类来完成。Counter底层也是用字典来实现的。

words = [

    'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',

    'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',

    'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',

    'my', 'eyes', "you're", 'under'

]

from collections import Counter

word_counts = Counter(words)

# 出现频率最高的3个单词

top_three = word_counts.most_common(3)

>>>word_counts

Counter({'eyes': 8, 'the': 5, 'look': 4, 'into': 3, 'my': 3, 'around': 2, "you're": 1, "don't": 1, 'under': 1, 'not': 1})

morewords = ['why','are','you','not','looking','in','my','eyes']

#更新

word_counts.update(morewords)

#运算

a = Counter(words)

b = Counter(morewords)

a+b

a-b

6、通过字段将记录分组

　　itertools.groupby() 函数对于这样的数据分组操作非常实用。

rows = [

    {'address': '5412 N CLARK', 'date': '07/01/2012'},

    {'address': '5148 N CLARK', 'date': '07/04/2012'},

    {'address': '5800 E 58TH', 'date': '07/02/2012'},

    {'address': '2122 N CLARK', 'date': '07/03/2012'},

    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},

    {'address': '1060 W ADDISON', 'date': '07/02/2012'},

    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},

    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},

]

from operator import itemgetter

from itertools import groupby

# Sort by the desired field first

rows.sort(key=itemgetter('date')) # 等同于rows.sort(key=lambda item:item.get('date'))

# Iterate in groups

for date, items in groupby(rows, key=itemgetter('date')):

    print date

    for i in items:

        print i

　　注意，groupby() 仅仅检查连续的元素，所以序列必须先排序。

　　groupby() 函数扫描整个序列并且查找连续相同值(或者根据指定key函数返回值相同)的元素序列。在每次迭代的时候，它会返回一个值和一个迭代器对象，这个迭代器对象可以生成元素值全部等于上面那个值的组中所有对象。

　　如果想构造分组并允许随机访问，可以考虑使用defaultdict()。

7、过滤序列元素

　　通常使用列表推导式或者生成器表达式，可以过滤或者缩短序列，同时过滤的同时可以转换元素。

>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1]

>>> [n * n for n in mylist if n > 0]

[1, 16, 100, 4, 9]

>>> [n if n > 0 else 0 for n in mylist]

[1, 4, 0, 10, 0, 2, 3, 0]

　　对于复杂的过滤，可以考虑filter函数，接受一个过滤函数作用域序列每个元素，仅返回序列中结果为True的值。

values = ['', '', '-3', '-', '', 'N/A', '']

def is_int(val):

    try:

        x = int(val)

        return True

    except ValueError:

        return False

ivals = list(filter(is_int, values))

print(ivals)

# Outputs ['1', '2', '-3', '4', '5']

8、从字典中提取子集

　　使用字典推导式可以快速实现需求

prices = {

    'ACME': 45.23,

    'AAPL': 612.78,

    'IBM': 205.55,

    'HPQ': 37.20,

    'FB': 10.75

}

# Make a dictionary of all prices over 200

p1 = {key: value for key, value in prices.items() if value > 200}

9、命名元组

　　collections.namedtuple()提供了可以通过名称访问元组中元素的方式，可以使代码易于阅读。

>>> from collections import namedtuple

>>> Subscriber = namedtuple('Subscriber', ['addr', 'joined'])

>>> sub = Subscriber('jonesy@example.com', '2012-10-19')

>>> sub

Subscriber(addr='jonesy@example.com', joined='2012-10-19')

>>> sub.addr

'jonesy@example.com'

>>> sub.joined

'2012-10-19'

Python学习笔记——数据结构和算法（二）的更多相关文章

Python学习笔记——数据结构和算法（一）
1.解压序列赋值给多个变量任何的序列(或者是可迭代对象)可以通过一个简单的赋值语句解压并赋值给多个变量. 唯一的前提就是变量的数量必须跟序列元素的数量是一样的. >>> data ...
学习JavaScript数据结构与算法 (二)
学习JavaScript数据结构与算法的笔记包含第四章队列, 第五章链表本人所有文章首发在博客园: http://www.cnblogs.com/zhangrunhao/ 04队列实现基本队列 ...
Python学习笔记之递归、二维数组顺时针旋转90°、正则表达式
递归.二维数组顺时针旋转90°.正则表达式 1. 递归算法是一种直接或间接调用自身算法的过程. 特点: 递归就是在过程或函数里调用自身明确的递归结束条件,即递归出口简洁,但是不提倡递归次数多 ...
python学习笔记11（函数二）：参数的传递、变量的作用域
一.函数形参和实参的区别形参全称是形式参数,在用def关键字定义函数时函数名后面括号里的变量称作为形式参数. 实参全称为实际参数,在调用函数时提供的值或者变量称作为实际参数. >>> ...
python学习笔记之数据类型（二）
上一篇博客,小波介绍了python的入门和简单流程控制,这次写python的数据类型和各种数据类型的内置方法. 一.数据类型是何方神圣? 计算机顾名思义就是可以做数学计算的机器,因此,计算机程序理所当 ...
python学习笔记（MD5算法）
博主最近进度停滞了对web开发理解欠缺好多内容今天整理下MD5算法,这个涉及到mysql数据库存储用户表密码字段的时候一般是带有加密的 # -*- coding: utf-8 -*- impor ...
Python学习笔记【第十二篇】：Python异常处理
什么是异常异常就是程序运行时发生错误的信号,在python中,错误触发的异常如下错误类型分为两种:语法错误和业务逻辑错. 异常的类型 AttributeError 试图访问一个对象没有的树形,比如 ...
python学习笔记——线程threading （二）重写run()方法和守护进程daemon()
1 run()方法 1.1 单个线程在threading.Thread()类中有run()方法. from time import ctime,sleep import threading # 定义 ...
Python学习笔记（三十二）常用内建模块（1）— datetime
>>> from datetime import datetime >>> now = datetime.now() # 获取当前datetime >> ...

随机推荐

洛谷 P2763 试题库问题（网络流24题之一）
题目描述 «问题描述: 假设一个试题库中有n道试题.每道试题都标明了所属类别.同一道题可能有多个类别属性.现要从题库中抽取m 道题组成试卷.并要求试卷包含指定类型的试题.试设计一个满足要求的组卷算法. ...
QT 选择对话框简单示例
QT 选择对话框简单示例部分代码: pDialog->addSeparator(); QAction *pmb2 = pDialog->addAction(QString::fromLo ...
跟我学Spring Cloud（Finchley版）-17-Zuul路由配置详解
但在实际项目中,往往需要自己定义路由规则,Zuul的路由配置非常灵活.简单,本节详细讲解Zuul的路由配置. 一.自定义指定微服务的访问路径配置zuul.routes.指定微服务的serviceId ...
Coding and Paper Letter（四十五）
资源整理. 1 Coding: 1.Python库gempy,一种基于Python的开源三维结构地质建模软件,它允许从界面和方向数据隐式(即自动)创建复杂的地质模型. 它还支持随机建模以解决参数和模型 ...
基于数组实现Java 自定义Stack栈类及应用
栈是存放对象的一种特殊容器,在插入与删除对象时,这种结构遵循后进先出( Last-in-first-out,LIFO)的原则.java本身是有自带Stack类包,为了达到学习目的已经更好深入了解sta ...
【SPOJ】Count On A Tree II（树上莫队）
[SPOJ]Count On A Tree II(树上莫队) 题面洛谷 Vjudge 洛谷上有翻译啦题解如果不在树上就是一个很裸很裸的莫队现在在树上,就是一个很裸很裸的树上莫队啦. #incl ...
<深入理解计算机系统>第七章读书笔记
第七章读书笔记链接链接:将各种代码和数据部分收集起来并组合成为一个单一文件的过程.(这个文件可被加载或拷贝到存储器并执行) 链接可以执行于编译,加载或运行时. 静态链接: 两个主要任务: 1 符号 ...
【组合数学】【P4996】咕咕咕
Description 小 F 注意到,自己总是在某些情况下会产生歉意.每当他要检查自己的任务表来决定下一项任务的时候,如果当前他干了某些事情,但是没干另一些事情,那么他就会产生一定量的歉意--比如, ...
springMVC参数绑定与数据回显
简单例子:修改商品信息的jsp页面: 参数绑定过程: 1.2.1 默认支持的参数类型处理器形参中添加如下类型的参数处理适配器会默认识别并进行赋值. 1.1.1 HttpServletReq ...
Qt ------ 控件布局 setSizePolicy
setSizePolicy 是设置控件在布局(layout)里面的大小变化的属性.如果控件没有在布局里,没什么用. 默认情况下,把 widget 放入 layout,widget 的大小一定程度上会随 ...

Python学习笔记——数据结构和算法（二）

Python学习笔记——数据结构和算法（二）的更多相关文章

随机推荐

热门专题