[PY3]——求TopN/BtmN 和排序问题的解决

需求

K长的序列，求TopN

K长的序列，求BtmN

排序问题

解决

heap.nlargest(）、heap.nsmallest( )
sorted( )+切片
max( )、min( )

总结和比较

1）在Top N问题中，如果 N=1，则直接用max(iterable)/min(iterable) 即可（效率最高）。

2）如果N很大，接近集合元素，则为了提高效率，采用 sort+切片 的效率会更高，如：

 求最大的N个元素：sorted(iterable, key=key, reverse=True)[:N]

 求最小的N个元素：sorted(iterable, key=key)[:N]

3）当要查找的元素个数相对比较小的时候，使用 nlargest() 和 nsmallest() 是很合适的

详解max( )/min( )函数用法

求简单的序列TopN/BtmN（N=1）问题

lst=[1,2,3,4,5]

print(max(lst))

5

通过key属性的使用，设置函数条件为判断的标准

a=[-9,-8,1,3,-4,6]

print(max(a,key=lambda x:abs(x)))

-9

找出字典中值最大的那组数据

prices = {

    'A':123,

    'B':450.1,

    'C':12,

    'E':444,

}

//在对字典进行数据操作的时候，默认只会处理key，而不是value

//先使用zip把字典的keys和values翻转过来，再用max取出值最大的那组数据

max_prices=max(zip(prices.values(),prices.keys()))

print(max_prices)

(450.1, 'B')

nlargest( )/nsmallest( )详解

nlargest(n,iterable) 求序列iterable中的TopN | nsmallest(n,iterable) 求序列iterable中的BtmN

import heapq

nums=[16,7,3,20,17,8,-1]

print(heapq.nlargest(3,nums))

print(heapq.nsmallest(3,nums))

[20, 17, 16]

[-1, 3, 7]

nlargest(n, iterable, key=lambda) | nsmallest(n, iterable, key=lambda) key接受关键字参数，用于更复杂的数据结构中

def print_price(dirt):

    for i in dirt:

        for x,y in i.items():

            if x=='price':

                print(x,y)

portfolio = [

    {'name': 'IBM', 'shares': 100, 'price': 91.1},

    {'name': 'AAPL', 'shares': 50, 'price': 543.22},

    {'name': 'FB', 'shares': 200, 'price': 21.09},

    {'name': 'HPQ', 'shares': 35, 'price': 31.75},

    {'name': 'YHOO', 'shares': 45, 'price': 16.35},

    {'name': 'ACME', 'shares': 75, 'price': 115.65}

]

cheap=heapq.nsmallest(3,portfolio,key=lambda x:x['price'])

expensive=heapq.nlargest(3,portfolio,key=lambda y:y['price'])

print_price(cheap)

print_price(expensive)

price 16.35

price 21.09

price 31.75

price 543.22

price 115.65

price 91.1

sorted( )详解

sorted(iterable, key=None, reverse=False)
reverse=True 逆序

nums=[16,7,3,20,17,8,-1]

print(sorted(nums))

print(sorted(nums,reverse=True))

[-1, 3, 7, 8, 16, 17, 20]

[20, 17, 16, 8, 7, 3, -1]

str=['b','a','A','s']

print(sorted(str))

print(sorted(str,reverse=True))

['A', 'a', 'b', 's']

['s', 'b', 'a', 'A']

key接受一个函数，且是个只接受一个元素的函数
多条件的key应该怎么写？

//按长度排序

L = [{1:5,3:4},{1:3,6:3},{1:1,2:4,5:6},{1:9}]

print(sorted(L,key=lambda x: len(x)))

[{1: 9}, {1: 5, 3: 4}, {1: 3, 6: 3}, {1: 1, 2: 4, 5: 6}]

//根据指定的值来排序(例如字典中的某个key)

L = [


('john', 'A', 15),


('jane', 'B', 10),


('dave', 'B', 12),


]


print(sorted(L,key=lambda x:x[2],reverse=True))


[('john', 'A', 15), ('dave', 'B', 12), ('jane', 'B', 10)]


portfolio = [


{'name': 'IBM', 'shares': 100, 'price': 91.1},


{'name': 'AAPL', 'shares': 50, 'price': 543.22},


{'name': 'FB', 'shares': 200, 'price': 21.09},


{'name': 'HPQ', 'shares': 35, 'price': 31.75},


{'name': 'YHOO', 'shares': 45, 'price': 16.35},


{'name': 'ACME', 'shares': 75, 'price': 115.65}


]


print(sorted(portfolio,key=lambda x:x['price']))


[{'shares': 45, 'name': 'YHOO', 'price': 16.35}, {'shares': 200, 'name': 'FB', 'price': 21.09}, {'shares': 35, 'name': 'HPQ', 'price': 31.75}, {'shares': 100, 'name': 'IBM', 'price': 91.1}, {'shares': 75, 'name': 'ACME', 'price': 115.65}, {'shares': 50, 'name': 'AAPL', 'price': 543.22}]

//不规则字符串，按“小写-大写-奇数-偶数”顺序排序


s = 'asdf234GDSdsf23'


print("".join(sorted(s, key=lambda x: (x.isdigit(),x.isdigit() and int(x) % 2 == 0,x.isupper(),x))))


addffssDGS33224

//一道面试题：要求：正数在前负数在后 2.整数从小到大 3.负数从大到小


list1=[7, -8, 5, 4, 0, -2, -5]


print(sorted(list1,key=lambda x:(x<0,abs(x))))


[0, 4, 5, 7, -2, -5, -8]

用operator中的函数加快速度和进行多级排序

from operator import itemgetter, attrgetter

暂不讨论

比较三种方法的效率

只求TopN=1/BtmN=1时，比较max( )和nlargest( )两种效率

In [8]: nums=random.sample(range(1,10000),999)

In [9]: print(max(nums))

9999

In [10]: %time

CPU times: user 0 ns, sys: 0 ns, total: 0 ns

Wall time: 13.1 µs

In [11]: heapq.nlargest(1,nums)

Out[11]: [9999]

In [12]: %time

CPU times: user 0 ns, sys: 0 ns, total: 0 ns

Wall time: 14.1 µs

当K为10，N为9(即N无限接近K时)，比较了sorted( )+切片和nlargest( )两种方法的效率

In [23]: nums=random.sample(range(1,10000),10)

In [24]: sorted(nums,reverse=True)[:9]

Out[24]: [8814, 7551, 7318, 5597, 5257, 4437, 4211, 2776, 2440]

In [25]: %time

CPU times: user 0 ns, sys: 0 ns, total: 0 ns

Wall time: 11.4 µs

In [26]: heapq.nlargest(9,nums)

Out[26]: [8814, 7551, 7318, 5597, 5257, 4437, 4211, 2776, 2440]

In [27]: %time

CPU times: user 0 ns, sys: 0 ns, total: 0 ns

Wall time: 154 µs

当N较小时，比较了nlargest( )和sorted( )+切片两种方法

In [18]: nums=[16,7,3,20,17,8,-1]

In [19]: heapq.nlargest(3,nums)

Out[19]: [20, 17, 16]

In [20]: %time

CPU times: user 0 ns, sys: 0 ns, total: 0 ns

Wall time: 4.05 µs

In [21]: sorted(nums,reverse=True)[:3]

Out[21]: [20, 17, 16]

In [22]: %time

CPU times: user 0 ns, sys: 0 ns, total: 0 ns

Wall time: 5.48 µs

以上代码用到的import和show_tree( )

import math

import io

from io import StringIO

import heapq

import random

import time

from functools import wraps

def show_tree(tree, total_width=36, fill=' '):

   output =io.StringIO()     #创建stringio对象

   last_row = -1

   for i, n in enumerate(tree):  #

     if i:

       row = int(math.floor(math.log(i+1, 2)))

     else:

       row = 0

     if row != last_row:

       output.write('\n')

     columns = 2**row

     col_width = int(math.floor((total_width * 1.0) / columns))

     output.write(str(n).center(col_width, fill))

     last_row = row

   print(output.getvalue())

   print('-' * total_width)

   print(' ')

   return

参考资料

python3-cookbook-1.4-查找最大或最小元素

 详解Python中heapq模块的用法（这里有实现show_tree的函数代码）

理解堆和堆排序的文章1

理解堆和堆排序的文章2

理解堆和堆排序的文章3

python奇技淫巧——max/min函数的用法

[PY3]——求TopN/BtmN 和排序问题的解决的更多相关文章

@NamedEntityGraphs --JPA按实体类对象参数中的字段排序问题得解决方法
JPA按实体类对象参数中的字段排序问题得解决方法@Entity @Table(name="complaints") @NamedEntityGraphs({ @NamedEntit ...
第2节网站点击流项目(下)：3、流量统计分析，分组求topN
四. 模块开发----统计分析 select * from ods_weblog_detail limit 2;+--------------------------+---------------- ...
js关于对象键值为数字型时输出的对象自动排序问题的解决方法
一.对象键值为数字型时输出的对象自动排序问题如: var objs = { "1603":{id:"1603"}, "1702" ...
Hadoop学习之路（二十）MapReduce求TopN
前言在Hadoop中,排序是MapReduce的灵魂,MapTask和ReduceTask均会对数据按Key排序,这个操作是MR框架的默认行为,不管你的业务逻辑上是否需要这一操作. 技术点 MapR ...
[LeetCode]LRU Cache有个问题，求大神解答【已解决】
题目: Design and implement a data structure for Least Recently Used (LRU) cache. It should support the ...
hive求TopN语句
ROW_NUMBER,RANK(),DENSE_RANK() 先了解这三个之间的区别: Rank():1,2,2,4,5(一般用这个较多,不会影响总排名) Dense_rank():1,2,2,3,4 ...
sicily 1046. Plane Spotting（排序求topN）
DescriptionCraig is fond of planes. Making photographs of planes forms a major part of his daily lif ...
SQL分组求每组最大值问题的解决方法收集（转载）
例如有一个表student,其结构如下: id name sort score 1 张三语文 82 2 李四数 ...
生成ansible-playbook的yaml文件的代码（字典排序问题无法解决）
import yaml import collections def add_task(): return None def add_vars(): return None def add_handl ...

随机推荐

MFC学习（一）
参考: VS项目属性的一些配置项的总结(important) 1. 项目配置项目属性定制常规(General) -> 平台工具集(Platform Toolset):vs2012中默认为&q ...
poj 3468 A Simple Problem with Integers 线段树区间加，区间查询和(模板）
A Simple Problem with Integers Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://poj.org/problem?i ...
python 使用跨平台文件锁
#encoding=utf-8 print '中国' #使用跨平台文件锁 import os if os.name == 'nt': import win32con,win32file,pywinty ...
TOMCAT在POST方法提交参数丢失问题
最近写程序发现post参数接收不到了,jdk,eclipse,jar包,换了多次都不行,后来看到网上一篇文章: 随后设置Tomcat中POST方式提交数据大小: maxPostSize="0 ...
css3边角旋转
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
四，Smarty模板技术/引擎-----内建函数
内建函数是smarty提供的函数,不允许修改,只能被调用: 自定义函数是自己编写函数,注册成为smarty的函数,之后可以被调用. PHP的自建函数很多,讲解下<foreach>和< ...
Java 之多态
Java 之多态(包含封装) 基础知识: Java 在处理基本数据类型(例如int ,char,double)时,都是采用按值传递的方式执行,除此之外的其它类型都是按引用传递的方式执行.对象除了在函数 ...
关于前后台DOM树应用
Dom对象是在程序开发中很实用而且经常会应用到的技术,通过Dom对象可以传递具有树结构的对象,有利用前台页面的诸如树的显示和相应值的处理,本文从两个方面全面解析Dom对象的应用,一是从后台得到完整的D ...
python3入门之函数
相信大家学习过其他语言,懂得函数的作用.简单的说函数最好的作用就是可以使程序变得懒惰.python作为后起之秀,当然也会拥有函数这个有用的东西: 创建函数使用def语句即可创建函数,如创建一个用来生 ...
PyQt5（1）——Qt Designer初探
相关环境配置我们就不介绍了(网上有很多教程) Qt Designer 是一款十分强大的GUI工具,生成的文件为 .UI文件可以通过命令转化为Py文件,简单来说我们可以通过拖拽方式生成界面,在通过简 ...

[PY3]——求TopN/BtmN 和 排序问题的解决

需求

解决