使用Counter进行计数统计
使用Counter进行计数统计
想必大家对计数统计都不陌生吧!,简单的说就是统计某一项出现的次数。实际应用中很多需求都需要用到这个模型,如检测样本中某一值出现的次数、日志分析某一消息出现的频率分析文件中相同字符串出现的概率等。这类似的需求有很多种实现方法。我们逐一来看一下使用不同数据结构是的实现方式
一、使用dict
首先来看看dict这种方法实现,废话不多说,先看看这个小小的骚操作,后面的操作会让你大大底爽一下,彻底的让你满足,请看表演:
some_data = ['a', '2', 2, 4, 5, '2', 'b', 4, 7, 'a', '5', 'd', 'a', 'z'] # 创建列表
count_frq = dict() # 创建列表
# 词频统计
for item in some_data:
if item in count_frq:
count_frq[item] += 1
else:
count_frq[item] = 1
print(count_frq)
结果:
{'a': 3, '2': 2, 2: 1, 4: 2, 5: 1, 'b': 1, 7: 1, '5': 1, 'd': 1, 'z': 1}
二、使用set和list方法
再看看这个常用的小方法
some_data = ['a', '2', 2, 4, 5, '2', 'b', 4, 7, 'a', '5', 'd', 'a', 'z']
count_set = set(some_data) # 去重
count_list = []
for item in count_set:
count_list.append((item, some_data.count(item))) # 添加
print(count_list)
结果:
[('5', 1), (2, 1), ('2', 2), (4, 2), (5, 1), (7, 1), ('a', 3), ('z', 1), ('b', 1), ('d', 1)]
三、collections使用
上面的方法都比较简单,但有没有更优雅,更骚气的,更Pythonic的解决方法呢?请看下面的引入defaultdict
1.1 defaultdict
from collections import defaultdict
some_data = ['a', '2', 2, 4, 5, '2', 'b', 4, 7, 'a', '5', 'd', 'a', 'z']
count_frq = defaultdict(int) # defaultdict(int)
# 统计计数
for item in some_data:
count_frq[item] += 1
print(count_frq)
结果:
dict_items([('a', 3), ('2', 2), (2, 1), (4, 2), (5, 1), ('b', 1), (7, 1), ('5', 1), ('d', 1), ('z', 1)])
1.2 Counter
Counter 类是自Python2.7起增加的,属于字典类的子类,是一个容器对象,主要用来统计# 散列对象,支持集合操作 +、-、&、|,其中&和|操作分别返回两个Counter对象各元素# 的最大值和最小值。他提供3中不同的方式来初始化,正点来了,看看这个神奇的操作,代码行度大大缩减:
from collections import Counter
some_data = ['a', '2', 2, 4, 5, '2', 'b', 4, 7, 'a', '5', 'd', 'a', 'z']
count_counter = Counter(some_data) # 统计
print(count_counter) # 结果就出来,就问你强不强
结果:
Counter({'a': 3, '2': 2, 4: 2, 2: 1, 5: 1, 'b': 1, 7: 1, '5': 1, 'd': 1, 'z': 1})
- Counter不仅可以对列表就行统计,他可以对任何可以迭代的对象进行统计如下:
可迭代的对象字符串
Counter("success") # 可迭代对象
print(Counter("success"))结果:
Counter({'s': 3, 'c': 2, 'u': 1, 'e': 1})
关键字参数
Counter(s=3, c=2, e=1, u=1) # 关键字参数
print(Counter(s=3, c=2, e=1, u=1))
结果:
Counter({'s': 3, 'c': 2, 'e': 1, 'u': 1})
- 字典
Counter({'s': 3, 'c': 2, 'e': 1, 'u': 1})
print(Counter({'s': 3, 'c': 2, 'e': 1, 'u': 1}))
结果:
Counter({'s': 3, 'c': 2, 'e': 1, 'u': 1})
可以使用elements()方法获取Counter中的key值
print(list(Counter(some_data).elements())) # 根据值打印key的次数
结果:
['a', 'a', 'a', '2', '2', 2, 4, 4, 5, 'b', 7, '5', 'd', 'z']
看看一个更骚气的方法,利用most_commo()方法可以找前N个出现频率最高的元素以及他们对应的次数。
count = Counter(some_data).most_common(2) # 获取前两个频率最高
print(count)
结果:
[('a', 3), ('2', 2)]
当访问不存在的元素是,默认返回0而不是抛出keyError异常
print(Counter(some_data)["y"])
结果:
0
update()方法用于被统计对象元素的更新,原有Counter计数器对象与新增元素的统计计数值相加而不是直接替换她们
c = Counter("success")
print(c)
结果:
Counter({'s': 3, 'c': 2, 'u': 1, 'e': 1})
在此基础上进行更新
c.update("successfully") print(c)
Counter({'s': 6, 'c': 4, 'u': 3, 'e': 2, 'l': 2, 'f': 1, 'y': 1})
subtract()方法用于实现计数器对象中元素统计值相减,输入输出的统计值允许为0或者负数(在更新的基础上进行相减)
c = Counter("success")
print(c)
结果:
Counter({'s': 3, 'c': 2, 'u': 1, 'e': 1, 'f': 0, 'l': 0, 'y': 0})
用兴趣的可以自己研究下哦!
使用Counter进行计数统计的更多相关文章
- python之计数统计
前言: 计数统计,简单的说就是统计某一项出现的次数.实际应用中很多需求都需要用到这个模型,如检测样本中某一值出现的次数.日志分析某一消息出现的频率.分析文件中相同字符串出现的概率等等.以下是实现的不同 ...
- 利用CSS计数函数counter()实现计数
要实现li列表计数比较简单,直接设置list-style-type即可,但是要实现非li列表计数该怎么办呢,counter()可以轻松实现 body{counter-reset:section 0 s ...
- Log4j/Log4j2自定义Appender来实现日志级别计数统计及监控
一.简述 本文主要讲如何基于Log4j2来实现自定义的Appender.一般用途是用于Log4j2自带的Appender不足以满足我们的需求,或者需要我们对日志进行拦截统计等操作时,需要我们自定义Ap ...
- Counter的数据统计功能
Counter是dict的子类,一般用于统计,默认排序是从大到小 from collections import Counter # 输入iterable对象即可 str_counter = Coun ...
- 利用Python的collections包下Counter的类统计每个数据出现的个数
from collections import Counter a = [1, 2, 3, 1, 1, 2] result = Counter(a) print result 输出: {1: 3, 2 ...
- 【Spark】Spark-shell案例——单词计数统计
目录 步骤 一.准备本地文件以作测试 二.通过 --master启动本地模式 三.开发scala单词统计代码 步骤 一.准备本地文件以作测试 在第一台机器执行 mkdir -p /export/ser ...
- python 黑魔法收集--已结
awesome python 中文大全 Fabric , pip, virtualenv 内建函数好文 awesome python 奇技淫巧 一句话求阶乘 from functools import ...
- 摘选改善Python程序的91个建议
1.理解Pythonic概念 Pythonic Tim Peters 的 <The Zen of Python>相信学过 Python 的都耳熟能详,在交互式环境中输入import thi ...
- 给大家一些改善 Python 程序的 91 个建议
读了一本还不错的书「编写高质量代码改善 Python 程序的 91 个建议」,大多数的建议是真心不错,我虽然写python也有3年多了,但是有些地方确实没去注意过,特地整理了一下,给大家参考. 我已经 ...
随机推荐
- python基础一整型、bool、字符串
1整型.bool.字符串 1.整型 --数字(int) 用于比较运算的 32位 -2 ** 31 ~ 2 ** 31 -1 64位 -2 ** 63 ~ 2 ** 63 -1 基础运算 ...
- jQuery甘特图/日程图/横道图/插件
基于JQ的一款灵活高效,支持自定义拓展的甘特图/日程图插件 支持月/周/小时等显示方式 支持拖动改变时间 展开与收起 添加/删除,刷新 节假日高亮 clicked,dblClicked,changed ...
- 我狠起来连自己都打---如何简单实现Azure resource自动打标签
你是否还在为花费大量Azure Resource打标签而烦恼呢?你是否还在因为这样低效的重复劳动而痛苦呢? 在很长一段时间内,笔者既要做云架构调整,又要做日常系统维护,还要参与各种各样的项目,在这种情 ...
- E-R图怎么绘制
E-R图中主要涉及到的元素有: 实体:用长方形表示 关联关系:用菱形表示 属性:用椭圆表示 参考一个例子:
- linux初学者-磁盘分区方式篇
linux初学者-磁盘分区方式篇 一般的计算机都会采用mbr分区方式,这种分区方式只能够建立四个主分区,如果还需要或更多的分区,就需要将其中一个主分区建立成一个扩展分区,在里面建立逻辑分区,这些分区信 ...
- [学习笔记] pymysql入门
一.快速开始 对于会用MySQL的朋友来说,开始使用pymysql可以说真的so esay,只要用下面的代码,把想要对数据库的操作放在 sql = " " 里就可以了. 没有接触过 ...
- HPU暑期集训积分赛2
A. 再战斐波那契 单点时限: 1.0 sec 内存限制: 512 MB 小z 学会了斐波那契和 gcd 后,老师又给他出了个难题,求第N个和第M个斐波那契数的最大公约数,这可难倒了小z ,不过在小z ...
- Windows 使用 helm3 和 kubectl
简介: 主要原因是,我不会 vim ,在 linux 上修改 charts 的很蹩脚,所以就想着能不能再 windows 上执行 helm 命令,将 charts install linux 上搭建的 ...
- Calico 网络通信原理揭秘
Calico 是一个纯三层的数据中心网络方案,而且无缝集成像 OpenStack 这种 Iaas 云架构,能够提供可控的 VM.容器.裸机之间的 IP 通信.为什么说它是纯三层呢?因为所有的数据包都是 ...
- 理解SVG中的 viewport,viewBox, preserveAspectRatio
_ 阅读目录 一:理解viewport 二:理解viewBox 三:理解 preserveAspectRatio 回到顶部 一:理解viewport 该属性表示的是SVG可见区域的大小.或者也可以叫画 ...