Java实现的高效计数器
本文转载地址:
http://blog.csdn.net/snarlfuture/article/details/17049731
在统计来自数据库或文本中某些内容的频率时,你可能经常会用到HashMap。本文对比了三种用HashMap实现的计数器。
1. 简单的计数器
如果你使用这样一个计数器,你的代码可能如下:
- String s = "one two three two three three";
- String[] sArr = s.split(" ");
- //naive approach
- HashMap<String, Integer> counter = new HashMap<String, Integer>();
- for(String a : sArr) {
- if(counter.containsKey(a)) {
- int oldValue = counter.get(a);
- counter.put(a, oldValue+1);
- } else {
- counter.put(a, 1);
- }
- }
每次循环,你都要判断键(key)是否存在。如果该键存在,你需要键对应的值加1,否则,这设置对应的值为1。该方法看起来简单而直接,但它并不是最有效率的方法,它在如下方面欠考虑:
① 如果键(key)已经存在的话,containsKey()、get()就会方法被调用两次,这意味着要搜索map两次;
② 由于整数(Integer)是不可变的,每次循环都会创建一个新的整数对象保存新的计数值。
2. 改进的计数器
自然而然的,我们希望用一个可变的整数值来避免创建过多的整数对象。因此,可以定义一个可变整数类,如下所示:
- class MutableInteger {
- private int val;
- public MutableInteger(int val) {
- this.val = val;
- }
- public int get() {
- return val;
- }
- public void set(int val) {
- this.val = val;
- }
- //used to print value convinently
- public String toString() {
- return Integer.toString(val);
- }
- }
改进后的计数器如下所示:
- HashMap<String, MutableInteger> newCounter = new HashMap<String, MutableInteger>();
- for(String a : sArr) {
- if(newCounter.containsKey(a)) {
- MutableInteger oldValue = newCounter.get(a);
- oldValue.set(oldValue.get() + 1);
- } else {
- newCounter.put(a, new MutableInteger(1));
- }
- }
改进后的计数器无需创建大量的整数(Integer)对象,效率有所提高,但是它还有没有解决的问题:当键(key)存在时需要搜索两次map。
3. 高效的计数器
HashMap.put(key, value)方法返回键(key)对应的值。这个方法很有用,我们可以直接使用旧值的引用来更新值,而不需要再多进行一次搜索。
- HashMap<String, MutableInteger> efficientCounter = new HashMap<String, MutableInteger>();
- for(String a : sArr) {
- MutableInteger initValue = new MutableInteger(1);
- MutableInteger oldValue = efficientCounter.put(a, initValue);
- if(oldValue != null) {
- initValue.set(oldValue.get() + 1);
- }
- }
4. 性能差异
可以使用下面的代码来测试上述三种方法在性能上的差异。性能测试循环次数为1百万次,实验结果如下所示:
- Naive Approach : 222796000
- Better Approach: 117283000
- Efficient Approach: 96374000
三种方法在性能上的差异是十分显著的:223 vs. 117 vs. 96。最原始的计数器和优化后的计数器之间的性能差异十分明显,这意味着创建对象的开销是十分昂贵的。
- String s = "one two three two three three";
- String[] sArr = s.split(" ");
- long startTime = 0;
- long endTime = 0;
- long duration = 0;
- // naive approach
- startTime = System.nanoTime();
- HashMap<String, Integer> counter = new HashMap<String, Integer>();
- for (int i = 0; i < 1000000; i++)
- for (String a : sArr) {
- if (counter.containsKey(a)) {
- int oldValue = counter.get(a);
- counter.put(a, oldValue + 1);
- } else {
- counter.put(a, 1);
- }
- }
- endTime = System.nanoTime();
- duration = endTime - startTime;
- System.out.println("Naive Approach : " + duration);
- // better approach
- startTime = System.nanoTime();
- HashMap<String, MutableInteger> newCounter = new HashMap<String, MutableInteger>();
- for (int i = 0; i < 1000000; i++)
- for (String a : sArr) {
- if (newCounter.containsKey(a)) {
- MutableInteger oldValue = newCounter.get(a);
- oldValue.set(oldValue.get() + 1);
- } else {
- newCounter.put(a, new MutableInteger(1));
- }
- }
- endTime = System.nanoTime();
- duration = endTime - startTime;
- System.out.println("Better Approach: " + duration);
- // efficient approach
- startTime = System.nanoTime();
- HashMap<String, MutableInteger> efficientCounter = new HashMap<String, MutableInteger>();
- for (int i = 0; i < 1000000; i++)
- for (String a : sArr) {
- MutableInteger initValue = new MutableInteger(1);
- MutableInteger oldValue = efficientCounter.put(a, initValue);
- if (oldValue != null) {
- initValue.set(oldValue.get() + 1);
- }
- }
- endTime = System.nanoTime();
- duration = endTime - startTime;
- System.out.println("Efficient Approach: " + duration);
当你使用计数器时,你可能需要使用一个方法来根据值(value)对map进行排序,对此,你可以参照文章《HashMap中常用的方法》
5. Keith的评论(如下所示)
下面是我收到的最好的评论之一。
添加下面一系列测试:
1) 重构上述”改进的计数器“,用get()方法来替换containsKey()方法。通常,所需的元素都在HashMap中,因此可以将搜索次数从两次减少到一次。
2) Michal提到了AtuomicInteger,下面也进行了相关的试验。
3) 与单例的int数组相比,http://amzn.com/0748614079中提到这可能会使用更少的内存。
我运行了测试程序3x次,争取每次对代码的改变都最小。需要注意的是,你可能无法做到在程序中做到上述改动,或者试验结果受影响较大,原因可能是垃圾回收期。
- Naive: 201716122
- Better Approach: 112259166
- Efficient Approach: 93066471
- Better Approach (without containsKey): 69578496
- Better Approach (without containsKey, with AtomicInteger): 94313287
- Better Approach (without containsKey, with int[]): 65877234
改进的计数器(不使用containsKey()):
- HashMap<string, mutableinteger=""> efficientCounter2 = new HashMap<string, mutableinteger="">();
- for (int i = 0; i < NUM_ITERATIONS; i++)
- for (String a : sArr) {
- MutableInteger value = efficientCounter2.get(a);
- if (value != null) {
- value.set(value.get() + 1);
- } else {
- efficientCounter2.put(a, new MutableInteger(1));
- }
- }
改进的计数器(不使用containskey(),使用AtomicInteger):
- HashMap<string, atomicinteger=""> atomicCounter = new HashMap<string, atomicinteger="">();
- for (int i = 0; i < NUM_ITERATIONS; i++)
- for (String a : sArr) {
- AtomicInteger value = atomicCounter.get(a);
- if (value != null) {
- value.incrementAndGet();
- } else {
- atomicCounter.put(a, new AtomicInteger(1));
- }
- }
改进的计数器(不使用containsKey(),使用int[]):
- HashMap<string, int[]=""> intCounter = new HashMap<string, int[]="">();
- for (int i = 0; i < NUM_ITERATIONS; i++)
- for (String a : sArr) {
- int[] valueWrapper = intCounter.get(a);
- if (valueWrapper == null) {
- intCounter.put(a, new int[] { 1 });
- } else {
- valueWrapper[0]++;
- }
- }
Guava的MultiSet可能更快。
6. 总结
性能最高的是使用int数组的那个方法。
Java实现的高效计数器的更多相关文章
- 要学Java,怎么高效地学习,怎么规划
要学Java,怎么高效地学习,怎么规划? 题主是一个个例,99%的人(包括我自己)都没有题主这样的经历,也很难提出具有很强参考性的java学习建议.我倒是之前面试过一个跟题主有点类似的人,拿出来分 ...
- 一种从JSON数据创建Java类的高效办法
<一种从JSON数据创建Java类的高效办法> 作者:chszs,转载需注明.博客主页:http://blog.csdn.net/chszs JSON格式的数据经常会遇到,比如调用Web服 ...
- 在java中构建高效的结果缓存
文章目录 使用HashMap 使用ConcurrentHashMap FutureTask 在java中构建高效的结果缓存 缓存是现代应用服务器中非常常用的组件.除了第三方缓存以外,我们通常也需要在j ...
- 《深入了解java虚拟机》高效并发读书笔记——Java内存模型,线程,线程安全 与锁优化
<深入了解java虚拟机>高效并发读书笔记--Java内存模型,线程,线程安全 与锁优化 本文主要参考<深入了解java虚拟机>高效并发章节 关于锁升级,偏向锁,轻量级锁参考& ...
- Java高效计数器
本文转载地址: http://blog.csdn.net/renfufei/article/details/14120775 我们经常使用 HashMap作为计数器(coun ...
- 161101、在Java中如何高效判断数组中是否包含某个元素
如何检查一个数组(无序)是否包含一个特定的值?这是一个在Java中经常用到的并且非常有用的操作.同时,这个问题在Stack Overflow中也是一个非常热门的问题.在投票比较高的几个答案中给出了几种 ...
- 在Java中如何高效的判断数组中是否包含某个元素
原文出处: hollischuang(@Hollis_Chuang) 如何检查一个数组(无序)是否包含一个特定的值?这是一个在Java中经常用到的并且非常有用的操作.同时,这个问题在Stack Ove ...
- java中如何高效的判断数组中是否包含某个元素---
package zaLearnpackage; import org.apache.commons.lang3.ArrayUtils; import java.util.Arrays; import ...
- java 实现新浪微博内容计数器 Java问题通用解决代码
http://www.mr3g.net/?p=220 参考sina的js版本而来,费弄最多的时间就是java对ansii码的判断了,js直接就是isascii()函数就可以实现了,java还要想办法 ...
随机推荐
- 手机自动化测试:appium源码分析之bootstrap十三
手机自动化测试:appium源码分析之bootstrap十三 poptest(www.poptest.cn)是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开 ...
- Android内存优化之OOM
内容大多都是和OOM有关的实践总结概要.理解错误或是偏差的地方,还请多包涵指正,谢谢!本人Q:1524447071 (一)Android的内存管理机制 Google在Android的官网上有这样一篇文 ...
- 转接IC整理汇总 转接芯片大全
转接口IC大全,信号转换大全EDP输出信号NCS8801 LVDS转EDP.RGB转EDP 封装QFN56 最大分辨率2560*1600用于手机.平板.转接板.液晶驱动板.广告机.可视门铃等等控制器到 ...
- 奇葩问题:同样的字符串equal为false
问题:什么情况下 "同样" 的字符串会不equal呢?例如 "a".equal("a") => false 在你看来,这可能是个 ...
- ios GCD简单介绍 后台运行~
本从实践出发简单说明: 首先,gcd是Grand Central Dispatch的缩写,意为多线程优化技术,是苹果为多核处理优化的技术.使用简单.清晰. 多线程就分同步.异步方法如下: //异步线程 ...
- 《Python自然语言处理》第二章-习题解答-练习6
问题描述:在比较词表的讨论中,创建一个对象叫做translate,通过它你可以使用德语和意大利语词汇查找对应的英语词汇.这种方法可能会出现什么问题,你能提出一个办法来避免这个问题吗? 虽然这是一道初级 ...
- Java集合的区别和选择
Collection |--List 有序,可重复 |--ArrayList 底层数据结构是数组,查询快,增删慢. 线程不安全,效率高 |--Vector 底层数据结构 ...
- 3.QT5.8支持中文输入法(附带老版本的解决+不理想的情况解决)
安装过程:http://www.cnblogs.com/dotnetcrazy/p/6725945.html 用了QT发现,中文输入法不能输入...一开始以为是输入法问题,后来发现,其他地方都可以中文 ...
- JavaScript的XMLHttpRequest对象
ajax的核心技术是XMLHttpRequest对象,简称XHR. //支持IE7及更高的版本 function createXML() { if(typeof XMLHttpReqquest!=&q ...
- Entity Framework查询注意
首先我们看下where的方法,直接查看定义(定义如下),其实一种是对IEnumerable的扩展,一种是对IQueryable的扩展,直接看最常用的,其实区别就在IEnumerable的扩展的参数是系 ...