java 性能优化 字符串过滤实战
转自【http://www.apkbus.com/blog-822717-78335.html】 如有不妥联系删除!!
★一个简单的需求
首先描述一下需求:
给定一个 String 对象,过滤掉除了数字(字符'0'到'9')以外的其它字符。要求时间开销尽可能小。过滤函数的原型如下:
String filter(String str);
针对上述需求,俺写了5个不同的过滤函数。为了叙述方便,函数名分别定为 filter1 到 filter5。其中 filter1 性能最差、filter5 性能最好。在看后续的内容之前,你先暗自思考一下,如果由你来实现该函数,大概会写成什么样?最好把你想好的函数写下来,便于跟俺给出的例子作对比。
★代码——循序渐进的5种实现方式
◇测试代码
为了方便测试性能,先准备好一坨测试代码,具体如下:
class Test
{
public static void main(String[] args)
{
if(args.length != 1)
{
return;
} String str = "";
long nBegin = System.currentTimeMillis();
for(int i=0; i<1024*1024; i++)
{
str = filterN(args[0]); // 此处调用某个具体的过滤函数
}
long nEnd = System.currentTimeMillis(); System.out.println(nEnd-nBegin);
System.out.println(str);
}
};
在没有想好你的实现方式之前,先别偷看后续内容哦!另外,先注明一下,俺的 Java 环境是 JDK 1.5.0-09,使用的测试字符串是随机生成的,长度32个 char,只含字母和数字。由于 JDK 版本和机器性能不尽相同,你在自己机器上测试的结果可能跟俺下面给出的数值不太一样。
◇版本1
先来揭晓性能最差的filter1,代码如下:
private static String filter1(String strOld)
{
String strNew = new String();
for(int i=0; i<strOld.length(); i++)
{
if('0'<=strOld.charAt(i) && strOld.charAt(i)<='9')
{
strNew += strOld.charAt(i);
}
}
return strNew;
}
如果你的代码不幸和 filter1 雷同,那你的 Java 功底可就是相当糟糕了,连字符串拼接需要用 StringBuffer 来优化都没搞明白。
为了和后续对比,先记下 filter1 的处理时间,大约在 8.81-8.90秒 之间。
◇版本2
再来看看 filter2,代码如下:
private static String filter2(String strOld)
{
StringBuffer strNew = new StringBuffer();
for(int i=0; i<strOld.length(); i++)
{
if('0'<=strOld.charAt(i) && strOld.charAt(i)<='9')
{
strNew.append(strOld.charAt(i));
}
}
return strNew.toString();
}
其实刚才在评价 filter1 的时候,已经泄露了 filter2 的天机。filter2 通过使用 StringBuffer 来优化连接字符串的性能。为什么 StringBuffer 连接字符串的性能比 String 好,这个已经是老生常谈,俺在这儿就不细说啦。尚不清楚的同学自己上 Google 一查便知。估计应该有挺多同学会写出类似 filter2 的代码。
有些同学可能会问:为啥不用 StringBuilder?
确实,在 JDK 1.5 新增加了 StringBuilder 这个类,其性能会比 StringBuffer 更好。不过捏,考虑到有可能要拿到其它版本的 JDK 上作对比测试,而且 StringBuilder 和 StringBuffer 之间的差异【不是】本文讨论的重点,所以后面的例子都使用 StringBuffer 来实现。
filter2 的处理时间大约为 2.14-2.18秒,提升了大约4倍。
◇版本3
接着看看 filter3,代码如下:
private static String filter3(String strOld)
{
StringBuffer strNew = new StringBuffer();
int nLen = strOld.length();
for(int i=0; i<nLen; i++)
{
char ch = strOld.charAt(i);
if('0'<=ch && ch<='9')
{
strNew.append(ch);
}
}
return strNew.toString();
}
乍一看,filter3 和 filter2 的代码差不多嘛!再仔细瞧一瞧,原来先把 strOld.charAt(i) 赋值给 char 变量,节省了重复调用 charAt() 方法的开销;另外把 strOld.length() 先保存为 nLen,也节省了重复调用 length() 的开销。能想到这一步的同学,估计是比较细心的。
经过此一优化,处理时间节省为 1.48-1.52秒,提升了约30%。由于 charAt() 和 length() 的内部实现都挺简单的,所以提升的性能不太明显。
另外补充一下,经网友反馈,在 JDK 1.6 上,filter3 和 filter2 的性能基本相同。俺估计:可能是因为 JDK 1.6 在编译时已经进行了相关的优化。
◇版本4
然后看看 filter4,代码如下:
private static String filter4(String strOld)
{
int nLen = strOld.length();
StringBuffer strNew = new StringBuffer(nLen);
for(int i=0; i<nLen; i++)
{
char ch = strOld.charAt(i);
if('0'<=ch && ch<='9')
{
strNew.append(ch);
}
}
return strNew.toString();
}
filter4 和 filter3 差别也很小,唯一差别就在于调用了 StringBuffer 带参数的构造函数。通过 StringBuffer 的构造函数设置初始的容量大小,可以有效避免 append() 追加字符时重新分配内存,从而提高性能。
filter4 的处理时间大约在 1.33-1.39秒,约提高10%左右。可惜提升的幅度有点小 :-(
◇版本5
最后来看看“终极版本”——性能最好的 filter5。
private static String filter5(String strOld)
{
int nLen = strOld.length();
char[] chArray = new char[nLen];
int nPos = 0;
for(int i=0; i<nLen; i++)
{
char ch = strOld.charAt(i);
if('0'<=ch && ch<='9')
{
chArray[nPos] = ch;
nPos++;
}
}
return new String(chArray, 0, nPos);
}
猛一看,你可能会想:这个 filter5 和前几个版本的差别也忒大了吧!filter5 既没有用 String 也没有用 StringBuffer,而是拿字符数组进行中间处理。
filter5 的处理时间,只用了0.72-0.78秒,相对于 filter4 提升了将近50%。为啥捏?是不是因为直接操作字符数组,节省了 append(char) 的调用?通过查看 append(char) 的源代码,内部的实现很简单,应该不至于提升这么多。
那是什么原因捏?
首先,虽然 filter5 有一个字符数组的创建开销,但是相对于 filter4 来说,StringBuffer 的构造函数内部也会有字符数组的创建开销。两相抵消。所以 filter5 比 filter4 还多节省了 StringBuffer 对象本身的创建开销。(在俺的 JDK 1.5 环境中,这个因素比较明显)
其次,由于 StringBuffer 是线程安全的(它的方法都是 synchronized),因此调用它的方法有一定的同步开销,而字符数组则没有,这又是一个性能提升的地方。(经热心读者反馈,此因素在 JDK 1.6 中比较明显)
基于上述两个因素,所以 filter5 比 filter4 又有较大幅度的提升。
★对于5个版本的总结
上述5个版本,filter1 和 filter5 的性能相差约12倍(已经超过一个数量级)。除了 filter3 相对于 filter2 是通过消除函数重复调用来提升性能,其它的几个版本都是通过节省内存分配,降低了时间开销。可见内存分配对于性能的影响有多大啊!
★一点补充说明,关于时间和空间的平衡
另外,需要补充说明一下。版本4和版本5使用了空间换时间的手法来提升性能。假如被过滤的字符串【很大】,并且数字字符的比例【很低】,这种方式就不太合算了。
举个例子:被处理的字符串中,绝大部分都只含有不到10%的数字字符,只有少数字符串包含较多的数字字符。这时候该怎么办捏?
对于 filter4 来说,可以把 new StringBuffer(nLen); 修改为 new StringBuffer(nLen/10); 来节约空间开销。但是 filter5 就没法这么玩了。
所以,具体该用“版本4”还是“版本5”,要看具体情况了。只有在你【非常】看重时间开销,且数字字符比例很高(至少大于50%)的情况下,用 filter5 才合算。否则的话,建议用 filter4。
java 性能优化 字符串过滤实战的更多相关文章
- Java 性能优化技巧及实战
关于Java代码的性能优化,是每个javaer都渴望掌握的本领,进而晋升为大牛的必经之路,但是对java的调优需要了解整个java的运行 机制及底层调用细节,需要多看多读多写多试,并非一朝一夕之功.本 ...
- Java性能优化技巧及实战
关于Java代码的性能优化,是每个javaer都渴望掌握的本领,进而晋升为大牛的必经之路,但是对java的调优需要了解整个java的运行机制及底层调用细节,需要多看多读多写多试,并非一朝一夕之功.本文 ...
- java性能优化--字符串优化处理
String对象 String对象是java中重要的数据类型,在大部分情况下我们都会用到String对象.其实在Java语言中,其设计者也对String做了大量的优化工作,这些也是String对象的特 ...
- 《Java性能优化权威指南》
<Java性能优化权威指南> 基本信息 原书名:Java performance 原出版社: Addison-Wesley Professional 作者: (美)Charlie Hunt ...
- AJPFX浅谈Java 性能优化之垃圾回收(GC)
★JVM 的内存空间 在 Java 虚拟机规范中,提及了如下几种类型的内存空间: ◇栈内存(Stack):每个线程私有的.◇堆内存(Heap):所有线程公用的.◇方法区(Method Area):有点 ...
- Java 性能优化之 String 篇
原文:http://www.ibm.com/developerworks/cn/java/j-lo-optmizestring/ Java 性能优化之 String 篇 String 方法用于文本分析 ...
- 推荐:Java性能优化系列集锦
Java性能问题一直困扰着广大程序员,由于平台复杂性,要定位问题,找出其根源确实很难.随着10多年Java平台的改进以及新出现的多核多处理器,Java软件的性能和扩展性已经今非昔比了.现代JVM持续演 ...
- Java 性能优化手册 — 提高 Java 代码性能的各种技巧
转载: Java 性能优化手册 - 提高 Java 代码性能的各种技巧 Java 6,7,8 中的 String.intern - 字符串池 这篇文章将要讨论 Java 6 中是如何实现 String ...
- JVM——九大工具助你玩转Java性能优化
本文转载自 http://www.importnew.com/12324.html 本文由 ImportNew - 陈 晓舜 翻译自 idrsolutions.欢迎加入翻译小组.转载请参见文章末尾的要 ...
随机推荐
- 【VC版】如何获取其他进程中ListView控件中的内容
如果需要C#版的,可以看下我之前写的:C#如何获取其他程序ListView控件中的内容 获取其他进程的数据需要使用到以下几个函数: VirtualAllocEx() VirtualFreeEx() W ...
- Azure Storage架构介绍
Windows Azure Storage由三个重要部分或者说三种存储数据服务组成,它们是:Windows Azure Blob.Windows Azure Table和Windows Azure Q ...
- ASP.NET Core 中使用 GrayLog 记录日志
使用 UDP 协议发送日志 自定义好的查询 key 存储数据,尽量不要使用 graylog2-server 服务端格式化日志再存储 Ubuntu 安装服务端 sudo apt-get update & ...
- CodeSmith读取数据库
这两天在看CodeSmith文档,因为官方文档在读数据库这一篇使用的是VB写的,对于C#使用者来说看起来很不方便,所以我改成C#的,顺便写下我自己的使用过程. 首先,要使用CodeSmith连接数据库 ...
- 分析Item
分析Item例子1: class Parent { /* <init>() { super(); // JCES树节点,Item(void) px = 0; // JCES树节点,Assi ...
- Java并发编程-ReentrantLock源码分析
一.前言 在分析了 AbstractQueuedSynchronier 源码后,接着分析ReentrantLock源码,其实在 AbstractQueuedSynchronizer 的分析中,已经提到 ...
- golang三方包应该如何安装--在线和离线
一 在线安装 采用go get的方式安装import 的时候找不到对应的包看看pkg里面有没有 二 离线安装 redis客户端采用git clone的方法安装的话可以用以下方法 cd src git ...
- JAVA WEB 过滤器(Filter)中向容器 Spring 注入 bean
如果直接使用 @Autoware 获取 bean 会直接使该 bean 为 null,这是因为这种配置过滤器的方法无法在过滤器中使用 Spring bean,因为 Filter 比 bean 先加载, ...
- V8源码边缘试探-黑魔法指针偏移
这博客是越来越难写了,参考资料少,难度又高,看到什么写什么吧! 众多周知,在JavaScript中有几个基本类型,包括字符串.数字.布尔.null.undefined.Symbol,其中大部分都可以在 ...
- 4.3.6 对象的界定通过编写接口来访问带这类命名结构的表会出问题。如前所述,SQL Server的灵活性不应用作编写错误代码或创建问题对象的借口。 注意在使用Management Studio的脚本工具时,SQL Server会界定所有的对象。这不是因为这么做是必须的,也不是编写代码的最佳方式,而是因为在界定符中封装所有的对象,比编写脚本引擎来查找需要界定的对象更容易。
如前所述,在创建对象时,最好避免使用内嵌的空格或保留字作为对象名,但设计人员可能并没有遵守这个最佳实践原则.例如,我当前使用的数据库中有一个审核表名为Transaction,但是Transaction ...