HashTable和HashSet中的类型陷阱

发现这个陷阱的起因是这样的:我现在有上百万字符串,我准备用TopK算法统计出出现次数做多的前100个字符串。

首先我用Hashtable统计出了每个字符串出现的次数,

然后我突然发现需要用一个字典把这些字符串中无用的词过滤掉,所以我又定义了一个HashSet作为统计字典。

我最初的代码如下:

 1     Stopwatch st = new Stopwatch();//计时器
2 Hashtable queryTable = TopK.GetHashtable();//获得HashTable
3 HashSet<string> test = new HashSet<string>();
4 string path = "dic.txt";
5 if (File.Exists(path))
6 {
7
8 using (StreamReader sr = new StreamReader(path, System.Text.Encoding.Default))
9 {
10 string s = string.Empty;
11 while (!string.IsNullOrEmpty(s = sr.ReadLine()))
12 {
13 test.Add(s);
14 }
15 }
16 }//创建过滤字典
17 Hashtable queryTable2 = new Hashtable();
18 List<string> teststring = new List<string>();
19 var aa = teststring[0];
20 foreach (var key in queryTable.Keys)//对Hashtable中的key进行过滤
21 {
22
23 if (!test.Contains(key))
24 {
25 queryTable2.Add(key, queryTable[key]);
26 }
27
28 }
29 st.Stop();
30 Console.WriteLine(st.ElapsedMilliseconds);
31 Console.Read();

一眼看上去,这段代码并没有什么错误,(HashTable中有120多万字符串,字典中有11万字符串)

可是当我运行以后,竟然很久都没有出现结果,终于控制台上输出了2400000,竟然运行了2400秒!

仔细想了以后,首先加载字典不可能消耗什么时间,唯一可能消耗时间的就是这段语句了

1    foreach (var key in queryTable.Keys)//对Hashtable中的key进行过滤
2 {
3
4 if (!test.Contains(key))
5 {
6 queryTable2.Add(key, queryTable[key]);
7 }
8
9 }

test是HashSet类型,它的查找,也就是contains方法的时间复杂度应该是O(1)啊,不应该那么长时间啊,难道是var 定义的key,装箱/拆箱导致的?

然后我将var改成了string,

1       foreach (string key in queryTable.Keys)//对Hashtable中的key进行过滤
2 {
3
4 if (!test.Contains(key))
5 {
6 queryTable2.Add(key, queryTable[key]);
7 }
8
9 }

结果仅仅15秒控制台就输出了运行结果:1537

可MSDN上对var的定义是:

在方法范围中声明的变量可以具有隐式类型 var。 隐式类型的本地变量是强类型变量(就好像您已经声明该类型一样),但由编译器确定类型。

可我HashTable中的key添加的是字符串啊,然后我又找到了HashTable.add方法的原型,


1 public virtual void Add (
2 Object key,
3 Object value
4 )

真是坑啊,原来Hashtable在添加元素的时候,自动转化成了object类型

为了一探究竟,再用ILspy查看底层源代码,

找到if (!test.Contains(key))这一句

修改前

 1     IL_00a4: ldloc.s CS$5$0001
2 IL_00a6: callvirt instance object [mscorlib]System.Collections.IEnumerator::get_Current()
3 IL_00ab: stloc.s key
4 IL_00ad: nop
5 IL_00ae: ldloc.2
6 IL_00af: ldloc.s key
7 IL_00b1: call bool [System.Core]System.Linq.Enumerable::Contains<object>(class [mscorlib]System.Collections.Generic.IEnumerable`1<!!0>, !!0)
8 IL_00b6: stloc.s CS$4$0000
9 IL_00b8: ldloc.s CS$4$0000
10 IL_00ba: brtrue.s IL_00d0

由于编译器默认key为object类型,它竟然调用了IEnumerable接口的Contains方法的实现,mscorlib]System.Collections.Generic.IEnumerable`1<!!0>, !!0)

(HashSet实现了IEnumerable)也就是不断的去调用HashSet的每个元素的Equals方法和key去比较。。。

怪不得运行了那么长时间

修改后

 1             IL_00a4: ldloc.s CS$5$0001
2 IL_00a6: callvirt instance object [mscorlib]System.Collections.IEnumerator::get_Current()
3 IL_00ab: castclass [mscorlib]System.String
4 IL_00b0: stloc.s key
5 IL_00b2: nop
6 IL_00b3: ldloc.2
7 IL_00b4: ldloc.s key
8 IL_00b6: callvirt instance bool class [System.Core]System.Collections.Generic.HashSet`1<string>::Contains(!0)
9 IL_00bb: stloc.s CS$4$0000
10 IL_00bd: ldloc.s CS$4$0000
11 IL_00bf: brtrue.s IL_00d5

这时才调用了正常的HashSet的Contains实现[System.Core]System.Collections.Generic.HashSet`1<string>::Contains(!0)

时间复杂度为O(1)

仔细思考,这里还有一个陷阱就是在调用HashSet.Contains(object a)有两种实现,

第一种就是我们平时所熟悉的,调用IEnumerator的接口,把每个元素和参数a比较(调用Equals方法),判断a是否在HashSet中

第二种是泛型实现HashSet.Contains<T>(T a),T是我们再定义HashSet时指定的类型,这时候Contains才会采用哈希表的形式去查找a

而我们在使用时,如果不指定类型T  ,编译器会自动进行一次优化,编译器会判断a是否为T类型,

如果为T类型,编译器会自动调用第二种实现,如果不是,就会调用第一种

HashTable和HashSet中的类型陷阱的更多相关文章

  1. 集合Hashtable Dictionary Hashset

    #region Dictionary<K,V> Dictionary<string, Person> dict = new Dictionary<string, Pers ...

  2. HashTable、HashSet和Dictionary的区别

    今天又去面试了,结果依然很悲催,平时太过于关注表面上的东西,有些实质却不太清楚,遇到HashTable和Dictionary相关的知识,记录下来,希望对后来人有所帮助,以及对自己以后复习可以参考. 1 ...

  3. HashMap, HashTable,HashSet,TreeMap 的时间复杂度

    hashSet,hashtable,hashMap 都是基于散列函数, 时间复杂度 O(1) 但是如果太差的话是O(n) TreeSet==>O(log(n))==> 基于树的搜索,只需要 ...

  4. HashTable、HashSet和Dictionary的区别(转载)

    1.HashTable哈希表(HashTable)表示键/值对的集合.在.NET Framework中,Hashtable是System.Collections命名空间提供的一个容器,用于处理和表现类 ...

  5. C#高级应用之------HashTable、HashSet和Dictionary的区别(转)

    原文url:http://www.cnblogs.com/akwwl/p/3680376.html 今天又去面试了,结果依然很悲催,平时太过于关注表面上的东西,有些实质却不太清楚,遇到HashTabl ...

  6. JavaScript中的this陷阱的最全收集 没有之一

    当有人问起你JavaScript有什么特点的时候,你可能立马就想到了单线程.事件驱动.面向对象等一堆词语,但是如果真的让你解释一下这些概 念,可能真解释不清楚.有句话这么说:如果你不能向一个6岁小孩解 ...

  7. 转:JavaScript中的this陷阱的最全收集

    在其他地方看到的,觉得解释的狠详细,特此分享 当有人问起你JavaScript有什么特点的时候,你可能立马就想到了单线程.事件驱动.面向对象等一堆词语,但是如果真的让你解释一下这些概念,可能真解释不清 ...

  8. Java中泛型 类型擦除

    转自:Java中泛型是类型擦除的 Java 泛型(Generic)的引入加强了参数类型的安全性,减少了类型的转换,但有一点需要注意:Java 的泛型在编译器有效,在运行期被删除,也就是说所有泛型参数类 ...

  9. Lua中的类型与值

    [基础介绍] Lua是一种动态类型的语言.在语言中没有类型定义的语法,每个值都带有其自身的类型信息.在Lua中有8中基本类型,分别是: nil(空)类型 boolean(布尔)类型 number(数字 ...

随机推荐

  1. 【Android接口实现】PhotoView——单点支持/多图像缩放,实现了触摸

    转载请注明出处:http://blog.csdn.net/zhaokaiqiang1992 今天给大家介绍的开源项目,是来自Github的PhotoView项目,这个项目的主要功能是实现普通的Imag ...

  2. django中通过model名字获取model

    django1.6, 通过字符串和get_app.get_model获得对应的object 只需要两行代码: from django.db.models import get_model get_mo ...

  3. [注意事项&amp;车轮]java源代码 产生局部javadoc api档

    随着Eclipse书写java码时间,有时候,因为我们不知道java函数返回.通过鼠标移动到java该功能,假设它javadoc相关内容将被显示. 但是,并非所有java代码javadoc:连装jav ...

  4. Unity3D专访——真正的面试

    本来想写一系列的,一半的攻击,现在面试的水.人之奸,用大哥的话说,要走新手是做螺丝钉和抹布用的.还有一半是对出出学校的或者是自废武功转3d的朋友们提供一个比較有价值的參考. 只是我时间实在仓促.没有保 ...

  5. Flex 日志管理

    在Flex中调试方法有两种: 一是用trace()函数,在flex builder中进行调试: 二是用logTarget类,例如以下代码: // Create a target. var logTar ...

  6. java学习笔记1——window7下JDK环境变量配置图解

    1. 首先下载Java安装工具包   http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.ht ...

  7. 【百度地图API】如何制作孪生姐妹地图?

    原文:[百度地图API]如何制作孪生姐妹地图? 任务描述: 我想要两张一模一样的地图!我想要双子地图!我想要孪生姐妹地图! 好好好,统统满足大家! 在这里我不需要使用百度地图API提供的地图缩略图控件 ...

  8. Linq技术四:动态Linq技术 -- Linq.Expressions

    前面介绍了Linq的三个方面应用:Linq to SQL, Linq to XML和Linq to Object,这篇介绍一下动态Linq的实现方式及应用场景. 命名空间: System.Linq; ...

  9. mysql分表分库

    单库单表 单库单表是最常见的数据库设计,例如,有一张用户(user)表放在数据库db中,所有的用户都可以在db库中的user表中查到. 单库多表 随着用户数量的增加,user表的数据量会越来越大,当数 ...

  10. android学习8(ListView高级使用)

    ListView在android更开放的,于是继续ListView说明使用. 首先创建一个android项目,项目名为ListViewTest. ListView的简单使用 改动布局文件,改动后代码例 ...