【学习笔记】C#中HashTable和快速排序的用法,从单词频率统计小程序写起
先瞎扯点别的。进入这个神圣的地方总需要些鞭策,阿西巴,我是被鞭策进来摆摊的程序猿。软件工程老师说,写程序,发博客,就来博客园。这是个号召力很强的口号。最近看网络营销 搜索引擎优化的书多一些,只能说王老师真的很厉害,至少在这一周因为这个作业的原因,我们学校的程序猿们对各大程序网站访问猛然骤增,网站流量,点击价值当然也是不菲,不过流量转化率就不好说了,当然了,三年多了都这样。再插一句,Google确实比百度做得好(其实只有中国用百度),SEO优化做的很到位,最近推出的“蜂鸟算法”也很棒,因为关键词明显好找么。
好了,言归正传了。
题目主要是写一个程序,分析一个文本文件(英文文章)中各个词出现的频率,并且把频率最高的10个词打印出来。
自从周四拿到题目以后,发现又要用到万恶的数据结构了,不得不说这是我的短板,所有上周20号到22号一直在看数据结构的书,当然还有google,在看书的期间确定了这个小程序编码的思路。
1.首先进行文本文件的读取,将一个一个的单词分离出来,并对单词进行统计;
2.然后对单词出现的次数进行排序;
3.最后把频率最高的10个词打印出来。
整理好思路以后,在23号的中午我终于准备拯救世界了,当然,我们宿舍的其他三位大神已经写完。。好了,不提我伤心的事了~~
经过分析后,主要就是解决两个算法的问题,
(1).查找问题:统计出所有出现的单词以及他们出现的次数,这个方法挺多的,这次主要用了Hashtable,速度快,方便。
在.NET Framework中,Hashtable是System.Collections命名空间提供的一个容器,用于处理和表现类似keyvalue的键值对,其中key通常可用来快速查找,同时key是区分大小写;value用于存储对应于key的值。Hashtable中keyvalue键值对均为object类型,所以Hashtable可以支持任何类型的keyvalue键值对.
下面的代码getAllWords和CountWord分别统计出了所有出现的单词以及他们出现的次数。并且用控制台和文件输出两种方式输出。
1.首先是计算单词的次数。
这里主要用到Hashtable 中各元素的虚拟子组存储桶,每一存储桶都与一个哈希代码关联,该哈希代码是使用哈希函数生成的并基于该元素的键key.并且把分割的所有的单词存放到一个名为List<WordInfo>的集合类中,最后用allWordInfos.Add(new WordInfo(key, (int)allWords[key]));在哈希表中添加了一个keyvalue键值对,为每一唯一键生成唯一哈希代码的哈希函数使得搜索性能更佳。
public void CountWord(string inputFilePath, string outputFilePath)
{
Hashtable allWords = getAllWords(inputFilePath);
List<WordInfo> allWordInfos = new List<WordInfo>();
foreach (string key in allWords.Keys)
{
allWordInfos.Add(new WordInfo(key, (int)allWords[key]));
}
qucikSort(allWordInfos, , allWordInfos.Count - );
writeToFile(allWordInfos, outputFilePath);
}
2.然后是统计出了所有出现的单词
在分析过程中发现还需要特别注意' ', ',', ';', '.', '!', '"'这些符号,所以在读取字节的时候用到了StreamReader的方法,主要是使其以一种特定的编码从字节流中读取字节。然后将读出来的字符串做处理,分成一个个的单词,然后就把所有英文单词对象添加到 Hashtable 的存储桶中,该存储桶与匹配该对象的哈希代码的哈希代码关联。在 Hashtable 内搜索一个值时,将为该值生成哈希代码,并且搜索与该哈希代码关联的存储桶。使得搜索效率变得很高。
private Hashtable getAllWords(string filePath)
{
Hashtable allWords = new Hashtable();
using (StreamReader sr = new StreamReader(filePath, Encoding.Default))
{
string line = null; char[] seperators = new char[] { ' ', ',', ';', '.', '!', '"' };
string[] words = null;
while ((line = sr.ReadLine()) != null)
{
line = line.ToLower();
words = line.Split(seperators, StringSplitOptions.RemoveEmptyEntries);
if (words != null && words.Length > )
{
for (int i = ; i < words.Length; i++)
{
if (allWords.ContainsKey(words[i]))
{
allWords[words[i]] = (int)allWords[words[i]] + ;
}
else
{
allWords.Add(words[i], );
}
}
}
}
}
return allWords;
}
这个程序第二个问题就是
(2)排序问题,在这里用到了快速排序。
具体思路就是
1.分别设置low、hight指向序列的最左端、最右端;从序列中选一个进行排序(通常选最左端的值low指向的值),存入到value;
2.从hight端开始,查找比value小的,找到后讲该值放入到low指向的存储位中;同时将hight指向当前查到的值所在的位;
3.从low端开始,查找比value大的,找到后将该值放入到hight指向的存储为中,同时low指向当前查到的值所在位;
4.若low位小于hight位,返回2步;否则,将tmp值存入到空出来的low+1指向的位置,退出,返回low所在的位置lposition。
5.以lposition为界,将序列分成两部分,分别对两部分进行排序。
找了图,呵呵O(∩_∩)O~ 神一样的图~~

private void qucikSort(List<WordInfo> allWordInfos, int low, int high)
{
if (low >= high)
{
return;
}
int pLow = low;
int pHigh = high;
WordInfo value = allWordInfos[low];
while (pLow < pHigh)
{
while ((WordInfo.Compare(allWordInfos[pHigh], value) <= ) && pHigh > pLow)
{
pHigh--;
}
if (WordInfo.Compare(allWordInfos[pHigh], value) > )
{
allWordInfos[pLow] = allWordInfos[pHigh];
allWordInfos[pHigh] = value;
pLow++;
}
while ((WordInfo.Compare(allWordInfos[pLow], value) >= ) && pHigh > pLow)
{
pLow++;
}
if (WordInfo.Compare(allWordInfos[pLow], value) <)
{
allWordInfos[pHigh] = allWordInfos[pLow];
allWordInfos[pLow] = value;
pHigh--;
}
}
System.Diagnostics.Trace.Assert(pLow == pHigh);
qucikSort(allWordInfos, low, pLow - );
qucikSort(allWordInfos, pLow + , high);
}
此次快速排序可以将英文单词出现的频率全部从高到低排序出来存储在哈希表的存储桶里。
小插曲:在解决快速排序算法的时候,要感谢我们宿舍的各位亲们,编码抓狂的时候有你们足以O(∩_∩)O~ @我编程我快乐 @韩亚华 @FakerWang
最后再解决一些小问题
(3)控制台输出,文本输入输出,以及遍历出频率最高的10个词打印出来等问题。
private void writeToFile(List<WordInfo> allWordInfos, string outputFilePath)
{
using (StreamWriter sw = new StreamWriter(outputFilePath, false, Encoding.Default))
{
int i = ;
sw.WriteLine("单词频率最高的10个词统计如下");
foreach (WordInfo wi in allWordInfos)
{
sw.WriteLine("{0}:{1}", wi.Word, wi.Count);//输出到文本文件
Console.WriteLine("{0}:{1}", wi.Word, wi.Count);//输出到控制台
i++;
if (i == ) break;
}
}
}
行了,差不多了,截图纪念了。。

个人小项目总结:
最后总结下Hashtable的简单操作吧
1.在哈希表中添加一个keyvalue键值对:HashtableObject.Add(key,value);
2.在哈希表中去除某个keyvalue键值对:HashtableObject.Remove(key);
3.从哈希表中移除所有元素: HashtableObject.Clear();
4.判断哈希表是否包含特定键key: HashtableObject.Contains(key);
以后肯定还得用。
这个小程序到这里也就结束了,也就是24号到27号,水平有限没办法。不过还是有个好玩的小插曲的,做完以后才发现我的运行效率是宿舍最快的,我们一起运行了一个5兆的英文文章,最慢的要20秒,我的3秒搞定,阿西巴,这是开挂的节奏啊,好了,差不多睡了,晚安了,各位程序猿和程序媛们~~

【学习笔记】C#中HashTable和快速排序的用法,从单词频率统计小程序写起的更多相关文章
- C#中HashTable和快速排序的用法
题目主要是写一个程序,分析一个文本文件(英文文章)中各个词出现的频率,并且把频率最高的10个词打印出来. 自从周四拿到题目以后,发现又要用到万恶的数据结构了,不得不说这是我的短板,所有上周20号到 ...
- ArcGIS案例学习笔记-点集中最近点对和最远点对
ArcGIS案例学习笔记-点集中最近点对和最远点对 联系方式:谢老师,135-4855-4328,xiexiaokui@qq.com 目的:对于点图层,查找最近的点对和最远的点对 数据: 方法: 1. ...
- 《Cocos2d-x游戏开发实战精解》学习笔记3--在Cocos2d-x中播放声音
<Cocos2d-x游戏开发实战精解>学习笔记1--在Cocos2d中显示图像 <Cocos2d-x游戏开发实战精解>学习笔记2--在Cocos2d-x中显示一行文字 之前的内 ...
- Ext.Net学习笔记19:Ext.Net FormPanel 简单用法
Ext.Net学习笔记19:Ext.Net FormPanel 简单用法 FormPanel是一个常用的控件,Ext.Net中的FormPanel控件同样具有非常丰富的功能,在接下来的笔记中我们将一起 ...
- Ext.Net学习笔记20:Ext.Net FormPanel 复杂用法
Ext.Net学习笔记20:Ext.Net FormPanel 复杂用法 在上一篇笔记中我们介绍了Ext.Net的简单用法,并创建了一个简单的登录表单.今天我们将看一下如何更好是使用FormPanel ...
- Ext.Net学习笔记12:Ext.Net GridPanel Filter用法
Ext.Net学习笔记12:Ext.Net GridPanel Filter用法 Ext.Net GridPanel的用法在上一篇中已经介绍过,这篇笔记讲介绍Filter的用法. Filter是用来过 ...
- Ext.Net学习笔记13:Ext.Net GridPanel Sorter用法
Ext.Net学习笔记13:Ext.Net GridPanel Sorter用法 这篇笔记将介绍如何使用Ext.Net GridPanel 中使用Sorter. 默认情况下,Ext.Net GridP ...
- Ext.Net学习笔记14:Ext.Net GridPanel Grouping用法
Ext.Net学习笔记14:Ext.Net GridPanel Grouping用法 Ext.Net GridPanel可以进行Group操作,例如: 如何启用Grouping功能呢?只需要在Grid ...
- Ext.Net学习笔记11:Ext.Net GridPanel的用法
Ext.Net学习笔记11:Ext.Net GridPanel的用法 GridPanel是用来显示数据的表格,与ASP.NET中的GridView类似. GridPanel用法 直接看代码: < ...
随机推荐
- Hibernate的简单封装Session(方便调用)
因为每次用增删改查时都需要用到hibernate的配置来生成session工厂进而生成session,比较麻烦,所以我们直接封装一个可以调用的类,需要的时候只需要调用即可. 新建一个Hibernate ...
- hibernate框架的搭建与简单实现增删改
Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,它将POJO与数据库表建立映射关系,是一个全自动的orm框架,hibernate可以自动生成SQL语句,自 ...
- C++调用有道翻译API实现在线翻译之发声篇
大概半月前写了一篇博文:C++中使用Curl和JsonCpp调用有道翻译API实现在线翻译, 得到大家的热情捧场,有人看了文章说要是能发声不是更好,我觉得说的也是哈,能听到专家的标准发音,那该是多美的 ...
- 谈谈Python中对象拷贝
你想复制一个对象?因为在Python中,无论你把对象做为参数传递,做为函数返回值,都是引用传递的. 何谓引用传递,我们来看一个C++交换两个数的函数: void swap(int &a, in ...
- 用SVGDeveloper制作svg地图
项目中需要实现巴蜀地区图,并且将其分为川东.川西.川南.川北四个区域,鼠标悬浮对应区域的区块改变颜色.经过网上查询资料,并未找到现成的区域图,于是就利用SVGDeveloper工具绘制. 一.绘制地图 ...
- element-ui select组件使用需要注意的
当在使用select组件的时候,要注意 <el-select v-model="scope.row.state" @change="editDriftStatus& ...
- NOI热身赛A. 小w、小j和小z
$n \leq 100000$个点在数轴上运动,给初始位置和速度.能删$k$个点,问最晚什么时候发生第一次碰撞. 这个贪心题有点惊.. 首先肯定二分答案,然后就是判断怎么删这$k$个点.我想可以把有冲 ...
- Linux 之 LNMP服务器搭建-PHP
LNMP服务器搭建-PHP 参考教程:[千峰教育] 安装: (1)解压源码包 cd /lnmp/srctar -jxvf php-7.3.2.tar.bz2cd php-7.3.2 (2)配置选项 . ...
- html css的简单学习(二)
html css的简单学习(二) <!Doctype html>告诉浏览器,这是一个html文档.lang="en" 默认是en,表示英语:zh-Hans 中文简体:z ...
- java mail Received fatal alert: handshake_failure java 无法发送邮件问题 java 发送qq邮件(含源码)
java 无法发送邮件问题 java 发送qq邮件 报错:java mail Received fatal alert: handshake_failure (使用ssl) javax.mail.M ...