C# 词频统计东北师范大学软件项目管理第一次作业

一、作为杨老师的学生第一次听杨老师讲课，印象最深的就是：工程中所有步骤之间是乘法，如果任何一步为0，工程就做不出来了。以前所有老师讲到的都是不要太在乎结果，努力的过程很重要，但是这在软件工程中不合适了。没有结果的项目就是一个失败的项目，即便你为此付出了诸多努力，但一步走错满盘皆输。

二、回到正题，这次作业题目二选一：词频统计、四则运算。题目一出来的时候跟齐某同学稍微讨论了一下，词频统计思路清晰但是有一些问题，单词的过去式、过去分词、将来时、单复数形式是否需要区分及如何区分；缩写如don‘t是否需要处理？好难先不做。从最简单的做起。

词频统计设计思路及基本步骤

1.文件预处理-读入TXT格式英文文档，将其中的标点、特殊符号等以空格代替，以空格为分隔符将所有单词分隔开并存入数组

2.遍历单词数组进行词频统计-利用C#Hashtable通过Key-Value来确定每个单词出现的次数。

数组的特点是：寻址容易，插入和删除困难；而链表的特点是：寻址困难，插入和删除容易。hashtable综合两者的特性，寻址容易，插入删除也容易

But*Hashtable作为一个稀疏的数据结构尽量在有充足内存的时候使用，随着插入的元素的增多，其大小会快速增长。

3.将hashtable结果安装Value之大小利用array数组进行排序并将结果输出为TXT形式

同学搞HadoopMapReduce，我问他这个问题是不是可以解决。答：数据量太小，大材小用。

三、课程期待

希望自己能够在学习过程中得到训练得到提高（发自肺腑）。ps:很久没听到能吸引人的课了Ｔ_Ｔ

四、工作量表

	代码行数	博客字数	知识点
第一周	80	740	Hashtable

五、总结

仅仅实现了简单的统计和排序

附部分代码

预处理

sLine=sLine.ToLower();//全部变为小写字母

sLine = Regex.Replace(sLine, @"[^a-zA-Z0-9\u4e00-\u9fa5\s] ", " ");
sLine = Regex.Replace(sLine, "[!@#$%^&*()`,./;':\"<>`?...]", " ");//替换标点
String [] words= sLine.Split(' ');//分割

建立hashtable

Hashtable ha = new Hashtable();
//Hashtable
for (int j = 0; j < words.Length; j++)
{

if (ha.ContainsKey(words[j]))
{
ha[words[j]] = (int)ha[words[j]] + 1;
}
else
{
ha.Add(words[j], 1);
}
}

输出

FileStream aFile = new FileStream(path, FileMode.Create);
StreamWriter sw = new StreamWriter(aFile);

string[] arrKey = new string[ha.Count];//暂存 Hashtable 的键
int[] arrValue = new int[ha.Count];//暂存 Hashtable 的值

ha.Keys.CopyTo(arrKey, 0);
ha.Values.CopyTo(arrValue, 0);

Array.Sort(arrValue, arrKey);//按 HashTable 的值排序
//输出到TXT
for (int i = arrKey.Length-1; i >=0 ; i--)
{
if ((string)arrKey[i] != "")
{
sw.Write(arrKey[i].ToString() + ":");
sw.WriteLine(arrValue[i].ToString());
}
}

C# 词频统计东北师范大学软件项目管理第一次作业的更多相关文章

词频统计的java实现方法——第一次改进
需求概要原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果新需求: 1.小文件输入. 为表明程序能跑 ...
软件工程第一次个人项目——词频统计by11061153柴泽华
一.预计工程设计时间明确要求: 15min: 查阅资料: 1h: 学习C++基础知识与特性: 4-5h: 主函数编写及输入输出部分: 0.5h: 文件的遍历: 1h: 编写两种模式的词频统计函数: ...
USTC《现代软件工程》春季学期——第一次个人作业：词频统计
截止日期 2018年3月29日23:59 要求 1. 对源文件(*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等,文件夹内的所有文件)统计字符数. ...
效能分析——词频统计的java实现方法的第一次改进
java效能分析可以使用JProfiler 词频统计处理的文件为WarAndPeace,大小3282KB约3.3MB,输出结果到文件在程序本身内开始和结束分别加入时间戳,差值平均为480-490ms ...
【week2】词频统计第一次更新
词频统计: 对每个功能预计时间: 功能预计(min) 实际(min) 数据流读入 20 40 正则规范字符串 15 20 排序 30 45 输出 20 30 其他 25 词频统计psp 日期类 ...
HW—词频统计
第一次个人作业——词频统计第一次做这种大作业,明显感觉陌生,各种规范和技能也是第一次使用,希望自己好运. 目录:一.基本要求二.需求分析及时间估计三.实现思路及过程四.测试用例.时间性能分析及 ...
c语言实现词频统计
需求: 1.设计一个词频统计软件,统计给定英文文章的单词频率. 2.文章中包含的标点不计入统计. 3.将统计结果以从大到小的排序方式输出. 设计: 1.因为是跨专业0.0···并不会c++和java, ...
使用HDFS完成wordcount词频统计
任务需求统计HDFS上文件的wordcount,并将统计结果输出到HDFS 功能拆解读取HDFS文件业务处理(词频统计) 缓存处理结果将结果输出到HDFS 数据准备事先往HDFS上传需要进行 ...
C#词频统计效能分析
在邹老师的效能分析的建议下对上次写过的词频统计的程序进行分析改进. 效能分析:个人很浅显的认为就是程序的运行效率,代码的执行效率 1.VS 提供了自带的分析工具:performance tool (性 ...

随机推荐

记一次隐秘的XSS漏洞挖掘
前言在为某客户网站做渗透测试时发现一个有趣的事情.当我访问该网站的某条链接时服务器返回的是404页面.看到这里我当时就下意识的忽略它,但是后来又想了想这也不是完全没有价值,毕竟中间件及其版本都出来了 ...
Spirng MVC 重定向传递对象
在 Spring MVC 中我们会经常遇到重定向. @RequestMapping("/order/saveorder.html") public String saveOrder ...
python爬虫（二）
python爬虫之urllib 在python2和python3中的差异在python2中,urllib和urllib2各有各个的功能,虽然urllib2是urllib的升级版,但是urllib2还 ...
SAP BPC方案介绍
refer to http://sapper.blog.sohu.com/166039991.html SAP/BPC简介: 全面预算管理是联系公司战略目标与日常运营的重要纽带,它上到战略层面.下到执 ...
【openjudge】【搜索(bfs)】P4980拯救行动
[描述:] 公主被恶人抓走,被关押在牢房的某个地方.牢房用N*M (N, M <= 200)的矩阵来表示.矩阵中的每项可以代表道路(@).墙壁(#).和守卫(x). 英勇的骑士(r)决定孤身一人 ...
CSS居中布局
一:水平居中方案: 1.行内元素设置 text-align:center 2.定宽块状元素设置左右 margin 值为 auto 3.不定宽块状元素 a:在元素外加入 table 标签(完整的, ...
ActivityCapture
Index: ActivityCapture.java =================================================================== --- ...
Publisher和Subscriber节点
一.Publisher节点 /*"ros/ros.h"里面包含了ROS系统内最常用的一些头文件,包含此文件,便可以使用ROS的核心功能.*/#include "ros/r ...
Python2.7-difflib
difflib主要用于比较两个序列的不同,常见于字符串的比较,可以对差异生成报告.SequenceMatcher 主要用于找两者相似部分,以及两者不同的转换方法,而 Differ 更注重于比较两者的区 ...
day61
Vue 八.重要指令 v-bind  <div v-bind:class='"a"'></div> <!-- 变量a ...

C# 词频统计 东北师范大学 软件项目管理 第一次作业

C# 词频统计 东北师范大学 软件项目管理 第一次作业的更多相关文章

随机推荐

热门专题

C# 词频统计东北师范大学软件项目管理第一次作业

C# 词频统计东北师范大学软件项目管理第一次作业的更多相关文章