词频junit测试
package search; import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import java.util.Scanner;
import java.util.TreeMap; public class UpdateWordSearch {
/**
* 输入文件 保存分隔后的单词集合 保存统计后的单词集合
*/
String article;// 保存文章的内容
String[] rWords;
String[] words;
int[] wordFreqs;// 保存单词对应的词频
String filename;// 文件名
// 统计总数
int total = 0; // 构造函数:输入文章的内容
public UpdateWordSearch() throws IOException {
Scanner sc = new Scanner(System.in);
System.out.println("请输入文件名:");
filename = sc.nextLine();
File file = new File(filename);
if (!file.exists()) {
System.out.println("文件不存在!");
return;
}
BufferedReader bf = new BufferedReader(new FileReader(file));
StringBuffer article = new StringBuffer(); // 动态字符串数组
String temp = bf.readLine();
while (temp != null) {
article.append(temp + " "); // 往动态字符串数组里添加数据
temp = bf.readLine();
if (temp == null) {
break;
}
}
this.article = article.toString();
} // 分词并统计相应词汇
public void sWord() {
// 分词的时候,因为标点符号不参与,所以所有的符号全部替换为空格
final char SPACE = ' ';
article = article.replace('\"', SPACE).replace(',', SPACE)
.replace('.', SPACE).replace('\'', SPACE);
article = article.replace('(', SPACE).replace(')', SPACE)
.replace('-', SPACE);
rWords = article.split("\\s+");// 凡是空格隔开的都算单词,上面替换了',所以I've被分成两个单词
} public List<String> sort() {
// 将所有出现的字符串放入唯一的list中,不用map,是因为map寻找效率太低了
List<String> list = new ArrayList<String>();
for (String word : rWords) {
list.add(word);
}
Collections.sort(list);
return list;
} // 词汇排序
public List countWordFreq() {
// 统计词频信息
Map<String, Integer> wordsInfo = new TreeMap<String, Integer>();
String word = ""; // 词频名字
int count = 0; // 词频数量
// 统计单词总数
int total = 0;
List<String> wordList = sort();
word = wordList.get(0);
for (int i = 0; i <= wordList.size(); i++) {
if (i == wordList.size()) {
wordsInfo.put(word, count);
total++;
break;
}
if (wordList.get(i).equals(word)) {
count++;
} else {
wordsInfo.put(word, count);
total++;
word = wordList.get(i);
count = 1;
}
}
// 词频信息排序
List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String, Integer>>(
wordsInfo.entrySet());
Collections.sort(list, new Comparator<Map.Entry<String, Integer>>() {
@Override
public int compare(Entry<String, Integer> o1,
Entry<String, Integer> o2) {
// TODO Auto-generated method stub
return o2.getValue().compareTo(o1.getValue());
}
});
this.total = total;
return list;
} public void run() {
// 拆分文本
sWord();
// 统计词频
List<Map.Entry<String, Integer>> list = countWordFreq();
// 打印词频总数
System.out.println("词频总数:");
System.out.println("total:" + this.total);
System.out.println("词频统计信息:");
// 打印统计词频
int m = 0;
for (Map.Entry<String, Integer> mapping : list) {
if (m < 10) {
System.out.println(mapping.getKey() + " : "
+ mapping.getValue());
m++;
} else
break;
}
} // 测试类的功能
public static void main(String[] args) throws IOException {
UpdateWordSearch w = new UpdateWordSearch();
w.run();
}
}
下图是词频统计所做的junit测试:

词频junit测试的更多相关文章
- 复利计算器(软件工程)及Junit测试———郭志豪
计算:1.本金为100万,利率或者投资回报率为3%,投资年限为30年,那么,30年后所获得的利息收入:按复利计算公式来计算就是:1,000,000×(1+3%)^30 客户提出: 2.如果按照单利计算 ...
- Junit测试框架 Tips
关于Junit测试框架使用的几点总结: 1.Junit中的测试注解: @Test →每个测试方法前都需要添加该注解,这样才能使你的测试方法交给Junit去执行. @Before →在每个测试方法执行前 ...
- junit测试,使用classpath和file 加载文件的区别
用junit测试发现一个问题,怎么加载配置文件?一直都出现这样的错误 ERROR: org.springframework.test.context.TestContextManager - Caug ...
- Junit测试Controller(MockMVC使用),传输@RequestBody数据解决办法
一.单元测试的目的 简单来说就是在我们增加或者改动一些代码以后对所有逻辑的一个检测,尤其是在我们后期修改后(不论是增加新功能,修改bug),都可以做到重新测试的工作.以减少我们在发布的时候出现更过甚至 ...
- 单元测试实战 - Junit测试
一.对加法函数进行测试 1.实例化被测单元(方法):类名 实例名=new 类名([参数]) 2.调用被测单元,对比预期值和输出值(实际值): 在没有junit测试工具的情况下,我们要进行如下的测试代码 ...
- Android Junit测试框架
对应用进行单元测试: 使用Junit测试框架,是正规Android开发的必用技术.在Junit中可以得到组件,可以模拟发送事件和检测程序处理的正确性. 1.配置指令集和函数库: (1)配置指令集,指定 ...
- 在Eclipse中生成接口的JUnit测试类
在Spring相关应用中,我们经常使用“接口” + “实现类” 的形式,为了方便,使用Eclipse自动生成Junit测试类. 1. 类名-new-Other-java-Junit-Junit Tes ...
- Struts2+Spring+Mybatis+Junit 测试
Struts2+Spring+Mybatis+Junit 测试 博客分类: HtmlUnit Junit Spring 测试 Mybatis package com.action.kioskmoni ...
- Junit测试打印详细的log日志,可以看到sql
Junit测试打印详细的log日志,可以看到sql 在log4j.xml的日志配置文件中,把日志级别从info级别调整到debug级别: <?xml version="1.0" ...
随机推荐
- 【JavaScript】变量定义提升、this指针指向、运算符优先级、原型、继承、全局变量污染、对象属性及原型属性优先级
参考资料http://caibaojian.com/toutiao/5446 1.所有变量声明(var)或者声明函数都会被提升到当前函数顶部 关于函数表达式,js会将代码拆分为两行代码分别执行.这里需 ...
- Inversion Sequence(csu 1555)
Description For sequence i1, i2, i3, … , iN, we set aj to be the number of members in the sequence w ...
- http://blog.csdn.net/iamshaofa/article/details/7877785/
http://blog.csdn.net/iamshaofa/article/details/7877785/
- TCP Wrapper 特殊使用
更多,更好内容请参见: http://www.ibm.com/developerworks/cn/aix/library/au-tcpwrapper/ 一. 用处和用法 没有符合hosts.allow ...
- oracle视图
视图 SELECT -- int.rowner "rgroup owner", -- int.rname "refresh group", mv.owner a ...
- VR教育旋风来袭,各大公司争先进军虚拟现实教育
根据国内一份最新的报告显示,VR技术对于提高学生的学习成绩有非常积极的作用,并且通过测试结果来看,无论是对知识的认知还是成绩测试,VR都起到了非常有效的效果. 2016成为VR元年,虚拟现实技术除了在 ...
- 为什么我们要使用min-height和max-height样式属性?
Css min-height应用地方解释我们有时设置一个对象盒子时候避免对象没有内容时候不能撑开,但内容多少不能确定所以又不能固定高度,这个时候我们就会需要css来设置min-height最小高度撑高 ...
- 【HDU】4418 Time travel
http://acm.hdu.edu.cn/showproblem.php?pid=4418 题意:一个0-n-1的坐标轴,给出起点X.终点Y,和初始方向D(0表示从左向右.1表示从右向左,-1表示起 ...
- JavaScript 页面模板引擎
var TemplateEngine = function(html, options) { var re = /<%([^%>]+)?%>/g, reExp = /(^( )?(i ...
- 在Linux中安装Tomcat
带Linux的虚拟机中安装Tomcat 一.从官方网站上下载tomcat软件包.http://tomcat.apache.org/ apache-tomcat-7.0.33.tar.gz 二.下载到本 ...