本次改进是在原有功能需求及代码基础上额外做的修改,保证了原有的基础需求之外添加了新需求的功能。

功能:

  1. 小文件输入——从控制台由用户输入到文件中,再对文件进行统计;

  2.支持命令行输入英文作品的文件名;

  3.支持命令行输入存储有英文作品文件的目录名,批量统计;

  4.从控制台读入英文单篇作品,重定向输入流。

实现:

  1.判断输入方式,如果从命令行传递参数则直接对文件进行统计;如果未传递参数,其方式同控制台相同,由用户从标准输入流输入到文件,再对文件进行词频统计。这里如果传入文件路径时会对其是否是文件夹进行判断,如果是文件夹,则对其目录中的文件进行统计。

 if (args.length == 0) {
Scanner in = new Scanner(System.in);
FileWriter out = new FileWriter("Content.txt"); System.out.println("请输入内容,最后以Q结束:"); while (in.hasNext()) {
out.write(in.nextLine()+"\r\n");
}
out.close();
in.close(); new FileProccessing("Content.txt");
}
for (int i = 0; i < args.length; i++) {
String FileName = args[i];
File fs = new File(FileName);
if (fs.isDirectory()) {
File[] filelist = fs.listFiles();
for (int n = 0; n < filelist.length; n++) {
new FileProccessing(filelist[n].getAbsolutePath());
} } else {
new FileProccessing(FileName);
}
}

  2.对ByValueComparator类做了修改,使其能够按词频降序排列的同时,对同频率的单词进行升序排列。

 public class ByValueComparator implements Comparator<Entry<String,Integer>> {
Map<String, Integer> hashmap;
public ByValueComparator(Map<String, Integer> hm) {
this.hashmap = hm;
} @Override
public int compare(Entry<String, Integer> o1, Entry<String, Integer> o2) {
// TODO Auto-generated method stub if (o1.getValue().compareTo(o2.getValue()) == -1) {
return 1;
} else if (o1.getValue().compareTo(o2.getValue()) == 0) {
return o1.getKey().compareTo(o2.getKey());  //单次出现频率相同时,对单词进行升序排列
} else {
return -1;
}
}
}

  3.与上一次相比,为了方便调用,将对文件进行统计操作的代码归入新的类FileProccessing。同时将readline()改为read(char[] c),解决了当一行字符过多时报错的问题。当进行统计的文件过大时,原本输出到屏幕会自动改为输出到文件中,避免了因输出而占用了大部分时间,同时方便用户查阅(默认输出到工程目录下)。

  其中有个小细节:程序中char数组默认大小为64,当读到最后一块时,字符不足64个时,多余未读入字符的数组元素默认为'\0',拆分之后输出结果中会多出一项“    ——1”。因此,在StringTokenizer方法中要录入"\0"作为分隔字符。

  读入文件并进行统计,结果存入到hashmap中:

         int i = 0;
char[] c = new char[64];
String thelast = "";
String wordpart = "";
while ((i = br.read(c)) > 0) {
wordpart = ""; int m = i - 1;
while (Character.isLetter(c[m])) {
wordpart = String.valueOf(c[m]) + wordpart;
c[m] = ' ';
m--;
}
String s = thelast + String.valueOf(c);
StringTokenizer st = new StringTokenizer(s, " ,.!?\"\';:0123456789\n\r\t“”‘’·——-=*/()[]{}…()【】{}\0"); // 用于切分字符串 while (st.hasMoreTokens()) {
String word = st.nextToken();
if (hm.get(word) != null) {
int value = ((Integer) hm.get(word)).intValue();
value++;
hm.put(word, new Integer(value));
} else {
hm.put(word, new Integer(1));
}
}
thelast = wordpart;
}
if (!wordpart.isEmpty()) {
if (hm.get(wordpart) != null) {
int value = ((Integer) hm.get(wordpart)).intValue();
value++;
hm.put(wordpart, new Integer(value));
} else {
hm.put(wordpart, new Integer(1));
}
}

  判断输出内容多少,自动匹配标准输出还是文件输出。其中运用了正则替换,用来打印当前文件名。同时还对总单词量及词汇量进行了统计:

         int NumofWord = 0;
Iterator iter = hm.entrySet().iterator();
while (iter.hasNext()) {
Map.Entry entry = (Map.Entry) iter.next();
NumofWord += (Integer) entry.getValue();
}
String reg = ".*\\\\(.*)";
String name = filename.replaceAll(reg, "$1");
if (hm.size() > 100) { FileWriter result = new FileWriter("Result.txt", true); result.write("~~~~~~~~~~~~~~~~~~~~\r\n");
result.write(name.substring(0, name.lastIndexOf(".")) + "\r\n");
result.write("number of the words:" + NumofWord + "\r\n");
result.write("totals:" + hm.size() + "\r\n");
for (Map.Entry<String, Integer> str : ll) {
result.write(str.getKey() + "——" + str.getValue() + "\r\n");
} result.write("~~~~~~~~~~~~~~~~~~~~\r\n"); System.out.println("由于" + name.substring(0, name.lastIndexOf(".")) + "文件过大,输出到文件Result中。");
result.close();
} else {
System.out.println("~~~~~~~~~~~~~~~~~~~~");
System.out.println(name.substring(0, name.lastIndexOf(".")));
System.out.println("number of the words:" + NumofWord);
System.out.println("totals:" + hm.size());
for (Map.Entry<String, Integer> str : ll) {
System.out.println(str.getKey() + "——" + str.getValue());
} System.out.println("~~~~~~~~~~~~~~~~~~~~");
}

运行结果:

  1.命令行标准输入界面:

  

  2.执行结果:

  

  3.控制台界面:

  

  4.命令行传入文件:

  

  5.同时传入大文件及文件夹:

  

  

  6.重定向输入:

  

  

代码地址:

  HTTPS   https://coding.net/u/regretless/p/WordFrequencyCount/git

  SSH      git@git.coding.net:regretless/WordFrequencyCount.git

  GIT       git://git.coding.net/regretless/WordFrequencyCount.git

Java实现的词频统计——功能改进的更多相关文章

  1. 【第二周】Java实现英语文章词频统计(改进1)

    本周根据杨老师的spec对英语文章词频统计进行了改进 1.需求分析: 对英文文章中的英文单词进行词频统计并按照有大到小的顺序输出, 2.算法思想: (1)构建一个类用于存放英文单词及其出现的次数 cl ...

  2. Java实现的词频统计——Web迁移

    本次将原本控制台工程迁移到了web工程上,依旧保留原本控制台的版本. 需求: 1.把程序迁移到web平台,通过用户上传TXT的方式接收文件: 2.在页面上给出链接 (如果有封皮.作者.字数.页数等信息 ...

  3. Java实现中文词频统计

    昨日有个中文词频统计的需求, 百度一番后, 发现一大堆标题党文章, 讲的与内容严重不符, 这里就简单记录下自己实现的流程吧! 与英文单词的词频统计不同, 中文的难点在于如何分词, 不过好在有许多优秀的 ...

  4. Java实现的词频统计——单元测试

    前言:本次测试过程中发现了几个未知字符,这里将其转化为十六进制码对其加以区分. 1)保存统计结果的Result文件中显示如图: 2)将其复制到eclipse环境下的切分方法StringTokenize ...

  5. Java实现的词频统计

    要求: 1.读取文件: 2.记录出现的词汇及出现频率: 3.按照频率降序排列: 4.输出结果. 概要: 1.读取的文件路径是默认的,为了方便调试,将要统计的文章.段落复制到文本中即可:2.只支持英文: ...

  6. MapReduce 入门之一步步自实现词频统计功能

    原创播客,如需转载请注明出处.原文地址:http://www.cnblogs.com/crawl/p/7687120.html ------------------------------------ ...

  7. awk词频统计功能

    [root@test88 ~]# vim word_freq.sh #!/bin/bash if [ $# -ne 1 ];then echo "Usage: $0 filename&quo ...

  8. 如何用java完成一个中文词频统计程序

    要想完成一个中文词频统计功能,首先必须使用一个中文分词器,这里使用的是中科院的.下载地址是http://ictclas.nlpir.org/downloads,由于本人电脑系统是win32位的,因此下 ...

  9. 使用HDFS完成wordcount词频统计

    任务需求 统计HDFS上文件的wordcount,并将统计结果输出到HDFS 功能拆解 读取HDFS文件 业务处理(词频统计) 缓存处理结果 将结果输出到HDFS 数据准备 事先往HDFS上传需要进行 ...

随机推荐

  1. laravel5实现微信第三方登录功能

    背景 最近手头一个项目需要实现用户在网站的第三方登录(微信和微博),后端框架laravel5.4. 实现过程以微信网页版第三方登录,其他于此类似,在此不做重复. 准备工作 网站应用微信登录是基于OAu ...

  2. 从“顶点小说”下载完整小说——python爬虫

    此程序只是单纯的为了练习而做,首先这个顶点小说非收费型的那种小说网站(咳咳,我们应该支持正版,正版万岁,✌).经常在这个网站看小说,所以就光荣的选择了这个网站.此外,其实里面是自带下载功能的,而且支持 ...

  3. 阻止Quartus优化掉信号

    使用SignalTap II Logic Analyzer观察信号,有时要观察的信号会被Quartus优化掉,这种情况下可以给信号指定属性.以下例子均使用Verilog. 1. 如果是组合逻辑信号,可 ...

  4. svg vs canvas

    http://fabricjs.com/ https://github.com/ecomfe/zrender http://raphaeljs.com/

  5. 20155220java实验二 面向对象程序设计 实验报告

    一.实验内容 初步掌握单元测试和TDD 理解并掌握面向对象三要素:封装.继承.多态 初步掌握UML建模 熟悉S.O.L.I.D原则 了解设计模式 实验步骤 (一)单元测试 (1) 三种代码 伪代码 产 ...

  6. Odoo中创建模块语句

    使用odoo的odoo-bin命令创建模块,比较方便. 进入终端界面(windows中可以是cmd中,linux中可以是$命令提示符下),以下在Windows中为例: python odoo-bin ...

  7. C#基础之反射

    虽然还在学校读书,反射实际写的不多.但感觉反射在程序开发中用得还是挺多的,对我来说也是.NET中的一个难点.通过反射,我们可以在运行时获得.NET中的每一个类型的成员,这些类型包括类.结构.委托和枚举 ...

  8. itop4412学习-超级块操作

    1. 先看下超级块支持的函数列表,文件路径\4412_SCP精英版\Android源码\iTop4412_Kernel_3.0_20140521\iTop4412_Kernel_3.0\include ...

  9. Awesome TensorFlow

    Awesome TensorFlow  A curated list of awesome TensorFlow experiments, libraries, and projects. Inspi ...

  10. 180727-时序数据库InfluxDB之备份和恢复策略

    influxdb 备份与恢复 参考: influxdb backup and restore 环境: influxdb v1.6.0 使用influx自动的控制台进行 I. 备份 备份命令 influ ...