词频统计-part2

　　看到这个问题为之一愣，这简单多了，在第一部分的基础上把那些存储结构删了，把排序算法删了，设置一个变量，遇到则加一，直到读到文件尾。最后输出单词出现次数。

　　程序比较简单也比较，下面就把程序贴出来：

 package note1;

 import java.io.BufferedReader;

 import java.io.FileReader;

 import java.io.FileNotFoundException;

 import java.io.IOException;

 import java.util.*;

 import java.util.regex.*;

 import java.util.Comparator;

 public class part2 {

     public static void main(String[] args)

     {

         //input

         Map<String,Integer> numcount=new HashMap<String,Integer>();

         Pattern pat=Pattern.compile("\\b[A-Za-z][A-Za-z0-9]*\\b");

         String filename="";

         String keyWord="";

         int count=0;

         for(int i=0;i<args.length-1;i++)

         {

             if(args[i].equals("-f"))

             {

                 filename+=args[i+1];

             }

             else if(args[i].equals("-w"))

             {

                 keyWord+=args[i+1];

             }

         }

         try{

         BufferedReader in=new BufferedReader(new FileReader(filename));

         //process

         String temp;

         while((temp=in.readLine())!=null)

         {

             Matcher mth=pat.matcher(temp);

             boolean tf=mth.find();

             while(tf)

             {

                 String buffer=mth.group().toLowerCase();

                 if(buffer.equals(keyWord.toLowerCase()))

                 {

                     count+=1;

                 }

                 tf=mth.find();

             }

         }

         in.close();

         //output

         System.out.println("keyword "+keyWord+" occurred "+count+" times !");

         }catch(FileNotFoundException e)

         {

             System.out.println("Cannot find the specified file");

         }

         catch(IOException e)

         {

             System.out.println(e.getMessage());

         }

     }

 }

运行结果：

　　如果想要的是这种方式的话：

　　Over.

词频统计-part2的更多相关文章

作业3-个人项目<词频统计>
上了一天的课,现在终于可以静下来更新我的博客了. 越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”. 词频统计单词: 包含有4个或4个以上的字 ...
C语言实现词频统计——第二版
原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果新需求: 1.小文件输入. 为表明程序能跑 2.支持命 ...
c语言实现词频统计
需求: 1.设计一个词频统计软件,统计给定英文文章的单词频率. 2.文章中包含的标点不计入统计. 3.将统计结果以从大到小的排序方式输出. 设计: 1.因为是跨专业0.0···并不会c++和java, ...
软件工程第一次个人项目——词频统计by11061153柴泽华
一.预计工程设计时间明确要求: 15min: 查阅资料: 1h: 学习C++基础知识与特性: 4-5h: 主函数编写及输入输出部分: 0.5h: 文件的遍历: 1h: 编写两种模式的词频统计函数: ...
python瓦登尔湖词频统计
#瓦登尔湖词频统计: import string path = 'D:/python3/Walden.txt' with open(path,'r',encoding= 'utf-8') as tex ...
Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）
解决问题的方案 Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-c ...
pyspark进行词频统计并返回topN
Part I:词频统计并返回topN 统计的文本数据: what do you do how do you do how do you do how are you from operator imp ...
使用storm分别进行计数和词频统计
计数直接上代码 public class LocalStormSumTopology { public static void main(String[] agrs) { //Topology是通过 ...
jieba库分词词频统计
代码已发至github上的python文件词频统计结果如下(词频为1的词组数量已省略): {'是': 5, '风格': 4, '擅长': 4, '的': 4, '兴趣': 4, '宣言': 4, ' ...

随机推荐

log4net 使用指南，最常遇到的问题整理。。。
一. Log4net特征 Log4net是一个用于.NET开发环境的日志记录组件,由于它的超快及超灵活,很多大型的应用都会用到. 它有如下特点: 1.自定义日志输出级别 ...
mac自己安装python的路径
自己安装的python包的路径( 编辑器 import sys print sys.path 可以看到很多需要的东西的位置如python的解析器等) /Library/Python/2.7/s ...
配置spring的log4j日志记录
1.导入依赖包pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http: ...
xmlns:app
Android自定义控件的属性,网上文章已经很多,之前看了也照着写了,其中有一个就是要自定义一个xml的命名空间后然后再给自定义属性赋值,后来发现不知道什么时候开始Android把这个改了,统一用 x ...
配置mysql环境变量
配置mysql环境变量(非必要) 说明:给mysql配置环境变量后我们就可以在cmd里运行mysql(开启.停止等操作) 1. 和其实环境变量的配置方法一样,我们打开环境变量配置窗口(组合键win+P ...
Oracle Tip: Choosing an efficient design for Boolean column values
Takeaway: When designing a database table structure, it's important to choose an efficient strategy ...
迷你MVVM框架 avalonjs 学习教程7、数据缓存
jQuery的许多功能都可以通过avalon的绑定属性来处理,如click方法对应ms-click,css方法对应ms-css,toggle方法对应ms-visible,它的数据缓存功能avalon也 ...
LMAX系统架构
本文转载自:LMAX系统架构 ,(非常感谢作者yfx416分享好文) 很多架构师都面临这么一个问题:如何设计一个高吞吐量,低延时的系统?面对这个问题,各位都有自己的答案.但面对这个问题,大家似乎渐渐形 ...
学习 java 编程语言两个月来的感受
今天是我接触java编程的第81天, 现在的感受是觉得非常快乐, 每次看着自己的写的代码能成功运行的时候那种喜悦是无法言表的, 最初接触电脑还是在小学, 后来到了初中觉得电脑无非就是点点鼠标, 按按键 ...
聊一下Python的线程 & GIL
再来聊一下Python的线程参考这篇文章 https://www.zhihu.com/question/23474039/answer/24695447 简单地说就是作为可能是仅有的支持多线程的解释 ...

词频统计-part2

词频统计-part2的更多相关文章

随机推荐

热门专题