作业3-个人项目<词频统计>
上了一天的课,现在终于可以静下来更新我的博客了。
越来越发现,写博客是一种享受。来看看这次小林老师的“作战任务”。
词频统计
- 单词:
- 包含有4个或4个以上的字母
- 单词由分隔符分开
- 如果一个字符串包含_非_字母数字,则不是单词
- 单词大小写不敏感,例如 “file”、“FILE”和“File”可以看作同一个单词
- 单词必须是字母开头,“file123”是单词,“123file”不是单词
简单理一下思路:
1.从控制台输入英语句子(字符串)
2.在句子中分割出一个一个单词
3.要筛选出4个字母以上的单词
4.还要把数字开头的字母筛选出去
然后呢?食材都准备好了,就该动刀了:
Scanner sc=new Scanner(System.in);
//定义es接收英文句子字符串
String es=null;
System.out.println("请输入英语短句:");
//小提示:next遇到空格返回,nextLine可读一行
es=sc.nextLine();
//为了不区分大小写,把所有字母转换成小写
es= es.toLowerCase();
//这个类会将字符串分解
StringTokenizer token=new StringTokenizer(es);
这里用到了一个类库:import java.util.StringTokenizer;
小林老师那篇引用的博客里说它在字符串中无所不能。这里就用到
一处:分割字符串。来看这行代码:
String word=token.nextToken(", ?.!:\"\"\''\n");
当我从头读取输入的字符串时,遇到上述括弧里的非字母字符时,
产生分割,即产生一个单词。
接下来用到HashMap来统计单词出现的频率
while(token.hasMoreTokens())
{
//按照,[空格] ? . !,双引号,单引号,换行符去分割
String word=token.nextToken(", ?.!:\"\"\''\n");
//取单词的第一个字符,调用函数isNumeric判断word的首字符是否为数字,并且判断单词长度是否大于3
if( !isNumeric(word.subSequence(0,1))&&word.length()>=4)
{
//统计单词的个数
if(map.containsKey(word))
{
int count=map.get(word);
//如果HashMap已有这个单词,则使它的数量加1
map.put(word, count+1);
}
//如果没有第二个相同单词,数量为1
else
map.put(word, 1);
}
}
在遍历过程中, 我同时完成两件事:筛选掉以数字开头的单词,
筛选出长度大于3的单词。
这里提一下自己当时遇到的问题:如何判断单词是不是以数字开头
呢?上网查了一下,一共有三种方法,我当然用了自己觉得比较简
单的方法:正则表达式法。你也可能注意到上面的代码中调用了一个
函数isNumeric(String chr),现在我pou出这个函数
public static boolean isNumeric(CharSequence charSequence)
{
Pattern pattern = Pattern.compile("[0-9]*");
Matcher isNum = pattern.matcher(charSequence);
if( !isNum.matches() )
{
return false;
}
return true;
}
完成以上任务就剩输出了:
List<Map.Entry<String, Integer>> infoIds = new ArrayList<Map.Entry<String, Integer>>(map.entrySet());
System.out.println("该句子中所有长度大于3的单词出现的次数分别如下:");
//输出结果
for (int i = 0; i < infoIds.size(); i++)
{
Entry<String, Integer> id = infoIds.get(i);
System.out.println(id.getKey()+":"+id.getValue());
}
使用小林老师作业中的实验数据(增加一个以数字
开头的单词),运行结果如下:
总结:这次作业学到了不少东西:正则表达式判断数字
字符,HashMap里的方法又学习一遍,取字符串的首字符。
记得一个老师说过:java语言跟外语很相似,无非是语法和
单词,而java的单词就是类库。而这次也感受到java类库的
强大。
完整代码清单见: https://github.com/miaozhongfeng/my-repository/blob/master/zuoye3.java
作业3-个人项目<词频统计>的更多相关文章
- 软件工程第一次个人项目——词频统计by11061153柴泽华
一.预计工程设计时间 明确要求: 15min: 查阅资料: 1h: 学习C++基础知识与特性: 4-5h: 主函数编写及输入输出部分: 0.5h: 文件的遍历: 1h: 编写两种模式的词频统计函数: ...
- 个人项目-词频统计(语言:C++)
词频统计 (个人项目) 要求 (1). 实现一个控制台程序,给定一段英文字符串,统计其中各个英文单词(4字符以上含4字符)的出现频率. 附加要求:读入一段文本文件,统计该文本文件中单词的频率. (2) ...
- 个人项目----词频统计WEB(部分功能)
需求分析 1.使用web上传txt文件,对上传的txt进行词频统计. 2.将统计后的结果输出到web页面,力求界面优美. 3.在界面上展示所给url的文章词频统计,力求界面优美. 3.将每个单词同四. ...
- 作业4-两人编程<词频统计>
协作:苗中峰,刘鑫成 我主要攻克排序,成哥写了文件流的使用.整合工作由我完成,成哥帮我查阅资料,避免和解决语法错误. 这次任务较作业三的变化是: * ...
- 结对项目— 词频统计2(语言C++)
结对对象:季天梦 博客地址:http://www.cnblogs.com/jitianmeng/ github链接:https://github.com/liuyutianlyt/EX_4.md 比例 ...
- 结对项目— 词频统计(语言C++)
结对对象:季天梦 博客地址:http://www.cnblogs.com/jitianmeng/ github链接:https://github.com/liuyutianlyt/EX_4.md 比例 ...
- task4:结对项目-词频统计
结对人:周楠 思路:利用TreeMap实现key字典序,然后输出到LinkedList,然后用Comparator,实现字典值从大到小排序,但是key实现值相同的key字典序的想出的实现方法,但是一直 ...
- USTC《现代软件工程》春季学期——第一次个人作业:词频统计
截止日期 2018年3月29日23:59 要求 1. 对源文件(*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等,文件夹内的所有文件)统计字符数. ...
- C# 词频统计 东北师范大学 软件项目管理 第一次作业
一.作为杨老师的学生第一次听杨老师讲课,印象最深的就是:工程中所有步骤之间是乘法,如果任何一步为0,工程就做不出来了.以前所有老师讲到的都是不要太在乎结果,努力的过程很重要,但是这在软件工程中不合适了 ...
随机推荐
- CentOS 6.x启动时网卡eth0未激活
简述 安装CentOS 6.x操作系统后,开机时发现没有网络,最后发现系统启动时未激活网卡 - 因为只有在激活状态的网卡才能去连接网络,进行网络通讯. 简述 激活网卡eth0 激活网卡eth0 执行& ...
- Cookie实例,理解cookie
一.一句话了解cookie是什么 cookie是服务端发送给客户端的.用来记录一些信息(如用户名),定制主页,聚焦广告的.最终以文件形式存在于客户端电脑磁盘下的小型文档. 二.用实例来认清cookie ...
- vs2010 快捷键大全 (转)
VS2010版快捷键 Ctrl+E,D ----格式化全部代码 Ctrl+E,F ----格式化选中的代码 CTRL + SHIFT + B生成解决方案 CTRL + F7 生成编译 CTRL + O ...
- POJ 3206 最小生成树
DESCRIPTION:T_T 在下是读不懂题意的.但是捏.现在知道是求把所有的点(是字母的点)连起来的最小的权值.即最小生成树.因为求最小生成树是不计较源点是哪个的.所以可以把A和S看成一样的.首先 ...
- Xmanager如何连接图形化界面
1.编辑gnome配置文件vim /etc/gdm/custom.conf # GDM configuration storage [daemon]RemoteGreeter= /usr/libexe ...
- 使用HttpClient访问被保护资源
下面的Android应用需要向指定页面发送请求,但该页面并不是一个简单的页面,只有当用户已经登录,而且登录用户的用户名是crazyit.org时才可访问该页面.如果使用HTTPURLConnectio ...
- EL表达式详解
转载自: http://blog.csdn.net/qwerasdf123/article/details/4189889 写在最前面: 如果想使用el表达式,首先必须将jstl.jar,standa ...
- Js练习题之字数判断
目标:控制某个栏目里每行字数,当字数超出时,以省略号显示 $("元素").each(function(){ var maxlength=9; //最大字数 if($(this).t ...
- 导航栏视图设置 tabbleView 是设置总背景图
//导航栏视图设置 tabbleView 是设置总背景图 //默认的时白色半透明(有点灰的感觉), UIBarStyleBlack,UIBarStyleBlackTranslucent ,UIBarS ...
- 转: JSP中include指令和include动作的区别
include指令是编译阶段的指令,即include所包含的文件的内容是编译的时候插入到JSP文件中,JSP引擎在判断JSP页面未被修改,否则视为已被修改.由于被包含的文件是在编译时才插入的,因此如果 ...