java实现文件单词频率统计 topN top K

java 实现单词计数.top N

思路

先统计每个单词出现的个数
利用 TreeSet 的自动排序的功能

上代码

wordcount



      public void wordCount() {

        String route = "青岛路 青岛路 济阳路口东 济南路 宴坡路 ";

        Map&lt;String, Integer&gt; map = new HashMap&lt;String, Integer&gt;();

        StringTokenizer st = new StringTokenizer(route, " ");

        while (st.hasMoreTokens()) {

            String letter = st.nextToken();

            int count;

            if (map.get(letter) == null) {

                count = 1;

            } else {

                count = map.get(letter).intValue() + 1;

            }

            map.put(letter, count);

        }

        Set&lt;StationEntity&gt; set = new TreeSet&lt;StationEntity&gt;();

        for (String word : map.keySet()) {

            set.add(new StationEntity(word, map.get(word)));

            System.out.println("word" + word + ":" + map.get(word));

        }

        System.out.println(" 输出形式 --");

        for (Iterator&lt;StationEntity&gt; it = set.iterator(); it.hasNext(); ) {

            StationEntity station = it.next();

            System.out.println(station.getName() + "=" + station.getCount());

          System.out.println("station"+station+":");

        }

    }

2.StationEntity

package com.dk.route;

/**

 * Created by zzy on 15/11/28.

 */

public class StationEntity implements Comparable&lt;StationEntity&gt;{

    private String name ;

    public int getCount() {

        return count;

    }

    public void setCount(int count) {

        this.count = count;

    }

    public String getName() {

        return name;

    }

    public void setName(String name) {

        this.name = name;

    }

    private int  count;

    public StationEntity(String name,int  count){

        this.name = name;

        this.count = count;

    }

    public int compareTo(StationEntity o) {

        int cmp = count - o.count;

        StationEntity s = (StationEntity)o ;

        return cmp ==0 ?name.compareTo(o.name):-cmp;

    }

}

3.运行结果

java实现文件单词频率统计 topN top K的更多相关文章

【学习笔记】C#中HashTable和快速排序的用法，从单词频率统计小程序写起
先瞎扯点别的.进入这个神圣的地方总需要些鞭策,阿西巴,我是被鞭策进来摆摊的程序猿.软件工程老师说,写程序,发博客,就来博客园.这是个号召力很强的口号.最近看网络营销搜索引擎优化的书多一些,只能说王老 ...
统计单词频率--map
问题描述: 输入一个单词列表,每行一个单词,统计单词出现的频率思路: 主要是使用c++中的map容器.map实质上是一个二叉查找树,可以做到插入.删除.查询,平均查询时间在O(logn).n为map ...
键盘录入一个文件夹路径,统计该文件夹(包含子文件夹)中每种类型的文件及个数,注意:用文件类型(后缀名,不包含.(点),如："java","txt")作为key, 用个数作为value,放入到map集合中,遍历map集合
package cn.it.zuoye5; import java.io.File;import java.util.HashMap;import java.util.Iterator;import ...
统计一段文章的单词频率，取出频率最高的5个单词和个数(python)
练习题:统计一段英语文章的单词频率,取出频率最高的5个单词和个数(用python实现) 先全部转为小写再判定 lower() 怎么判定单词? 1 不是字母的特殊字符作为分隔符分割字符串 (避免特殊字符 ...
java基础 File与递归练习使用文件过滤器筛选将指定文件夹下的小于200K的小文件获取并打印按层次打印(包括所有子文件夹的文件) 多层文件夹情况统计文件和文件夹的数量统计已知类型的数量未知类型的数量
package com.swift.kuozhan; import java.io.File; import java.io.FileFilter; /*使用文件过滤器筛选将指定文件夹下的小于200K ...
Java实现蓝桥杯VIP 算法提高不同单词个数统计
算法提高不同单词个数统计时间限制:1.0s 内存限制:512.0MB 问题描述编写一个程序,输入一个句子,然后统计出这个句子当中不同的单词个数.例如:对于句子"one little t ...
使用Scala实现Java项目的单词计数：串行及Actor版本
其实我想找一门“具有Python的简洁写法和融合Java平台的优势, 同时又足够有挑战性和灵活性”的编程语言. Scala 就是一个不错的选择. Scala 有很多语言特性, 建议先掌握基础常用的: ...
Hadoop基础-Map端链式编程之MapReduce统计TopN示例
Hadoop基础-Map端链式编程之MapReduce统计TopN示例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.项目需求对“temp.txt”中的数据进行分析,统计出各 ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...

随机推荐

JavaWeb---总结(十二)Session
一.Session简单介绍在WEB开发中,服务器可以为每个用户浏览器创建一个会话对象(session对象),注意:一个浏览器独占一个session对象(默认情况下).因此,在需要保存用户数据时,服务 ...
iOS开发－二维码
二维码从ios7开始集成了二维码的生成和读取功能此前被广泛使用的zbarsdk目前不支持64位处理器生成二维码的步骤: 倒入CoreImage框架通过滤镜CIFilter生成二维码二维码的内 ...
BigDecimal 类型数据的一些应用
1.比较大小可以通过BigDecimal的compareTo方法来进行比较.返回的结果是int类型,-1表示小于,0是等于,1是大于. 例如: if(a.compareTo(b) == -1){ a ...
stamp-po的作用
stamp-po是表示po文件是否有更新,有更新,则重新编译一次
spring boot properties
[转载] 代码从开发到测试要经过各种环境,开发环境,测试环境,demo环境,线上环境,各种环境的配置都不一样,同时要方便各种角色如运维,接口测试, 功能测试,全链路测试的配置,hardcode 肯定不 ...
自然语言0_nltk中文使用和学习资料汇总
http://blog.csdn.net/huyoo/article/details/12188573 官方数据 http://www.nltk.org/book/ Natural Language ...
2015年最全的移动WEB前端UI框架
目前,众多互联网公司APP都嵌入了大量的HTML5,移动端的开发越来越重视,HTML5的运用场景也越来越多了.在移动WEB开发的过程中,使用合适的移动WEB UI框架可以大大提升我们的开发效率.下面P ...
thinkphp安装版本 3.1.3
基础版: 只有thinkphp基础运行功能完整版:基础运行能力,还有图片.上传等各种处理类(建议下载完整版) 重要的三个变量 define('APP_DEBUG',True); // 定义应用目录d ...
PHP站内搜索、多关键字、加亮显示
php搜索代码: 搜索以PHP100开头: SELECT * FROM teble WHERE title LIKE 'PHP100%' 搜索以PHP100结束: SELECT * FROM te ...
tomcat 无法加载js和css 等静态文件的问题
前段时间做了个网站,在本地tomcat测试都没有问题,但是部署到阿里云上之后,系统样式全没了.jsp等动态页面访问正常. 打开浏览器监控发现所有的css 和js 文件返回都是404 .直接访问单个的c ...

java实现文件单词频率统计 topN top K

java 实现单词计数.top N

思路

上代码

java实现文件单词频率统计 topN top K的更多相关文章

随机推荐

热门专题