java 词频统计代码

package hello;

import java.io.BufferedReader;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.IOException;

import java.util.HashMap;

import java.util.Iterator;

import java.util.StringTokenizer;

public class WordCount {

	public void sort(int[] arry) {

		int temp;

		for (int i = 0; i < arry.length; i++) {

			for (int j = i; j < arry.length; j++) {

				if (arry[i] > arry[j]) {

					temp = arry[i];

					arry[i] = arry[j];

					arry[j] = temp;

				}

			}

		}

		for (int k = 0; k < arry.length; k++) {

			System.out.print(arry[k] + " ");

		}

	}

	public static void main(String[] args) { // 用HashMap存放<单词:词频>这样一个映射关系

		HashMap<String, Integer> hashMap = new HashMap<String, Integer>();

		// 用正则表达式来过滤字符串中的所有标点符号

		String regex = "[【】、.。,，。\"!--;:?\'\\]]";

		try {

			// 读取要处理的文件

			BufferedReader br = new BufferedReader(new FileReader("src/file80.txt"));

			String value;

			while ((value = br.readLine()) != null) {

				value = value.replaceAll(regex, " ");

				// 使用StringTokenizer来分词(StringTokenizer详见JDK文档)

				StringTokenizer tokenizer = new StringTokenizer(value);

				while (tokenizer.hasMoreTokens()) {

					String word = tokenizer.nextToken();

					if (!hashMap.containsKey(word)) {

						hashMap.put(word, new Integer(1));

					} else {

						int k = hashMap.get(word).intValue() + 1;

						hashMap.put(word, new Integer(k));

					}

				}

			}

			// 遍历HashMap,输出结果

			Iterator iterator = hashMap.keySet().iterator();

			while (iterator.hasNext()) {

				String word = (String) iterator.next();

				System.out.println(word + ":\t" + hashMap.get(word));

			}

			} catch (FileNotFoundException e) {

			e.printStackTrace();

		} catch (IOException e) {

			e.printStackTrace();

		}

	}

}

java 词频统计代码的更多相关文章

java词频统计——改进后的单元测试
测试项目博客文章地址:[http://www.cnblogs.com/jx8zjs/p/5862269.html] 工程地址:https://coding.net/u/jx8zjs/p/wordCo ...
java词频统计——web版支持
需求概要: 1.把程序迁移到web平台,通过用户上传TXT的方式接收文件. 2.用户直接输入要统计的文本,服务器返回结果 3.在页面上给出链接 (如果有封皮.作者.字数.页数等信息更佳)或表格,展示经 ...
Java词频统计
public class WordCount { public static void main(String[] args) { String[] stopWords = { "" ...
python统计代码行数
以前写了一个java的统计代码行数的小程序,最近在看python,于是就参考前辈的代码,写了一个统计文件夹下面各种程序的代码的小程序,这里贴出来供大家参考参考链接: https://gist.git ...
如何用java完成一个中文词频统计程序
要想完成一个中文词频统计功能,首先必须使用一个中文分词器,这里使用的是中科院的.下载地址是http://ictclas.nlpir.org/downloads,由于本人电脑系统是win32位的,因此下 ...
词频统计的java实现方法——第一次改进
需求概要原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果新需求: 1.小文件输入. 为表明程序能跑 ...
【第二周】Java实现英语文章词频统计（改进1）
本周根据杨老师的spec对英语文章词频统计进行了改进 1.需求分析: 对英文文章中的英文单词进行词频统计并按照有大到小的顺序输出, 2.算法思想: (1)构建一个类用于存放英文单词及其出现的次数 cl ...
Java实现的词频统计——Web迁移
本次将原本控制台工程迁移到了web工程上,依旧保留原本控制台的版本. 需求: 1.把程序迁移到web平台,通过用户上传TXT的方式接收文件: 2.在页面上给出链接 (如果有封皮.作者.字数.页数等信息 ...
效能分析——词频统计的java实现方法的第一次改进
java效能分析可以使用JProfiler 词频统计处理的文件为WarAndPeace,大小3282KB约3.3MB,输出结果到文件在程序本身内开始和结束分别加入时间戳,差值平均为480-490ms ...

随机推荐

17115 ooxx numbers 交表
17115 ooxx numbers 时间限制:1000MS 内存限制:65535K提交次数:0 通过次数:0 题型: 编程题语言: G++;GCC Description a number ...
vagrant教程
http://blog.smdcn.net/article/1308.html http://ninghao.net/blog/1566 如何定制一个自己的 vagrant box: https:// ...
设置Eclipse可以Debug模式调试JDK源码，并显示局部变量的值
最近突然萌发了研究JDK源码的想法,所以就想到了在自己常用的Eclipse上可以调试JDK源码. 整个设置过程也很简单: 首先你要安装好JDK(我的JDK安装路径根目录是D:\Java\jdk-8u9 ...
mongodb备份、还原
1.mongodb 备份 mongodump 命令可以使用可用的选项的列表. 此命令将仅备份指定的数据库,在指定的路径语法描述示例 mongodump --host HOST_NAME --p ...
《高性能MySQL》读书笔记之创建高性能的索引
索引是存储引擎用于快速找到记录的一种数据结构.索引优化是对查询性能优化的最有效手段.索引能够轻易将查询性能提高几个数量级.创建一个最优的索引经常需要重写查询.5.1 索引基础在MySQL中,存储引擎 ...
洛谷 P3853 [TJOI2007]路标设置
路标设置二分枚举"空旷指数", 做法与跳石头类似. #include <iostream> #include <cstdio> #include < ...
node.js0-5初级者
伴着<妈是心中的茉莉花> 这里,我用的sublime记事本,所以用的运行方法是终端.(后来发现git 可以省去cd切换目录). 安装node.js 官网说的很清楚. 这里我们可以在js文 ...
Servlet和JSP之有关Servlet和JSP的梳理（一）
大二第一学期的时候有学JSP的课,但是因为在开学之前做过JSP的小项目,所以一个学期的课也没听,直到期末考试成绩出来了,才回想JSP的内容还有多少记得,没想到模模糊糊也记不起多少,赶紧回头学回来.接下 ...
mongo ServerSelectionTimeoutError: localhost:27017: [Errno 111] Connection refused
解决方法 rm /var/lib/mongodb/mongod.lock
（转）MyBatis框架的学习(四)——Mapper.xml文件中的输入和输出映射以及动态sql
http://blog.csdn.net/yerenyuan_pku/article/details/71893689 前面对MyBatis框架的学习中,我们对Mapper.xml映射文件多少有些了解 ...

java 词频统计代码

java 词频统计代码的更多相关文章

随机推荐

热门专题