java单词统计】的更多相关文章

要求1:输出某个英文文本文件中26字母出现的频率,由高到低排序,并显示字母出现的百分比,精确到小数点后两位. 思路:分别设存放字母和字母出现次数的数组,遍历文件内容,将字母及出现频率按由高到低的顺序输出 源码: import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;impo…
本周的实验要求在之前实现统计单词的基础之上(可以见之前博客的统计单词的那个实验),对其进行修改成所需要的格式,统计字母出现频率的功能,并按照一定的格式把最终结果的用特定的格式在文本中显示出来 统计过程的实现并不太麻烦,在原来的基础上导入导出函数的基础上修改成通用的类型,统计单词的那一部分的单个字符读取那一段加上统计字母的情况,并加上判断把大小写字母统一起来. 同时,在统计单词的那里加上一个无用字母的表格.这样就可以统计有用意义的前n个最常用的单词了. 实验的代码如下所示: package pip…
分析: 1)要统计单词的个数,就自己的对文章中单词出现的判断的理解来说是:当出现一个非字母的字符的时候,对前面的一部分字符串归结为单词 2)对于最后要判断字母出现的个数这个问题,我认为应该是要用到map比较合适吧,因为map中有 键-值 的关系,可以把字符串设置为键,把出现的个数设置为整型,这样就能够建立起一一对应的关系,不用再判断所在的位置 根据上面自己的理解,今天我写了以下的一部分代码,对哈利波特第一集的这部分文章进行了单词的统计的测试,测试的结果相对良好,没有问题. package pip…
本文要解决的问题:"键盘输入一段英语语句,将这段话写入content.txt中,然后输出这段话,并且统计语句中英文单词的数目以及各个单词出现的次数." 分析问题知,核心是文件读写和单词统计. 单词统计可以参考我以前的一篇文章:java源码--统计字符串中字符出现的次数,不过要注意的是以前这篇文章是统计字符,不用判断是否是单词,本问题中统计单词就要判断多少字符是一个单词,同时忽略大小写问题. 文件读写不是很难,方法基本是死的,不用考虑方法.代码解决问题的难点还是单词的统计,我的代码中用了…
第1步:输出单个文件中的前 N 个最常出现的英语单词. 功能1:输出文件中所有不重复的单词,按照出现次数由多到少排列,出现次数同样多的,以字典序排列. 功能2: 指定文件目录,对目录下每一个文件执行统计的操作. 功能3:指定文件目录,是会递归遍历目录下的所有子目录的文件进行统计单词的功能. 功能4:输出出现次数最多的前 n 个单词, 前几个功能已经在之前的博客园中回答相应的解决方法,所以重点来看一下第三个功能,如何递归查询所有子目录下的文件,并进行单词统计. 那么我们首先要解决的是判断这个文件是…
原文链接: https://www.toutiao.com/i6764296608705151496/ 单词统计的是统计一个文件中单词出现的次数,比如下面的数据源 其中,最终出现的次数结果应该是下面的显示 那么在MapReduce中该如何编写代码并出现最终结果? 首先我们把文件上传到HDFS中(hdfs dfs –put -) 数据名称:data.txt,大小是size是2G 红黄绿三个块表示的是数据存放的块 然后数据data.txt进入map阶段,会以<K,V>(KV对)的形式进入,K表示的…
MapReduce 单词统计案例编程 一.在Linux环境安装Eclipse软件 1.   解压tar包 下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.tar.gz到/opt/software目录下. 解压到/opt/tools目录下: [hadoop@bigdata-senior01 tools]$ tar -zxf /opt/sofeware/eclipse-jee-kepler-SR1-linux-gtk-x86_64.tar.gz -C /op…
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. Data can be ingested from many sources like Kafka,…
scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用. (2)var i = "hello" 使用var声明的变量值是可变的 (3)val s = "hi" scala编译器会自动推断变量的类型,必要的时候可以指定类型,变量名在前,类型在后 2.常用的类型 Scala和Java一样,有7种数值类型Byte.Char.Short.Int.Long.Float和Double(无包装…
Storm基本概念 Storm是一个分布式的.可靠地.容错的数据流处理系统.Storm分布式计算结构称为Topology(拓扑)结构,顾名思义,与拓扑图十分类似.该拓扑图主要由数据流Stream.数据流的生成者Spout和数据流的运算者Bolt组成.如下图所示: 在Storm系统中,数据主要是通过tuple数据结构进行传输的.tuple就是一个列表,列表中可以存放任何类型的数据(该数据类型必须要实现序列化). Spout的作用就是从数据源中获取需要的数据,起到一个数据采集器的作用.然后spout…