用Scala实现文件中英文单词出现次的统计、

2024-09-04

使用Scala实现文件单词计数

package com.dtapp.base import scala.io.Source object WCntApp { def main(args: Array[String]) { val file = Source.fromFile("E:\\abc.txt", "UTF-8") var map = Map.empty[String, Int] for (line <- file.getLines){ val words = line.split(&

关于TXT文件中英文单词出现频率排序问题

题目要求: 指定文件目录, 但是会递归遍历目录下的所有子目录,输出文件中所有不重复的单词,按照出现次数由多到少排列. 源码: package word; import java.io.File; import java.io.InputStreamReader; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileInputStream;import java.util.Arra

python实现指定目录下批量文件的单词计数：并发版本

在文章 <python实现指定目录下批量文件的单词计数:串行版本>中, 总体思路是: A. 一次性获取指定目录下的所有符合条件的文件 -> B. 一次性获取所有文件的所有文件行 -> C. 解析所有文件行的单词计数 -> D. 按单词出现次数排序并输出TOPN. A,B,C,D 是完全串行的本文实现并发版本. 并发版本的主要思路是: A. 每次获取一个符合条件的文件 -> B. 获取单个文件的所有文件行 -> C. 解析单个文件的所有单词计数 ->

Scala统计一个文件所有单词出现的次数

1 import scala.io.Source 2 3 object WordCount extends App { 4 5 val path = "C:\\Users\\Administrator\\Desktop\\ff\\fzsExample\\src" 6 val file = new File(path) 7 val files = file.listFiles().filter(_.isFile) 8 val mapData = scala.collection.muta

linux查找某个文件中单词出现的次数

scala基本语法和单词统计

scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用. (2)var i = "hello" 使用var声明的变量值是可变的 (3)val s = "hi" scala编译器会自动推断变量的类型,必要的时候可以指定类型,变量名在前,类型在后 2.常用的类型 Scala和Java一样,有7种数值类型Byte.Char.Short.Int.Long.Float和Double(无包装

Scala的文件读写操作与正则表达式

目录在本篇博客中你将会学习并了解常用的文件处理任务,例如读取文件的一行文本,本博客的要点包含: Source.fromFile(...).getLines.toArray 输出文件所有行 Source.fromFile(...).mkString 以字符串形式输出文件内容将字符串转换为数字,可以使用toInt或toDouble方法使用java的PrintWriter写入文本文件 "正则".r是一个Regex对象若你的正则表达式包含反斜杠或者引号,请用""&q

Scala 读文件

环境: Cent OS 6.3 以下说明怎样读取一个文件. 代码: $ cat fileRead.scala import scala.io.Source if (args.length > 0) { for (line <- Source.fromFile(args(0)).getLines) println(line) } else Console.err.println("Please enter the filename") 执行结果: $ scala fileRe

scala读写文件 comparing values of types Unit and Int using `!=' will always yield true

由于scala没有对写入文件的支持,所以写文件时通常借助java进行IO操作 //方式一(小文件) /* val s1 = Source.fromFile("D:\\inputword\\hello.txt","GBK"); val buffer = s1.toList.toArray val des = new PrintWriter("C:\\Users\\Administrator\\Desktop\\scalatest.txt"); de

java对于目录下的相关文件的单词操作

写入文件的目录.代码通过找目录下的文件,进行相关函数的操作.如果目录下面包含子目录.代码设有调用递归的方法,在寻找子目录下的文件在进行相关的函数操作.函数主要是按用户输入的个数要求输出文件中出现次数最多的前几位字母. package com.keshangone; //将想要输出的数据写入新的文件里面 import java.util.*; import java.io.*; import java.util.Scanner; public class zongword { static pu

c++实现文本中英文单词和汉字字符的统计

源代码下载:http://download.csdn.net/detail/nuptboyzhb/4987141 1.统计文本中汉字的频数,为后续的文本分类做基础.对于汉字的统计,需要判断读取的是否为汉字.源代码如下: [C++ code] [cpp] view plaincopy /* *@author:郑海波 http://blog.csdn.net/NUPTboyZHB *参考:实验室小熊 *注:有删改 */ #pragma warning(disable:4786) #include <

scala 读取文件遇到encode问题（Mac －> remote Linux）

Source.fromFile(fileName)(enc: Encode),如果遇到错误: java.nio.charset.MalformedInputException: Input length = 1 at java.nio.charset.CoderResult.throwException(CoderResult.java:277) at sun.nio.cs.StreamDecoder.implRead(StreamDecoder.java:337) at sun.nio.cs.

scala 读取文件加下的指定文件

1,获取指定类型文件 def getFile(file:File): Array[File] ={ val files = file.listFiles().filter(! _.isDirectory) .filter(t => t.toString.endsWith(".csv")) //此处读取.txt and .csv文件 files ++ file.listFiles().filter(_.isDirectory).flatMap(getFile) } 2,创建文件指

统计文件中单词的个数---Shell及python版

最近在看shell中有个题目为统计单词的个数,使用了awk功能,代码如下 #!/bin/bash ];then echo "Usage:basename $0 filename" exit fi filename=$ egrep -o "[a-zA-Z]+" $filename | awk '{count[$0]++} END{printf "%-14s %s\n","Word","Count" for(i

如何去掉word中英文单词下的红色波浪线

文件 ->选项 ->校对在只隐藏此文档中的拼写错误(S) 选项前打钩,点击确定即可

关于TXT文件中英文字母出现频率排序问题

题目要求: 输出某个英文文本文件中 26 字母出现的频率,由高到低排列,并显示字母出现的百分比,精确到小数点后面两位. 源码: package demo; import java.io.File; import java.io.InputStreamReader; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileInputStream;import java.io.FileR

python实现指定目录下批量文件的单词计数：串行版本

直接上代码. 练习目标: 1. 使用 Python 面向对象的方法封装逻辑和表达 : 2. 使用异常处理和日志API : 3. 使用文件目录读写API : 4. 使用 list, map, tuple 三种数据结构 : 5. lambda .正则使用及其它. 下一篇将实现并发版本. #------------------------------------------------------------------------------- # Name: wordstat_seria

Linux统计文件中单词出现的次数

grep -E "\b[[:alpha:]]+\b" /etc/fstab -o | sort | uniq -c 或 awk '{for(i=1;i<NF;i++){count[$i]++}}END{for(i in count) {print i,count[i]}}' /etc/fstab -E 使用正则进行匹配 \b : backspace 退格 print 参数表示每行匹配完了回车 [[:alpha:]] : 代表所有字符 sort 去重 uniq -c 排序 -

scala读写文件

def main(args: Array[String]): Unit = { //1 read for( i<- Source.fromFile("test.dat").getLines().toArray){ println(i) } // 2 read println(Source.fromFile("test.dat").mkString) //1writeval out = new PrintWriter("test.dat")

使用tuple统计文件中单词的个数

name = input("Enter file:") if len(name) < 1 : name = "input.txt" fhand = open(name) counts = dict() for line in fhand: words = line.split() for word in words: # find the value that key is word, if not, return 0 counts[word] = count

用Scala实现文件中英文单词出现次的统计、

热门专题