Scala 复杂分词求和（二元组）

 1 package chapter07

 2

 3 object Test18_ComplexWordCount {

 4   def main(args: Array[String]): Unit = {

 5     val tupleList: List[(String, Int)] = List(

 6       ("hello", 1),

 7       ("hello world", 2),

 8       ("hello scala", 3),

 9       ("hello spark from scala", 1),

10       ("hello flink from scala", 2)

11     )

12

13     // 思路一：直接展开为普通版本

14     val newStringList: List[String] = tupleList.map(

15       kv => {

16         (kv._1.trim + " ") * kv._2

17       }

18     )

19     println(newStringList)

20

21     // 接下来操作与普通版本完全一致

22     val wordCountList: List[(String, Int)] = newStringList

23       .flatMap(_.split(" "))    // 空格分词

24       .groupBy( word => word )     // 按照单词分组

25       .map( kv => (kv._1, kv._2.size) )     // 统计出每个单词的个数

26       .toList

27       .sortBy(_._2)(Ordering[Int].reverse)

28       .take(3)

29

30     println(wordCountList)

31

32     println("================================")

33

34     // 思路二：直接基于预统计的结果进行转换

35     // 1. 将字符串打散为单词，并结合对应的个数包装成二元组List((hello,1), (hello,2), (world,2), (hello,3), (scala,3), (

36     val preCountList: List[(String, Int)] = tupleList.flatMap(

37       tuple => {

38         val strings: Array[String] = tuple._1.split(" ")

39         strings.map( word => (word, tuple._2) )

40       }

41     )

42     println(preCountList)

43

44     // 2. 对二元组按照单词进行分组

45     val preCountMap: Map[String, List[(String, Int)]] = preCountList.groupBy( _._1 )

46     println(preCountMap)

47

48     // 3. 叠加每个单词预统计的个数值

49     val countMap: Map[String, Int] = preCountMap.mapValues(

50       tupleList => tupleList.map(_._2).sum

51     )

52     println(countMap)

53

54     // 4. 转换成list，排序取前3

55     val countList = countMap.toList

56       .sortWith(_._2 > _._2)

57       .take(3)

58     println(countList)

59   }

60 }

("hello", 1), 说明“hello”字符串已知出现了两次！

Scala 复杂分词求和（二元组）的更多相关文章

Lucene.Net 2.3.1开发介绍 —— 二、分词（二）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(二) 1.2.分词的过程 1.2.1.分词器工作的过程内置的分词器效果都不好,那怎么办?只能自己写了!在写之前当然是要先看看内置的分词 ...
牛客网桂林电子科技大学第三届ACM程序设计竞赛 C.二元-K个二元组最小值和最大-优先队列+贪心(思维)
链接:https://ac.nowcoder.com/acm/contest/558/C来源:牛客网小猫在研究二元组. 小猫在研究最大值. 给定N个二元组(a1,b1),(a2,b2),…,(aN, ...
读取二元组列表，打印目录的层级结构-----C++算法实现
要求是--某个文件中存储了一个最多3层的层级结构,其中每个元素都是一个自然数,它的存储方法是一个二元组的列表,每个二元组的形式为:(元素,父元素).现在希望能够通过读取该二元组列表,打印出目录的层级结 ...
Java实现蓝桥杯互补二元组
分三处 1.当差值为0并且只有一个二元组就不管他 2.当差值为0并且二元组个数>=1加上他并减去它本身 3.当差值为存在并且不为0时直接加上他因为都计算了两次,所以最后ans/2 用了map的 ...
Scala详解---------数组、元组、映射
一.数组 1.定长数组声明数组的两种形式: 声明指定长度的数组 val 数组名= new Array[类型](数组长度) 提供数组初始值的数组,无需new关键字 Scala声明数组时,需要带有Arr ...
Scala具体解释---------数组、元组、映射
一.数组 1.定长数组声明数组的两种形式: 声明指定长度的数组 val 数组名= new Array[类型](数组长度) 提供数组初始值的数组,无需newkeyword Scala声明数组时.须要带 ...
Scala学习笔记之二--基本数据类型
前言本篇主要讲Scala的基本数据类型,更多教程请参考:Scala教程基本数据类型 Scala一共提供了9中数据类型,Scala的基本数据类型与java中的基本数据类型是一一对应的,这是Scala ...
Swift(二,元组,可选类型,类型转化)
一,首先,元组是Swift中特有的,OC中没有元组相关类型,具体怎么用,看下面的例子吧 //1.使用元组来定义一组数据 let infoTuple = (,1.8) let nameTuple = i ...
[ES]elasticsearch章5　ES的分词（二）
Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将 ...
Scala学习教程笔记二之函数式编程、Object对象、伴生对象、继承、Trait、
1:Scala之函数式编程学习笔记: :Scala函数式编程学习: 1.1:Scala定义一个简单的类,包含field以及方法,创建类的对象,并且调用其方法: class User { private ...

随机推荐

nodejs+express4实现文件上传下载删除和列表展示功能
0.效果展示 1.创建项目创建文件夹:express_file_upload npm init # 入口文件选择server.js 安装插件 npm install express npm inst ...
SecureCRT很好用的几个快捷键
以下是我在使用SecureCRT这个SSH工具时用到的很实用的快捷键,与大家分享: [Alt]+[Enter]:全屏 [Alt]+[B]: 快速打开新的连接 [Alt]+[1/2/3/4/5.../9 ...
go经典知识及总结
1.无论sync.Mutex还是其衍生品都会提示不能复制,但是能够编译运行加锁后复制变量,会将锁的状态也复制,所以 mu1 其实是已经加锁状态,再加锁会死锁. 所以此题的答案是 fatal erro ...
【Android逆向】定位native函数在哪个so中方法
1. 在逆向过程中经常需要定位方法在哪个so中,而app加载的so很多,比如那么如何快速定位方法在哪里呢 2. 比如如下案例,首先看日志 03-28 11:01:56.457 14566 14566 ...
Python2升级到Python3
操作系统环境:CentOS Linux release 7.4.1708 (Core). 系统默认Python版本为2.7. 升级前的版本信息: [root@cch-spider-web1 ~]# l ...
【LeetCode链表#10】删除链表中倒数第n个节点（双指针）
删除链表倒数第N个节点力扣题目链接(opens new window) 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点. 进阶:你能尝试使用一趟扫描实现吗? 示例 1: 输入:he ...
ABP模块的测试项目从默认的Microsoft SQL Server替换成MySQL
1.替换项目引用 2.重新生成解决方案 3.删除Migrations 4.模块的引用替换成:AbpEntityFrameworkCoreMySQLModule 5.命名空间替换成:Volo.Abp ...
【Azure Redis 缓存】Redis 连接失败
问题描述 Azure Redis 出现连接失败,过一会儿后,又能自动恢复. 问题解答其实,因为Azure Redis服务一直都有升级维护的操作(平均每月一次),Redis服务更新是平台自动进行的计划 ...
【Azure 环境】Azure 流分析服务(Steam Analytics) 报出 OutputDataConversionError 错误引起延迟及超时
问题描述 Azure 流分析服务(Steam Analytics) 报出 OutputDataConversionError 错误引起延迟及超时. 查看详细错误: 问题解答在错误消息中,有非常明确的 ...
连接微信群、Slack 和 GitHub：社区开放沟通的基础设施搭建
NebulaGraph 社区如何构建工具让 Slack.WeChat 中宝贵的群聊讨论同步到公共领域. 要开放,不要封闭在开源社区中,开放的一个重要意义是社区内的沟通.讨论应该是透明.包容并且方便所 ...

Scala 复杂分词求和（二元组）

Scala 复杂分词求和（二元组）的更多相关文章

随机推荐

热门专题