【待补充】[Spark Core] Spark 实现标签生成

0. 说明

　　在 IDEA 中编写 Spark 代码实现将 JSON 数据转换成标签，分别用 Scala & Java 两种代码实现。

1. 准备

　　1.1 pom.xml

    <dependencies>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.1.0</version>

        </dependency>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>4.12</version>

        </dependency>

        <dependency>

            <groupId>com.alibaba</groupId>

            <artifactId>fastjson</artifactId>

            <version>1.2.47</version>

        </dependency>

    </dependencies>

　　1.2 工具类 TagUtil

import com.alibaba.fastjson.JSON;

import com.alibaba.fastjson.JSONArray;

import com.alibaba.fastjson.JSONObject;

import java.util.ArrayList;

import java.util.List;

/**

 * 从 json 中抽取评论集合

 */

public class TagUtil {

    public static List<String> extractTag(String json) {

        List<String> list = new ArrayList<String>();

        // 将字符串解析成 json 对象

        JSONObject obj = JSON.parseObject(json);

        JSONArray arr = obj.getJSONArray("extInfoList");

        if (arr != null && arr.size() > 0) {

            // 得到数组的第一个 json 对象

            JSONObject firstObj = arr.getJSONObject(0);

            JSONArray values = firstObj.getJSONArray("values");

            if (values != null && values.size() > 0) {

                for (int i = 0; i < values.size(); i++) {

                    String tag = values.getString(i);

                    list.add(tag);

                }

            }

        }

        return list;

    }

}

2. 标签生成代码编写

　　2.1 Scala 版

import java.util

import com.share.util.TagUtil

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

/**

  * 标签生成

  */

object TaggenScala1 {

  def main(args: Array[String]): Unit = {

    // 创建 spark 配置对象

    val conf = new SparkConf()

    conf.setAppName("TaggenApp")

    conf.setMaster("local")

    // 创建上下文

    val sc = new SparkContext(conf)

    // 1. 加载文件

    val rdd1 = sc.textFile("file:///e:/temptags.txt")

    // 2. 解析每行的json数据成为集合

    val rdd2: RDD[(String, java.util.List[String])] = rdd1.map(line => {

      val arr: Array[String] = line.split("\t")

      // 商家id

      val busid: String = arr(0)

      // json

      val json: String = arr(1)

      val list: java.util.List[String] = TagUtil.extractTag(json)

      Tuple2[String, java.util.List[String]](busid, list)

    })

    // 3. 过滤空集合 (85766086,[干净卫生, 服务热情, 价格实惠, 味道赞])

    val rdd3: RDD[(String, util.List[String])] = rdd2.filter((t: Tuple2[String, java.util.List[String]]) => {

      !t._2.isEmpty

    })

    // 4. 将值压扁  (78477325,味道赞)

    val rdd4: RDD[(String, String)] = rdd3.flatMapValues((list: java.util.List[String]) => {

      // 导入隐式转换

      import scala.collection.JavaConversions._

      list

    })

    // 5. 滤除数字的tag  (78477325,菜品不错)

    val rdd5 = rdd4.filter((t: Tuple2[String, String]) => {

      try {

        Integer.parseInt(t._2)

        false

      } catch {

        case _ => true

      }

    })

    // 6. 标1成对  ((70611801,环境优雅),1)

    val rdd6: RDD[Tuple2[Tuple2[String, String], Int]] = rdd5.map((t: Tuple2[String, String]) => {

      Tuple2[Tuple2[String, String], Int](t, 1)

    })

    // 7. 聚合  ((78477325,味道赞),8)

    val rdd7: RDD[Tuple2[Tuple2[String, String], Int]] = rdd6.reduceByKey((a: Int, b: Int) => {

      a + b

    })

    // 8. 重组 (83073343,List((性价比高,8)))

    val rdd8: RDD[Tuple2[String, List[Tuple2[String, Int]]]] = rdd7.map((t: Tuple2[Tuple2[String, String], Int]) => {

      Tuple2[String, List[Tuple2[String, Int]]](t._1._1, Tuple2[String, Int](t._1._2, t._2) :: Nil)

    })

    // 9. reduceByKey  (71039150,List((环境优雅,1), (价格实惠,1), (朋友聚会,1), (团建,1), (体验好,1)))

    val rdd9: RDD[Tuple2[String, List[Tuple2[String, Int]]]] = rdd8.reduceByKey((a: List[Tuple2[String, Int]], b: List[Tuple2[String, Int]]) => {

      a ::: b

    })

    // 10. 分组内排序  (88496862,List((回头客,5), (服务热情,4), (味道赞,4), (分量足,3), (性价比高,2)))

    val rdd10: RDD[Tuple2[String, List[Tuple2[String, Int]]]] = rdd9.mapValues((list: List[Tuple2[String, Int]]) => {

      val list2: List[Tuple2[String, Int]] = list.sortBy((t: Tuple2[String, Int]) => {

        -t._2

      })

      list2.take(5)

    })

    // 11. 商家间排序 (75144086,List((服务热情,38), (效果赞,30), (无办卡,22), (环境优雅,22), (性价比高,21)))

    val rdd11: RDD[Tuple2[String, List[Tuple2[String, Int]]]] = rdd10.sortBy((t: Tuple2[String, List[Tuple2[String, Int]]]) => {

      t._2(0)._2

    }, false)

    rdd11.collect().foreach(println)

  }

}

　　2.2 Java 版

待补充。。。

【待补充】[Spark Core] Spark 实现标签生成的更多相关文章

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
[Spark Core] Spark 使用第三方 Jar 包的方式
0. 说明 Spark 下运行job,使用第三方 Jar 包的 3 种方式. 1. 方式一将第三方 Jar 包分发到所有的 spark/jars 目录下 2. 方式二将第三方 Jar 打散,和我们 ...
[Spark Core] Spark Client Job 提交三级调度框架
0. 说明官方文档 Job Scheduling Spark 调度核心组件: DagScheduler TaskScheduler BackendScheduler 1. DagSchedule ...
[Spark Core] Spark 核心组件
0. 说明 [Spark 核心组件示意图] 1. RDD resilient distributed dataset , 弹性数据集轻量级的数据集合,逻辑上的集合.等价于 list 没有携带数据. ...
[Spark Core] Spark 在 IDEA 下编程
0. 说明 Spark 在 IDEA 下使用 Scala & Spark 在 IDEA 下使用 Java 编写 WordCount 程序 1. 准备在项目中新建模块,为模块添加 Maven ...
[Spark Core] Spark 实现气温统计
0. 说明聚合气温数据,聚合出 MAX . MIN . AVG 1. Spark Shell 实现 1.1 MAX 分步实现 # 加载文档 val rdd1 = sc.textFile(" ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark 3.x Spark Core详解 & 性能优化
Spark Core 1. 概述 Spark 是一种基于内存的快速.通用.可扩展的大数据分析计算引擎 1.1 Hadoop vs Spark 上面流程对应Hadoop的处理流程,下面对应着Spark的 ...
Spark Core
Spark Core DAG概念有向无环图 Spark会根据用户提交的计算逻辑中的RDD的转换(变换方法)和动作(action方法)来生成RDD之间的依赖关系,同时 ...

随机推荐

visual studio code 个人设置
{ "vim.disableAnnoyingNeovimMessage": true, "php.validate.executablePath": " ...
rsync实现文件同步
rsync是类unix系统下的数据镜像备份工工具,一般linux系统都自带了 [可以确认一下:shell>rpm -qa|grep rsync] 服务端:192.168.1.2 同步目录:/h ...
Golang 函数function
函数function Go函数不支持嵌套.重载和默认参数但支持以下特性: 无需声明原型不定长度变参多返回值命名返回值参数匿名函数闭包定义函数使用关键字func,且左大括号不能另起一行函 ...
Spring 3.1新特性之二：@Enable*注解的源码,spring源码分析之定时任务Scheduled注解
分析SpringBoot的自动化配置原理的时候,可以观察下这些@Enable*注解的源码,可以发现所有的注解都有一个@Import注解.@Import注解是用来导入配置类的,这也就是说这些自动开启的实 ...
Deep learning with Python 学习笔记（4）
本节讲卷积神经网络的可视化三种方法可视化卷积神经网络的中间输出(中间激活) 有助于理解卷积神经网络连续的层如何对输入进行变换,也有助于初步了解卷积神经网络每个过滤器的含义可视化卷积神经网络的过滤 ...
浅谈移动应用的跨平台开发工具（Xamarin和React Native）
谈移动应用的跨平台开发不能不提HTML5,PhoneGap和Sencha等平台一直致力于使用HTML5技术来开发跨平台的移动应用,现在看来这个方向基本算是失败的,基于HTML5的移动应用在用户体验上与 ...
[转]DevOps实战：百度持续交付体系与最佳实践大解密！
本文转自:http://dbaplus.cn/news-21-471-1.html “互联网+”时代,软件产品要想满足快速增长的用户需求,高效.快速的迭代转型必不可少,面对时刻发生改变的互联网及业务模 ...
Spring Cloud学习笔记--Spring Boot初次搭建
1. Spring Boot简介初次接触Spring的时候,我感觉这是一个很难接触的框架,因为其庞杂的配置文件,我最不喜欢的就是xml文件,这种文件的可读性很不好.所以很久以来我的Spring学习都 ...
【Spring】2、BeanFactory 和FactoryBean的区别
转自:http://chenzehe.iteye.com/blog/1481476 1. BeanFactory BeanFactory定义了 IOC 容器的最基本形式,并提供了 IOC 容器应遵守的 ...
C++基于范围的for循环性能测试（针对std::vector）
1.代码如下: void output1(int x){ if (x == 10000000) { std::cout << x << std::endl; } }const ...

【待补充】[Spark Core] Spark 实现标签生成

0. 说明

1. 准备

2. 标签生成代码编写

【待补充】[Spark Core] Spark 实现标签生成的更多相关文章

随机推荐

热门专题