Spark + sbt + IDEA + HelloWorld + MacOS

构建项目步骤

首先要安装好scala、sbt、spark，并且要知道对应的版本
- sbt版本可以在sbt命令行中使用sbtVersion查看
- spark-shell可以知晓机器上spark以及对应的scala的版本
IDEA中plugin安装scala插件
- pass

修改配置文件改变IDEA下sbt依赖下载速度慢的问题

参考官网：

具体做法：

vi ~/.sbt/repositories

<---加入--->

[repositories]

local

oschina: http://maven.aliyun.com/nexus/content/groups/public/

jcenter: http://jcenter.bintray.com/

typesafe-ivy-releases: http://repo.typesafe.com/typesafe/ivy-releases/, [organization]/[module]/[revision]/[type]s/[artifact](-[classifier]).[ext], bootOnly

maven-central: http://repo1.maven.org/maven2/

<---结束--->

并在IDEA中找到sbt下的VM parameters，往其中加入：

-Xmx2048M

-XX:MaxPermSize=512m

-XX:ReservedCodeCacheSize=256m

-Dsbt.log.format=true

-Dsbt.global.base=/Users/shayue/.sbt  （这里应该替换成.sbt所在地址，下同）

-Dsbt.boot.directory=/Users/shayue/.sbt/boot/

-Dsbt.ivy.home=/Users/shayue/.ivy2    （这里应该替换成.ivy2所在地址，下同）

-Dsbt.override.build.repos=true

-Dsbt.repository.config=/Users/shayue/.sbt/repositories

其中倒数第二句是Jetbrain给出的官方做法，参考https://www.scala-sbt.org/1.0/docs/Command-Line-Reference.html#Command+Line+Options 的最后一行

通过sbt构建scala项目，选对版本

修改build.sbt和build.properties，在其中加入适合的版本，并引入Spark依赖

# build.sbt

name := "Name_of_APP"

version := "0.1"

scalaVersion := "2.12.8"

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.4.2"

libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.4.2"

# build.properties

sbt.version = 1.2.4

其中spark的依赖可以通过spark下载页面找到，或者参考http://spark.apache.org/docs/latest/rdd-programming-guide.html 中的Link with Spark

代码

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.log4j.{Level,Logger}

object ScalaApp {

    def main(args: Array[String]) {

        //屏蔽启动spark等日志

        Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

        Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

        // 设置数据路径

        val path = "/Users/shayue/Sample_Code/Machine-Learning-with-Spark/Chapter01/scala-spark-app/data/UserPurchaseHistory.csv"

        // 初始化SparkContext

        val sc = new SparkContext("local[2]", "First Spark App")

        // 将 CSV 格式的原始数据转化为(user,product,price)格式的记录集

        val data = sc.textFile(path)

            .map(line => line.split(","))

            .map(purchaseRecord => (purchaseRecord(0), purchaseRecord(1), purchaseRecord(2)))

        // 求购买总次数

        val numPurchases = data.count()

        // 求有多少个不同用户购买过商品

        val uniqueUsers = data.map{ case (user, product, price) => user }.distinct().count()

        // 求和得出总收入

        val totalRevenue = data.map{ case (user, product, price) => price.toDouble }.sum()

        // 求最畅销的产品是什么

        val productsByPopularity = data

            .map{ case (user, product, price) => (product, 1) }

            .reduceByKey(_ + _ ).collect()

            .sortBy(-_._2)

        val mostPopular = productsByPopularity(0)

        // 打印

        println("Total purchases: " + numPurchases)

        println("Unique users: " + uniqueUsers)

        println("Total revenue: " + totalRevenue)

        println("Most popular product: %s with %d purchases" .format(mostPopular._1, mostPopular._2))

    }

}

输出：

Total purchases: 5

Unique users: 4

Total revenue: 39.91

Most popular product: iPhone Cover with 2 purchases

参考

第一张VM parameter修改参考https://blog.csdn.net/jameshadoop/article/details/522957109153012.html
代码来自《Spark机器学习》第二版

Spark + sbt + IDEA + HelloWorld + MacOS的更多相关文章

IDEA 学习笔记之 Spark/SBT项目开发
Spark/SBT项目开发: 下载Scala SDK 下载SBT 配置IDEA SBT:(如果不配置,就会重新下载SBT, 非常慢,因为以前我已经下过了,所以要配置为过去使用的SBT) 新建立SBT项 ...
Eclipse + Idea + Maven + Scala + Spark +sbt
http://jingpin.jikexueyuan.com/article/47043.html 新的scala 编译器idea使用 https://www.jetbrains.com/idea/h ...
spark入门（helloworld插件）
1 http://www.cnblogs.com/openfire/archive/2013/04/26/3044722.html 2 在bulid文件夹下,(注意为主目录不是插件下的bulid.xm ...
[转] 用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? [sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需 ...
用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要 ...
Spark环境搭建（六）-----------sprk源码编译
想要搭建自己的Hadoop和spark集群,尤其是在生产环境中,下载官网提供的安装包远远不够的,必须要自己源码编译spark才行. 环境准备: 1,Maven环境搭建,版本Apache Maven 3 ...
sbt安装
使用 Scala 编写的程序需要使用 sbt 进行编译打包,官网sbt下载解压在解压路径下创建脚本: #!/bin/bash SBT_OPTS="-Xms512M -Xmx1536M -X ...
Spark和pyspark的配置安装
如何安装Spark和Pyspark构建Spark学习环境[MacOs] JDK环境 Python环境 Spark引擎下载地址:Apache-Spark官网 MacOs下一般安装在/usr/local ...
查看Spark与Hadoop等其他组件的兼容版本
安装与Spark相关的其他组件的时候,例如JDK,Hadoop,Yarn,Hive,Kafka等,要考虑到这些组件和Spark的版本兼容关系.这个对应关系可以在Spark源代码的pom.xml文件中查 ...

随机推荐

3.使用webpack配置文件webpack.confg.js配置打包文件的入口和出口
在项目根目录下新建webpack.config.js文件 webpack.config.js文件配置如下: // Node的路径操作使用的是path模块 const path=require('pat ...
[转载]yarn的安装和使用
yarn的安装和使用 2018-08-02 10:45:41 yw00yw 阅读数 50696 文章标签: yarn 更多分类专栏: 工具版权声明:本文为博主原创文章,遵循CC 4.0 BY- ...
ActiveMQ之JMS及保证消息的可靠性<持久化、事务、签收>(三)
1.JAVAEE 是一套使用Java 进行企业级开发的13 个核心规范工业标准 , 包括: JDBC 数据库连接 JNDI Java的命名和目录接口 EJB Enterprise java b ...
纯css实现树形结构
纯css实现属性结构 **css实现属性结构的思路是利用伪类实现树形结构连接线,如果想实现点击展开和收缩以及复选框效果还得配合js来实现.其实展开和收缩就是一个点击元素其子元素隐藏和显示的切换.* ...
【模板】A*B Problem升级版（FFT快速傅里叶）
题目描述给出两个 $n$ 位10进制数x和y,求x*y(详见洛谷P1919) 分析假设已经学会了FFT/NTT. 高精度乘法只是多项式乘法的特殊情况,相当于$x=10$ 时. 例如n=3,求12 ...
rxjs——subject和Observable的区别
原创文章,转载请注明出处理解 observable的每个订阅者之间,是独立的,完整的享受observable流动下来的数据的. subject的订阅者之间,是共享一个留下来的数据的举例这里的cl ...
（转）实验文档3：在kubernetes集群里集成Apollo配置中心
使用ConfigMap管理应用配置拆分环境主机名角色 ip HDSS7-11.host.com zk1.od.com(Test环境) 10.4.7.11 HDSS7-12.host.com zk ...
Liunx之基础学习
用户提权命令之-sudo sudo命令用来以其他身份来执行命令,预设的身份为root.在/etc/sudoers中设置了可执行sudo指令的用户.若其未经授权的用户企图使用sudo,则会发出警告的邮件 ...
AE开发之默认滚轮缩放功能反置（C#修改注册表数据）
ArcMap默认的滚轮缩放是向下放大,向上缩小如果想修改成向上放大,向下缩小,直接在ArcMap-Customize-ArcMap Options里, 将最下面的Mouse Wheel and Co ...
msf端口扫描
使用MSF发现主机和端口扫描使用search命令查找需要的模块 MSF模块太多,记不住怎么办!!! 我们不需要记住所有模块,我们只要能找到我们想用的模块就行,平时积累使用的模块也行哦! 比如,我们通 ...

Spark + sbt + IDEA + HelloWorld + MacOS

构建项目步骤

代码

参考

Spark + sbt + IDEA + HelloWorld + MacOS的更多相关文章

随机推荐

热门专题