spark包

spark-assembly-1.5.2-hadoop2.6.0.jar

http://blog.csdn.net/ronaldo4511/article/details/53035494

http://doc.okbase.net/qindongliang1922/archive/172752.html

name := "spark-hello"

version := "1.0"

scalaVersion := "2.11.7"

//使用公司的私服

resolvers += "Local Maven Repository" at "http://dev.bizbook-inc.com:8083/nexus/content/groups/public/"

//使用内部仓储

externalResolvers := Resolver.withDefaultResolvers(resolvers.value, mavenCentral = false)

//Hadoop的依赖

libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.7.1"

//Spark的依赖

libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "1.4.1"

//Spark SQL 依赖

libraryDependencies += "org.apache.spark" % "spark-sql_2.11" % "1.4.1"

//java servlet 依赖

libraryDependencies += "javax.servlet" % "javax.servlet-api" % "3.0.1"

demo1：使用Scala读取HDFS的数据：

 /** *

    * Spark读取来自HDFS的数据

    */

def readDataFromHDFS(): Unit ={

    //以standalone方式运行,提交到远程的spark集群上面

    val conf = new SparkConf().setMaster("spark://h1:7077").setAppName("load hdfs data")

    conf.setJars(Seq(jarPaths));

    //得到一个Sprak上下文

    val sc = new SparkContext(conf)

    val textFile=sc.textFile("hdfs://h1:8020/user/webmaster/crawldb/etl_monitor/part-m-00000")

    //获取第一条数据

    //val data=textFile.first()

   // println(data)

    //遍历打印

      /**

libraryDependencies+="org.apache.spark"%"spark-sql_2.11"%"2.1.0"%"provided"

libraryDependencies+="org.apache.spark"%"spark-mllib_2.11"%"2.1.0"%"provided"

libraryDependencies+="org.apache.spark"%"spark-graphx_2.11"%"2.1.0"%"provided"

libraryDependencies+="org.apache.spark"%"spark-streaming_2.11"%"2.1.0"%"provided"

libraryDependencies+="com.github.scopt"%"scopt_2.11"%"3.5.0"

libraryDependencies+="org.apache.spark"%"spark-streaming-kafka-0-8_2.11"%"2.1.0"

libraryDependencies+="org.apache.spark"%"spark-streaming-flume_2.11"%"2.1.0"

spark包的更多相关文章

eclispe集成Scalas环境后，导入外部Spark包报错：object apache is not a member of package org
在Eclipse中集成scala环境后,发现导入的Spark包报错,提示是:object apache is not a member of package org,网上说了一大推,其实问题很简单: ...
sparklyr包：实现Spark与R的接口+sparklyr 0.5
本文转载于雪晴数据网相关内容: sparklyr包:实现Spark与R的接口,会用dplyr就能玩Spark Sparklyr与Docker的推荐系统实战 R语言︱H2o深度学习的一些R语言实践-- ...
在 Azure HDInsight 中安装和使用 Spark
Spark本身用Scala语言编写,运行于Java虚拟机(JVM).只要在安装了Java 6以上版本的便携式计算机或者集群上都可以运行spark.如果您想使用Python API需要安装Python解 ...
spark伪分布式安装
一,在官网下载对应的版本http://spark.apache.org/downloads.html 二在linux中解压下来的spark包三:配置环境变量 (1)在/etc/profi ...
Spark 2.6.1 源代码在 eclipse 的配置
本文地址:http://www.cnblogs.com/jying/p/3671767.html 这么个问题又耗费了偶一天时间,真是羞愧.. 上午从官网svn地址下载最新的 spark 包,总是下载失 ...
Spark排错与优化
一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成 ...
Spark on Mesos部署
一.Mesos的安装和部署 1.下载mesos源码和依赖包部署环境 centOS 6.6 mesos-0.21.0 spark-1.4.1 因为mesos官方只提供源码,所以必须要自己进行编译安装使 ...
提交jar作业到spark上运行
1.引入spark包:spark-assembly-1.4.0-hadoop2.6.0,在spark的lib目录下 File-->project structure 2.用IDEA建立一个sca ...
使用Intellij IDEA构建spark开发环境
近期开始研究学习spark,开发环境有多种,由于习惯使用STS的maven项目,但是按照许多资料的方法尝试以后并没有成功,也可能是我环境问题:也可以是用scala中自带的eclipse,但是不太习惯, ...

随机推荐

DropDownList绑定及修改
DropDownList绑定及修改 http://www.cnblogs.com/hulang/archive/2010/12/29/1920662.html ? 1 2 3 4 5 6 7 8 ...
Karma+Jasmine测试环境搭建
1.如果你还没安装node的话,去这里下载:http://nodejs.cn/download/,选择跟你电脑匹配的并进行安装,一路next下来就行,路径最好改成自己让自己舒服的,默认的路径可能会很让 ...
v-show, v-if, 以及动态组件的区别
vue提供了v-if, v-show来动态显示隐藏组件同时也提供了<component>元素在一个挂载点上动态的切换组件, 通过 is 来决定哪个组件被渲染显示配合<keep-a ...
关闭PhpStorm拼写错误
基于scrapy的一些实例
一.爬取斗鱼主播 1. 爬虫文件 # -*- coding: utf-8 -*- import scrapy import json from Douyu.items import DouyuItem ...
剑指offer——面试题15：二进制中 1的个数
// 面试题15:二进制中1的个数 // 题目:请实现一个函数,输入一个整数,输出该数二进制表示中1的个数.例如 // 把9表示成二进制是1001,有2位是1.因此如果输入9,该函数输出2. #inc ...
Linux中断分层--软中断和tasklet
1. Linux中断分层 (1)上半部:当中断发生时,它进行相应的硬件读写,并“登记”该中断.通常由中断处理程序充当上半部.(一般情况下,上半部不可被打断) (2)下半部:在系统空闲的时候,对上半部“ ...
spring IoC源码分析（3）Resource解析
引自 spring IoC源码分析 (3)Resource解析定义好了Resource之后,看到XmlFactoryBean的构造函数 public XmlBeanFactory(Resource ...
html中的flv视频播放器
项目中要播放flv视屏,第一时间想到html5的<video>标签,只是很可惜<video>兼容性差也就算了,居然还对格式有明确限制,也就是说只支持Ogg.MPEG4.WebM ...
php 中全局变量global 的使用
简介即使开发一个新的大型PHP程序,你也不可避免的要使用到全局数据,因为有些数据是需要用到你的代码的不同部分的.一些常见的全局数据有:程序设定类.数据库连接类.用户资料等等.有很多方法能够使这些数 ...

spark包

spark包的更多相关文章

随机推荐

热门专题