工作中用到了apache-spark,想深入了解一下,决定从源码开始. 先导入到常用的ide,eclipse吧: 准备工作 1.  下载Eclipse:http://scala-ide.org/ 2.  从github上下载源码:https://github.com/apache/spark 第一个实验品是Spark-Core项目 1. exist maven project 导入Eclipse 2. Eclipse自动导入依赖,这个过程时间较长,请等待 完成后,发现报错: spark buil…
误解一:Spark是一种内存技术 大家对Spark最大的误解就是其是一种内存技术(in-memorytechnology).其实不是这样的!没有一个Spark开发者正式说明这个,这是对Spark计算过程的误解. 我们从头开始说明.什么样的技术才能称得上是内存技术?在我看来,就是允许你将数据持久化(persist)在RAM中并有效处理的技术.然而Spark并不具备将数据数据存储在RAM的选项,虽然我们都知道可以将数据存储在HDFS,Tachyon,HBase,Cassandra等系统中,但是不管是…
Fabio(Go 语言):https://github.com/eBay/fabio Fabio 是一个快速.现代.zero-conf 负载均衡 HTTP(S) 路由器,用于部署 Consul 管理的微服务. Fabio 由 eBay Classifieds Group 开发,用于处理 marktplaats.nl 和 kijiji.it 的流量.Marktplaats 所有的流量都经过 Fabio ,每秒有 250000 个请求,分发于数个 Fabio 实例,并且没有出现任何延迟. 简单流程图…
Fabio 安装和简单使用 Fabio(Go 语言):https://github.com/eBay/fabio Fabio 是一个快速.现代.zero-conf 负载均衡 HTTP(S) 路由器,用于部署 Consul 管理的微服务. Fabio 由 eBay Classifieds Group 开发,用于处理 marktplaats.nl 和 kijiji.it 的流量.Marktplaats 所有的流量都经过 Fabio ,每秒有 250000 个请求,分发于数个 Fabio 实例,并且没…
标签(空格分隔): Spark 还记得上次的wordCount程序嘛?通过这个小程序,我们来一窥Spark的框架是什么样子的. sc.textFile("/usr/local/Cellar/apache-spark/1.3.0/README.md").flatMap(line => line.split(" ")).map(w => (w, 1)).reduceByKey(_+_).foreach(println) 整个单词统计的过程可以分为4个阶段:1…
标签(空格分隔): Spark 学习中的知识点:函数式编程.泛型编程.面向对象.并行编程. 任何工具的产生都会涉及这几个问题: 现实问题是什么? 理论模型的提出. 工程实现. 思考: 数据规模达到一台机器无法处理的时候,如何在有限的时间内对整个数据集进行遍历及分析? Google针对大数据问题提出的一些解决方案: MapReduce: 计算框架: GFS:数据存储 BigTable:NoSQL始祖. Hadoop是根据MapReduce和GFS两大论文所做的开源实现,因此,它主要解决2大问题:数…
1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个 耗时25.766秒 in 80000个 耗时78.827秒 2.union all/union 不支持顶层的union all eg. select key from src UNION ALL select key from te…
在所有master和slave上也要在spark/conf/spark-conf.sh里面设置driver的classpath,解决编译找不到driver的问题 http://www.iteblog.com/archives/1300 类似这样:  export SPARK_CLASSPATH=$SPARK_CLASSPATH:/iteblog/com/mysql-connector-java-5.1.3 spark-sql driver要到1.4以上 sbt: name := "hoursAv…
code: import java.sql.{ResultSet, DriverManager} import com.mysql.jdbc.Connection object hoursAvg { val url = "jdbc:mysql://IP/dB" val user = "username" val password = "password" val host = "IP" val database = "…
在MacOs上配置hadoop和spark环境 Setting up Hadoop with Spark on MacOs Instructions 准备环境 如果没有brew,先google怎样安装brew 先uninstall老版本的Hadoop brew cleanup hadoop 然后更新homebrew formulae brew update brew upgrade brew cleanup 检查版本信息 brew info hadoop brew info apache-spa…