Working on a Per-Partition Basis(基于分区的操作) 以每个分区为基础处理数据使我们可以避免为每个数据项重做配置工作.如打开数据库连接或者创建随机数生成器这样的操作,我们希望避免为每个元素重做配置工作.Spark有分区版本的map和foreach,通过让RDD的每个分区只运行一次代码,可帮助降低这些操作的成本. 回到我们的呼号例子中,有一个无线电台呼号的在线数据库,我们可以查询联系日志的公共列表.通过使用基于分区的操作,我们可以分享数据库的连接池来避免为多个连接配置…
Common Transformations and Actions 本章中,我们浏览了Spark中大多数常见的transformation(转换)和action(开工).在包含特定数据类型的RDD上可以进行额外的操作,例如,可以对纯数字RDD使用统计函数,对键值对的RDD进行聚合操作.后面的章节我们会介绍这些特别的操作和RDD类型间的转换. Basic RDD (基础RDD) 首先,在忽略数据的影响的前提下,我们将描述所有的RDD上可以执行的transformation和action.…
Learning Spark: Lightning-Fast Big Data Analysis 中文翻译行为纯属个人对于Spark的兴趣,仅供学习. 如果我的翻译行为侵犯您的版权,请您告知,我将停止对此书的开源翻译. Translation the book of Learning Spark: Lightning-Fast Big Data Analysis is only for spark developer educational purposes. If I violated you…
chapter 1 introduction to the analysis with spark the conponents of Sparks spark core(contains the basic functionality of sparks. spark Core is also the home to the APIs that defines the RDDs), spark sql(structured data ) is the package for worki…
转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最…