spark-streaming-kafka包源码分析】的更多相关文章

spark的存储系统--BlockManager源码分析 根据之前的一系列分析,我们对spark作业从创建到调度分发,到执行,最后结果回传driver的过程有了一个大概的了解.但是在分析源码的过程中也留下了大量的问题,最主要的就是涉及到的spark中重要的几个基础模块,我们对这些基础设施的内部细节并不是很了解,之前走读源码时基本只是大概了解每个模块的作用以及对外的主要接口,这些重要的模块包括BlockMananger, MemoryMananger, ShuffleManager, MapOut…
一.前述 Spark中资源调度是一个非常核心的模块,尤其对于我们提交参数来说,需要具体到某些配置,所以提交配置的参数于源码一一对应,掌握此节对于Spark在任务执行过程中的资源分配会更上一层楼.由于源码部分太多本节只抽取关键部分和结论阐述,更多的偏于应用. 二.具体细节 1.Spark-Submit提交参数 Options: --master MASTER_URL, 可以是spark://host:port, mesos://host:port, yarn,  yarn-cluster,yarn…
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4024733.html 在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数,本文主要分析其中的相关系数计算的原理与实现: 一.基本原理 在stat包中实现了皮尔逊(Pearson)与斯皮尔曼(Spearman)两类相关系数的计算 (1)Pearson:   (x,y)协方差/[(x标准方差)*(y标准方差)]…
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4019131.html 在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数,本文主要分析其中的卡方检验的原理与实现: 一.基本原理 在stat包中实现了皮尔逊卡方检验,它主要包含以下两类 (1)适配度检验(Goodness of Fit test):验证一组观察值的次数分配是否异于理论上的分配. (2)独立性检验(independence test) :验证从两个变量抽出…
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或random forest也是常以其为基础的 决策树算法本身参考之前的blog,其实就是贪婪算法,每次切分使得数据变得最为有序   那么如何来定义有序或无序? 无序,node impurity 对于分类问题,我们可以用熵entropy或Gini来表示信息的无序程度 对于回归问题,我们用方差Variance…
python如何查看内置函数的用法及其源码? 在anaconda的安装目录下,有一块会放着我们安装的所有包,在里面可以找到所有的包 找到scikit learn包,进入 这里面又有了多个子包,每个子包就是一个主要的算法或功能块.我们经常使用的一些算法或功能,比如线性模型.集成算法.神经网络.邻近neighbors算法,都是在这里面实现的.我们可以进入这些代码,看看底层到底是如何实现的. 来理一下sklearn中neighbors算法的实现. knn算法原理 neighbors中,又分为按照不同的…
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4042467.html 本文主要以mllib 1.1版本为基础,分析朴素贝叶斯的基本原理与源码 一.基本原理 理论上,概率模型分类器是一个条件概率模型. 独立的类别变量有若干类别,条件依赖于若干特征变量 ,,...,.但问题在于如果特征数量较大或者每个特征能取大量值时,基于概率模型列出概率表变得不现实.所以我们修改这个模型使之变得可行. 贝叶斯定理有以下式子: 对于朴素贝叶斯,它的特征变量,,...,是…
由于gitbook网速不好,所以复制自https://zx150842.gitbooks.io/spark-1-6-1-source-code/content/,非原创,纯属搬运工,若作者要求,可删除. 这本书主要用来记录学习spark 1.6.1源码,希望通过阅读本书,对spark主要功能模块以及模块之间的调用有一个新的认识,对模块中核心的代码会附上个人的注释.由于个人能力有限,书中内容可能会有错误,还请指正.…
本文主要以mllib 1.1版本为基础,分析决策树的基本原理与源码 一.基本原理 二.源码分析 1.决策树构造 指定决策树训练数据集与策略(Strategy)通过train函数就能得到决策树模型DecisionTreeModel 决策树策略包含了:algo(算法类型:分类.回归),impurity(信息增益计算算法).maxDepth(数最大深度). numClassesForClassification(数分类分支数目,为2就是二叉数),maxBins(特征变量最大的分类数目限制). quan…
转载请注明原创地址 http://www.cnblogs.com/dongxiao-yang/p/5443789.html 最近由于使用sparkstreaming的同学需要对接到部门内部的的kafka集群,由于官方的spark-streaming-kafka包和现有公司的kafka集群权限系统无法对接,需要研究下spark-streaming-kafka包原有代码以便改造,本文研究的代码版本为spark在github的tag的v1.6.1版本. 官方给出的JavaKafkaWordCount以…