SparkCore| 算子】的更多相关文章

RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象.代码中是一个抽象类,它代表一个弹性的.不可变.可分区.里面的元素可并行计算的集合.    A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable:可类比String,它也是不可变的,但是可有很多方法,如切分... 1. RDD的属性 每…
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一.RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合.RDD具有数据流模型的特点:自动容错.位置感知性调度和可伸缩性.RDD允许用户在执行多个查询时显式地将工…
1.reduce(func) 通过func函数聚集RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据. scala> val rdd1 = sc.parallelize(1 to 100) scala> rdd1.reduce(_ + _) res0: Int = 5050 scala> val rdd2 = sc.parallelize(Array(("a", 1), ("b", 2), ("c", 3))) scala…
大多数的 Spark 操作可以用在任意类型的 RDD 上, 但是有一些比较特殊的操作只能用在key-value类型的 RDD 上. 这些特殊操作大多都涉及到 shuffle 操作, 比如: 按照 key 分组(group), 聚集(aggregate)等. 在 Spark 中, 这些操作在包含对偶类型(Tuple2)的 RDD 上自动可用(通过隐式转换). object RDD { implicit def rddToPairRDDFunctions[K, V](rdd: RDD[(K, V)]…
1.union(otherDataSet) 作用:求并集. 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD scala> val rdd1 = sc.parallelize(1 to 6) scala> val rdd2 = sc.parallelize(4 to 10) scala> val rdd3 = rdd1.union(rdd2) scala> rdd3.collect res1: Array[Int] = Array(1, 2, 3, 4, 5, 6, 4,…
1. map(func) 作用: 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换. 创建一个包含1-10的的 RDD,然后将每个元素*2形成新的 RDD scala > val rdd1 = sc.parallelize(1 to 10) // 得到一个新的 RDD, 但是这个 RDD 中的元素并不是立即计算出来的 scala> val rdd2 = rdd1.map(_ * 2) 2.mapPartitions(fun…
一.常用Actoin算子 (reduce .collect .count .take .saveAsTextFile . countByKey .foreach ) collect:从集群中将所有的计算结果获取到本地内存,然后展示 take:从集群中将一部分的计算结果获取到本地内存,然后展示 rdd.collect rdd.take(n) 二.内存管理 1.RDD内存持久化 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中. 当对RDD执行持久化操作时, 每个节点都会将自己操作的R…
map 产生的键值对是tupple,      split分隔出来的是数组 一.常用Transformation算子 (map  .flatMap .filter .groupByKey .reduceByKey .sortByKey  .join .cogroup ) JAVA: package day2; import java.util.Arrays; import java.util.List; import org.apache.spark.SparkConf; import org.…
1. sortBy是Transformation算子,为什么会触发Action sortBy需要对数据进行全局排序,其需要用到RangePartitioner,而在创建RangePartitioner时需要大概知道有多少数据,以及数据的范围(采样),其内部获取这个范围(rangeBounds)是通过调用sample方法得到,在调用完sample后会调用collect方法,所以会触发Action 2. Spark SQL概述 2.1 Spark SQL定义: Spark SQL是Spark用来处理…
map,filter,flatMap算子 视频教程: 1.优酷 2.YouTube 1.map map是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的JavaRDD. java: package com.bean.spark.trans; import java.util.Arrays; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark…
opencv中的SIFT,SURF,ORB,FAST 特征描叙算子比较 参考: http://wenku.baidu.com/link?url=1aDYAJBCrrK-uk2w3sSNai7h52x_eWeRu9p9GhZd49WJ1bEOB7VluQdBdRKeehAO2Q3B7RatTXDruq-M9cR-W2yqATerDlIU1T3whYoyQfi http://www.cvchina.info/2011/07/04/whats-orb/ http://www.bubuko.com/in…
特征描述算子-sift http://boche.github.io/download/sift/Introduction%20to%20SIFT.pdf…
在上篇文章中我们了解了PlateLocate的过程中的所有步骤.在本篇文章中我们对前3个步骤,分别是高斯模糊.灰度化和Sobel算子进行分析. 一.高斯模糊 1.目标 对图像去噪,为边缘检测算法做准备. 2.效果 在我们的车牌定位中的第一步就是高斯模糊处理. 图1 高斯模糊效果 3.理论 详细说明可以看这篇:阮一峰讲高斯模糊. 高斯模糊是非常有名的一种图像处理技术.顾名思义,其一般应用是将图像变得模糊,但同时高斯模糊也应用在图像的预处理阶段.理解高斯模糊前,先看一下平均模糊算法.平均模糊的算法非…
摘要  1.使用reduceByKey/aggregateByKey替代groupByKey 2.使用mapPartitions替代普通map 3.使用foreachPartitions替代foreach 4.使用filter之后进行coalesce操作 5.使用repartitionAndSortWithinPartitions替代repartition与sort类操作 6.使用broadcast使各task共享同一Executor的集合替代算子函数中各task传送一份集合 7.使用相同分区方…
1. 形式 Gy 上下颠倒的 (*A表示卷积图像,忽略先): 看得出来,sobel算子感觉并不统一,特别是方向,我们知道matlab的图像格式是,x轴从左到右,y轴从上到下,原点在左上角. 所以,第二种sobel算子更和我们的心意. 2.计算: 在计算时,图像经过处理得到梯度图像,像素的灰度值公式是 , 人们为了方便改为 , 如果G的值大于某阈值,可以认为这个点就是边缘像素点. 梯度的方向是 所以,我们通过将横纵两个方向的sobel算子对图像处理之后,得到图像的梯度图像,图像的灰度是梯度的幅值,…
halcon的算子列表   Chapter 1 :Classification 1.1 Gaussian-Mixture-Models 1.add_sample_class_gmm 功能:把一个训练样本添加到一个高斯混合模型的训练数据上. 2.classify_class_gmm 功能:通过一个高斯混合模型来计算一个特征向量的类. 3. clear_all_class_gmm 功能:清除所有高斯混合模型. 4. clear_class_gmm 功能:清除一个高斯混合模型. 5. clear_sa…
Canny是常用的边缘检测方法,其特点是试图将独立边的候选像素拼装成轮廓. John Canny于1986年提出Canny算子,它与Marr(LoG)边缘检测方法类似,也属于是先平滑后求导数的方法. John Canny研究了最优边缘检测方法所需的特性,给出了评价边缘检测性能优劣的三个指标: 1.好的信噪比,即将非边缘点判定为边缘点的概率要低,将边缘点判为非边缘点的概率要低: 2.高的定位性能,即检测出的边缘点要尽可能在实际边缘的中心: 3. 对单一边缘仅有唯一响应,即单个边缘产生多个响应的概率…
SURF算子,参考这篇文章的解释http://www.ipol.im/pub/art/2015/69/ SURF 是   Speeded Up Robust Features 加速鲁棒特征的含义. The source code and the online demo are accessible at the IPOL web page of this article1. Theproposed implementation of the SURF algorithm is written i…
sobel算子原理及opencv源码实现 简要描述 sobel算子主要用于获得数字图像的一阶梯度,常见的应用和物理意义是边缘检测. 原理 算子使用两个33的矩阵(图1)算子使用两个33的矩阵(图1)去和原始图片作卷积,分别得到横向G(x)和纵向G(y)的梯度值,如果梯度值大于某一个阈值,则认为该点为边缘点 图1:卷积矩阵 图2:卷积运算 事实上卷积矩阵也可以由两个一维矩阵卷积而成,在opencv源码中就是用两个一维矩阵卷积生成一个卷积矩阵: 图3:由两个一维矩阵卷积生成的矩阵 static vo…
#1,个人理解 网上查了很多资料,都说sobel算子是用来检测边缘的,分别给了两个方向上的卷积核,然后说明做法,就说这就是sobel算子.对于我个人来说,还有很多不明白的地方,所以理清下思路. #2,边缘.边界和sobel算子 这个可以自己去google或者百度找定义,边缘和边界不一样,两者没有必然联系也并非毫无联系.因为现实世界的三维空间映射到图像显示的二维空间中会丢失很多信息,也会添进来一部分类似光照.场景等的干扰,所以并不能完全给边缘和边界的关系下一个定义.对图像而言,我们一般是要找出它的…
多元函数的二阶导数又称为Laplacian算子: \[ \triangledown f(x, y) = \frac {\partial^2 f}{\partial x^2} + \frac {\partial^2 f}{\partial y^2} \] 对于图像上的离散\(f(x, y)\): \[ \triangledown f(x, y) = f(x + 1, y) + f(x - 1,y) - 2 f(x,y) + f(x, y + 1) + f(x, y -1) - 2 f(x, y)…
推荐博文,博客.写得很好,给个赞. Reference Link : http://blog.csdn.net/xiaowei_cqu/article/details/7829481 一阶导数法:梯度算子   对于左图,左侧的边是正的(由暗到亮),右侧的边是负的(由亮到暗).对于右图,结论相反.常数部分为零.用来检测边是否存在. 梯度算子 Gradient operators 函数f(x,y)在(x,y)处的梯度为一个向量: 计算这个向量的大小为: 梯度的方向角为: Sobel算子 sobel算…
这个算子算是图像历史上第一个特征点提取算法了,1977年提出的,很简单,拿来练手很合适. 算法原理如下: 1.选取一个合理的邻域遍历图像,这里是5*5邻域的.在邻域中依次计算,垂直,水平,对角与反对角四个相邻像素灰度的差的平方和,作为该邻域特征值. 大致就是下面这个样子: 公式: 这里k是窗口的半径. 2.从四个特征值中选最小的值作为该像素初次候选特征值. 公式: 3.设定一个阈值,将大于该阈值初次候选特征值的选为二次候选特征值. 4.设定一个邻域,将该邻域最大的二次候选特征值作为最终要选择的特…
1.基本理论 拉普拉斯算子是最简单的各向同性微分算子,具有旋转不变性.一个二维图像函数 的拉普拉斯变换是各向同性的二阶导数,定义为:   为了更适合于数字图像处理,将该方程表示为离散形式:    另外,拉普拉斯算子还可以表示成模板的形式,如图5-9所示.图5-9(a)表示离散拉普拉斯算子的模板,图5-9(b)表示其扩展模板,图5-9(c)则分别表示其他两种拉普拉斯的实现模板.从模板形式容易看出,如果在图像中一个较暗的区域中出现了一个亮点,那么用拉普拉斯运算就会使这个亮点变得更亮.因为图像中的边缘…
canny 最好.但是容易把噪点误判为边界.sobel prewitt log 效果差不多.prewitt比sobel 去噪效果好.roberts马马虎虎.适合什么图片那得看图片的噪点情况,一般canny 算子是最好的.边缘检测算子一阶的有Roberts Cross算子,Prewitt算子,Sobel算子,Canny算子, Krisch算子,罗盘算子:而二阶的还有Marr-Hildreth,在梯度方向的二阶导数过零点.Roberts算子一种利用局部差分算子寻找边缘的算子,分别为4领域的坐标,且是…
Chapter 1 :Classification 1.1 Gaussian-Mixture-Models 1.add_sample_class_gmm 功能:把一个训练样本添加到一个高斯混合模型的训练数据上. 2.classify_class_gmm 功能:通过一个高斯混合模型来计算一个特征向量的类. 3. clear_all_class_gmm 功能:清除所有高斯混合模型. 4. clear_class_gmm 功能:清除一个高斯混合模型. 5. clear_samples_class_gm…
彻底理解数字图像处理中的卷积-以Sobel算子为例 作者:FreeBlues 修订记录 2016.08.04 初稿完成 概述 卷积在信号处理领域有极其广泛的应用, 也有严格的物理和数学定义. 本文只讨论卷积在数字图像处理中的应用. 在数字图像处理中, 有一种基本的处理方法:线性滤波. 待处理的平面数字图像可被看做一个大矩阵, 图像的每个像素对应着矩阵的每个元素, 假设我们平面的分辨率是 1024*768, 那么对应的大矩阵的行数= 1024, 列数=768. 用于滤波的是一个滤波器小矩阵(也叫卷…
边缘是图像最基本的特征,其在计算机视觉.图像分析等应用中起着重要的作用,这是因为图像的边缘包含了用于识别的有用信息,是图像分析和模式识别的主要特征提取手段. 1.何为“图像边缘”? 在图像中,“边缘”指的是临界的意思.一幅图像的“临界”表示为图像上亮度显著变化的地方,边缘指的是一个区域的结束,也是另一个区域的开始.“边缘点”指的是图像中具有坐标[x,y],且处在强度显著变化的位置上的点. 2.如何表示边缘检测? 在数学上,用导数来表示改变的快慢.基于此,有许多方法用于边缘检测,他们绝大部分可以划…
rapidminer 数据导入及几个算子简单应用 一. 数据集选择 本次实验选择的数据集为: bank-data.csv 其中有600条数据 结构如下图: 二.数据集文件格式转换 Rapidminer 支持的导入数据格式有如下图所示: 所以我们需要把下载的数据集文件格式进行转换,由于本次实验下载的文件本身已是csv格式,此处不做任何操作. 三.数据集的导入保存 1:选择 import csv file 2:选择 Next 3:选择 Next 4:选择 Next 5:选择 Next 6:选择 Fi…
幻灯片1 Sobel算子 幻灯片2 一.Sobel边缘检测算子 l 在讨论边缘算子之前,首先给出一些术语的定义: l (1)边缘:灰度或结构等信息的突变处,边缘是一个区域的结束,也是另一个区域的开始,利用该特征可以分割图像. l (2)边缘点:图像中具有坐标[x,y],且处在强度显著变化的位置上的点. l (3)边缘段:对应于边缘点坐标[x,y]及其方位 ,边缘的方位可能是梯度角. 幻灯片3 二.Sobel算子的基本原理 l Sobel算子是一阶导数的边缘检测算子,在算法实现过程中,通过3×3模…