数学之路-分布式计算-disco(4)

【数学之路-分布式计算-disco(4)】的更多相关文章

数学之路-分布式计算-disco(4)

第一个參数iter是一个迭代器,涉及被map函数产生的键和值.它们是reduce实例. 在本例中.单词随机被托付给不同的reduce实例.然后,要单词同样,处理它的reduce也同样.可确保终于合计是正确的. 第二个參数params与map函数中一致,在此.仅简单使用disco.util.kvgroup()来提取每一个单词统计计数.累计计数,yield(产生)结果. 执行作业以下開始执行作业.可使用大量參数定制作业,但通常来说.对于简单的任务来说 ,仅使用当中3个就可以.除了启动作业之外,我们…

数学之路-分布式计算-linux/unix技术基础(4)

pwd显示当前文件夹,ls查看文件夹下的文件,cd 进入文件夹 -bash-4.2$ pwd /home/myhaspl-bash-4.2$ lsabc hadoop-2.4.1 mydoclist mypylst mypylsts numpyabd hadoop-2.4.1-src.tar.gz myl2 mypylst1 myrun pypy-2.3.1-srcerror.log hadoop-2.4.1.…

数学之路-分布式计算-storm(3)

.安装zookeeper 本博客全部内容是原创.假设转载请注明来源 http://blog.csdn.net/myhaspl/ myhaspl@aaayun:~/jzmq-master$cd .. myhaspl@aaayun:~$wget http://apache.fayea.com/zookeeper/zookeeper-3.3.6/zookeeper-3.3.6.tar.gz myhaspl@aaayun:~$tar -xzvf zookeeper-3.3.6.tar.gz $cd zo…

数学之路(3)-机器学习(3)-机器学习算法-SVM[5]

svm小结 1.超平面两种颜色的点分别代表两个类别,红颜色的线表示一个可行的超平面.在进行分类的时候,我们将数据点 x 代入 f(x) 中,如果得到的结果小于 0 ,则赋予其类别 -1 ,如果大于 0 则赋予类别 1 .如果 f(x)=0 ,则很难办了,分到哪一类都不是.事实上,对于 f(x) 的绝对值很小的情况,我们都很难处理,因为细微的变动(比如超平面稍微转一个小角度)就有可能导致结果类别的改变.理想情况下,我们希望 f(x) 的值都是很大的正数或者很小的负数,这样我们就能…

数学之路-python计算实战(20)-机器视觉-拉普拉斯算子卷积滤波

拉普拉斯算子进行二维卷积计算,线性锐化滤波 # -*- coding: utf-8 -*- #线性锐化滤波-拉普拉斯算子进行二维卷积计算 #code:myhaspl@myhaspl.com import cv2 import numpy as np from scipy import signal fn="test6.jpg" myimg=cv2.imread(fn) img=cv2.cvtColor(myimg,cv2.COLOR_BGR2GRAY) srcimg=np.array(…

数学之路(3)-机器学习(3)-机器学习算法-PCA

PCA 主成分分析(Principal components analysis,PCA),维基百科给出一个较容易理解的定义:“PCA是一个正交化线性变换,把数据变换到一个新的坐标系统中,使得这一数据的任何投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推,具体来说,在欧几里得空间给定一组点数,第一主成分对应于通过多维空间平均点的一条线,同时保证各个点到这条直线距离的平方和最小.去除掉第一主成分后,用同样的方法得到第二主成分.依此类推.在Σ中的奇异值…

数学之路-python计算实战(13)-机器视觉-图像增强

指数变换的基本表达式为:y=bc(x-a)-1 当中參数b.c控制曲线的变换形状,參数a控制曲线的位置. 指数变换的作用是扩展图像的高灰度级.压缩低灰度级.能够用于亮度过高的图像本博客全部内容是原创,假设转载请注明来源 http://blog.csdn.net/myhaspl/ 对太阳图像进行变换,使低亮度区(温度较低区域)不再显示,突出亮度区(温度较高区域). newimg=np.array(np.power(b,c*(img-a))-1,np.uint8) cv2.imshow('src'…

数学之路(3)-机器学习(3)-机器学习算法-SVM[7]

SVM是新近出现的强大的数据挖掘工具,它在文本分类.手写文字识别.图像分类.生物序列分析等实际应用中表现出非常好的性能.SVM属于监督学习算法,样本以属性向量的形式提供,所以输入空间是Rn的子集. 图1 如图1所示,SVM的目标是找到两个间距尽可能大的边界平面来把样本本点分开,以”最小化泛化误差“,即对新的样本点进行分类预测时,出错的几率最小.落在边界平面上的点称为支持向量.Vapnik证明如果可以找到一个较小的支持向量集,就可以保证得到很好的泛化能力----也就是说支持向量的个数越少越好. 数…

数学之路-python计算实战(16)-机器视觉-滤波去噪(邻域平均法滤波)

# -*- coding: utf-8 -*- #code:myhaspl@myhaspl.com #邻域平均法滤波,半径为2 import cv2 import numpy as np fn="test3.jpg" myimg=cv2.imread(fn) img=cv2.cvtColor(myimg,cv2.COLOR_BGR2GRAY) #加上椒盐噪声 param=20 #灰阶范围 w=img.shape[1] h=img.shape[0] newimg=np.array(img…

数学之路(3)-机器学习(3)-机器学习算法-SVM[9]

我们应用SVM的非线性分类功能对手写数字进行识别,我们在这应用poly做为非线性核 svm = mlpy.LibSvm(svm_type='c_svc', kernel_type='poly',gamma=10) svm.learn(x, y) 我们按像素分块读取数字特征后,形成训练样本,送入SVM训练本博客所有内容是原创,如果转载请注明来源 http://blog.csdn.net/myhaspl/ 对样本本身测试 print svm.pred(x) 对供测试的未知样本进行测试测试代码如下…