Mahout系列之----共轭梯度预处理

对于大型矩阵,预处理是很重要的.常用的预处理方法有: (1) 雅克比预处理 (2)块状雅克比预处理 (3)半LU 分解 (4)超松弛法…

无预处理共轭梯度要求解线性方程组 ,稳定双共轭梯度法从初始解开始按以下步骤迭代: 任意选择向量使得 ,例如, 对若足够精确则退出预处理共轭梯度预处理通常被用来加速迭代方法的收敛.要使用预处理子来求解线性方程组 ,预处理稳定双共轭梯度法从初始解开始按以下步骤迭代: 任意选择向量使得 ,例如, 对若足够精确则退出这个形式等价于将无预处理的稳定双共轭梯度法应用于显式预处理后的方程组 , 其中 ,,.换句话说,左预处理和右预处理都可以通过这个形式实施. Mahout 分布式共轭…

共轭梯度算法求最小值-scipy

# coding=utf-8 #共轭梯度算法求最小值 import numpy as np from scipy import optimize def f(x, *args): u, v = x a, b, c, d, e, f,g,h = args return a*u**g+ b*u*v + c*v**h + d*u + e*v + f def gradf(x, *args): u, v = x a, b, c, d, e, f,g,h = args gu = g*a*u + b*v +…

MySQL 性能优化系列之一单表预处理

MySQL 性能优化系列之一单表预处理背景介绍我们经常在写多表关联的SQL时,会想到 left jion(左关联),right jion(右关联),inner jion(内关联)等. 但是,当表中数据量过大时,如果没有写好查询条件或者查询条件书写的先后顺序不同,可能会有明显的性能差别. 近期,有个同事遇到一个SQL查询比较慢的问题:tableA,tableB,tableC三张表联合查询的SQL,查询用时将近50s. 原因分析 1.分别确认3张表的数据量 tableA:3千万+ 条记录: t…

Mahout系列之----kmeans 聚类

Kmeans是最经典的聚类算法之一,它的优美简单.快速高效被广泛使用. Kmeans算法描述输入:簇的数目k:包含n个对象的数据集D. 输出:k个簇的集合. 方法: 从D中任意选择k个对象作为初始簇中心: repeat; 根据簇中对象的均值,将每个对象指派到最相似的簇: 更新簇均值,即计算每个簇中对象的均值: 计算准则函数: until准则函数不在发生变化. Kmeans 算法的优缺点: 1)优点 (1)k-平均算法是解决聚类问题的一种经典算法,算法简单.快速. (2)对处理大数据集,该算法是…

机器学习：共轭梯度算法（PCG）

今天介绍数值计算和优化方法中非常有效的一种数值解法,共轭梯度法.我们知道,在解大型线性方程组的时候,很少会有一步到位的精确解析解,一般都需要通过迭代来进行逼近,而 PCG 就是这样一种迭代逼近算法. 我们先从一种特殊的线性方程组的定义开始,比如我们需要解如下的线性方程组: Ax=b" role="presentation">Ax=bAx=b 这里的 A(n×n)" role="presentation" style="positi…

iOS开发系列--C语言之预处理

概述大家都知道一个C程序的运行包括编译和链接两个阶段,其实在编译之前预处理器首先要进行预处理操作,将处理完产生的一个新的源文件进行编译.由于预处理指令是在编译之前就进行了,因此很多时候它要比在程序运行时进行操作效率高.在C语言中包括三类预处理指令,今天将一一介绍: 宏定义条件编译文件包含宏定义对于程序中经常用到的一些常量或者简短的函数我们通常使用宏定义来处理,这样做的好处是对于程序中所有的配置我们可以统一在宏定义中进行管理,而且由于宏定义是在程序编译之前进行替换相比定义成全局变量或函数…

Mahout 系列之--canopy 算法

Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p. (3)计算S中所有点到p的距离dist (4)若dist<t1,则将相应点归到C,作为弱关联. (5)若dist<t2,则将相应点移出S,作为强关联. (6)重复(2)~(5),直至S为空. 上面的过程可以看出,dist<t2的点属于有且仅有一个簇,t2<dist<t1 的点可能属于…

Mahout系列之-----相似度

Mahout推荐系统中有许多相似度实现,这些组件实现了计算不能User之间或Item之间的相似度.对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方. User 相似度: Item 相似度: 皮尔森相关度类名:PearsonCorrelationSimilarity 原理:用来反映两个变量线性相关程度的统计量范围:[-1,1],绝对值越大,说明相关性越强,负相关对于推荐的意义小. 说明…

Mahout系列之----距离度量

x = (x1,...,xn) 和y = (y1,...,yn) 之间的距离为 (1)欧氏距离 EuclideanDistanceMeasure (2)曼哈顿距离 ManhattanDistanceMeasure (3)马氏距离MahalanobisDistanceMeasure 马氏距离是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离.它是一种有效的计算两个未知样本集的相似度的方法.与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信…