Alink漫谈(八) : 二分类评估 AUC.K-S.PRC.Precision.Recall.LiftChart 如何实现 目录 Alink漫谈(八) : 二分类评估 AUC.K-S.PRC.Precision.Recall.LiftChart 如何实现 0x00 摘要 0x01 相关概念 0x02 示例代码 2.1 主要思路 0x03 批处理 3.1 EvalBinaryClassBatchOp 3.2 BaseEvalClassBatchOp 3.2.0 调用关系综述 3.2.1 calL…
Alink漫谈(十二) :在线学习算法FTRL 之 整体设计 目录 Alink漫谈(十二) :在线学习算法FTRL 之 整体设计 0x00 摘要 0x01概念 1.1 逻辑回归 1.1.1 推导过程 1.1.2 求解 1.1.3 随机梯度下降 1.2 LR的并行计算 1.3 传统机器学习 1.4 在线学习 1.5 FTRL 1.5.1 regret & sparsity 1.5.2 FTRL的伪代码 1.5.3 简要理解 0x02 示例代码 0x03 问题 0x04 总体逻辑 0xFF 参考 0…
Alink漫谈(十一) :线性回归 之 L-BFGS优化 目录 Alink漫谈(十一) :线性回归 之 L-BFGS优化 0x00 摘要 0x01 回顾 1.1 优化基本思路 1.2 各类优化方法 0x02 基本概念 2.1 泰勒展开 如何通俗推理? 2.2 牛顿法 2.2.1 泰勒一阶展开 2.2.2 泰勒二阶展开 2.2.3 高维空间 2.2.4 牛顿法基本流程 2.2.5 问题点及解决 2.3 拟牛顿法 2.4 L-BFGS算法 0x03 优化模型 -- L-BFGS算法 3.1 如何分布…
Alink漫谈(十三) :在线学习算法FTRL 之 具体实现 目录 Alink漫谈(十三) :在线学习算法FTRL 之 具体实现 0x00 摘要 0x01 回顾 0x02 在线训练 2.1 预置模型 2.1.1 训练模型 2.1.2 加载模型 2.2 分割高维向量 2.3 迭代训练 2.3.1 Flink Stream迭代功能 2.3.2 迭代构建 2.3.2.1 迭代的输入 2.3.2.2 迭代的反馈 2.3.3 迭代体 CalcTask / ReduceTask 2.3.3.1 迭代初始化…
Alink漫谈(二十二) :源码分析之聚类评估 目录 Alink漫谈(二十二) :源码分析之聚类评估 0x00 摘要 0x01 背景概念 1.1 什么是聚类 1.2 聚类分析的方法 1.3 聚类评估 0x02 Alink支持的评估指标 2.1 轮廓系数(silhouette coefficient): 2.2 Calinski-Harabaz(CH) 2.3 Davies-Bouldin指数(Dbi) 2.4 Rand index(兰德指数)(RI) .Adjusted Rand index(调…
Alink漫谈(二) : 从源码看机器学习平台Alink设计和架构 目录 Alink漫谈(二) : 从源码看机器学习平台Alink设计和架构 0x00 摘要 0x01 Alink设计原则 0x02 Alink实例代码 算法调用 算法主函数 算法模块举例 0x03 顶层 -- 流水线 1. 机器学习重要概念 2. Alink中概念实现 3. 结合实例看流水线 0x04 中间层 -- 算法组件 1. Algorithm operators 2. Mapper(提前说明) 3. 系统内置算法组件 Mo…
Alink漫谈(十八) :源码解析 之 多列字符串编码MultiStringIndexer 目录 Alink漫谈(十八) :源码解析 之 多列字符串编码MultiStringIndexer 0x00 摘要 0x01 概念 0x02 示例代码 0x03 总体逻辑 0x04 Add Index to Token 4.1 合并计算单词个数 4.1.1 打散输入数据 4.1.2 分组计算个数 4.2 合并计算单词个数 0x05 输出模型 0x06 预测 6.1 加载模型 6.2 预测 0xFF 参考 0…
Alink漫谈(二十) :卡方检验源码解析 目录 Alink漫谈(二十) :卡方检验源码解析 0x00 摘要 0x01 背景概念 1.1 假设检验 1.2 H0和H1是什么? 1.3 P值 (P-value) 1.4 交叉表 1.5 卡方 1.5.1 公式 1.5.2 基本思想 1.5.3 实现过程 1.6 自由度 0x02 示例代码 0x03 总体逻辑 0x04 训练 4.1 ChiSquareTest 4.2 Crosstab 4.3 构建卡方检验 0xFF 参考 0x00 摘要 Alink…
仿照上篇博文对于混淆矩阵.ROC和AUC指标的探讨,本文简要讨论机器学习二分类问题中的混淆矩阵.PR以及AP评估指标:实际上,(ROC,AUC)与(PR,AP)指标对具有某种相似性. 按照循序渐进的原则,依次讨论混淆矩阵.PR和AP: 设定一个机器学习问题情境:给定一些肿瘤患者样本,构建一个分类模型来预测肿瘤是良性还是恶性,显然这是一个二分类问题. 本文中,将良性肿瘤视为正类标签(可能在具体实践中更为关注恶性肿瘤,不过这并不影响技术上的操作). 当分类模型选定以后,将其在测试数据集上进行评估,分…
AUC是指:从一堆样本中随机抽一个,抽到正样本的概率比抽到负样本的概率大的可能性! AUC是一个模型评价指标,只能用于二分类模型的评价,对于二分类模型,还有很多其他评价指标,比如logloss,accuracy,precision.如果你经常关注数据挖掘比赛,比如kaggle,那你会发现AUC和logloss基本是最常见的模型评价指标.为什么AUC和logloss比accuracy更常用呢?因为很多机器学习的模型对分类问题的预测结果都是概率,如果要计算accuracy,需要先把概率转化成类别,这…