Alink漫谈(十) :特征工程之特征哈希/标准化缩放 目录 Alink漫谈(十) :特征工程之特征哈希/标准化缩放 0x00 摘要 0x01 相关概念 1.1 特征工程 1.2 特征缩放(Scaling) 1.3 特征哈希(Hashing Trick) 0x02 数据集 0x03 示例代码 0x04 标准化缩放 StandardScaler 4.1 StandardScalerTrainBatchOp 4.2 StatisticsHelper.summary 4.3 BuildStandard…
Alink漫谈(十二) :在线学习算法FTRL 之 整体设计 目录 Alink漫谈(十二) :在线学习算法FTRL 之 整体设计 0x00 摘要 0x01概念 1.1 逻辑回归 1.1.1 推导过程 1.1.2 求解 1.1.3 随机梯度下降 1.2 LR的并行计算 1.3 传统机器学习 1.4 在线学习 1.5 FTRL 1.5.1 regret & sparsity 1.5.2 FTRL的伪代码 1.5.3 简要理解 0x02 示例代码 0x03 问题 0x04 总体逻辑 0xFF 参考 0…
Alink漫谈(十) :线性回归实现 之 数据预处理 目录 Alink漫谈(十) :线性回归实现 之 数据预处理 0x00 摘要 0x01 概念 1.1 线性回归 1.2 优化模型 1.3 损失函数&目标函数 1.4 最小二乘法 0x02 示例代码 0x03 整体概述 0x04 基础功能 4.1 损失函数 4.1.1 导数和偏导数 4.1.2 方向导数 4.1.3 Hessian矩阵 4.1.4 平方损失函数 in Alink 4.2 目标函数 4.2.1 梯度 4.2.2 梯度下降法 4.2.…
Alink漫谈(十四) :多层感知机 之 总体架构 目录 Alink漫谈(十四) :多层感知机 之 总体架构 0x00 摘要 0x01 背景概念 1.1 前馈神经网络 1.2 反向传播 1.3 代价函数 1.4 优化过程 1.4.1 迭代法 1.4.2 梯度下降 1.5 相关公式 1.5.1 加权求和 h 1.5.2 神经元输出值 a 1.5.3 输出层的输出值 y 1.5.4 激活函数g(h) 1.5.5 损失函数E 1.5.6 误差反向传播--更新权重 1.5.7 输出层增量项 δo 1.5…
Alink漫谈(十五) :多层感知机 之 迭代优化 目录 Alink漫谈(十五) :多层感知机 之 迭代优化 0x00 摘要 0x01 前文回顾 1.1 基本概念 1.2 误差反向传播算法 1.3 总体逻辑 0x02 训练神经网络 2.1 初始化模型 2.2 压缩数据 2.3 生成优化目标函数 2.4 生成目标函数中的拓扑模型 2.4.1 AffineLayerModel 2.4.2 FuntionalLayerModel 2.4.3 SoftmaxLayerModelWithCrossEntr…
Alink漫谈(十六) :Word2Vec源码分析 之 建立霍夫曼树 目录 Alink漫谈(十六) :Word2Vec源码分析 之 建立霍夫曼树 0x00 摘要 0x01 背景概念 1.1 词向量基础 1.1.1 独热编码 1.1.2 分布式表示 1.2 CBOW & Skip-Gram 1.2.1 CBOW 1.2.2 Skip-gram 1.3 Word2vec 1.3.1 Word2vec基本思想 1.3.2 Hierarchical Softmax基本思路 1.3.3 Hierarchi…
Alink漫谈(十八) :源码解析 之 多列字符串编码MultiStringIndexer 目录 Alink漫谈(十八) :源码解析 之 多列字符串编码MultiStringIndexer 0x00 摘要 0x01 概念 0x02 示例代码 0x03 总体逻辑 0x04 Add Index to Token 4.1 合并计算单词个数 4.1.1 打散输入数据 4.1.2 分组计算个数 4.2 合并计算单词个数 0x05 输出模型 0x06 预测 6.1 加载模型 6.2 预测 0xFF 参考 0…
Alink漫谈(十九) :源码解析 之 分位点离散化Quantile 目录 Alink漫谈(十九) :源码解析 之 分位点离散化Quantile 0x00 摘要 0x01 背景概念 1.1 离散化 1.2 分位数 1.3 四分位数 0x02 示例代码 0x03 总体逻辑 0x04 训练 4.1 quantile 4.2 countElementsPerPartition 4.3 MultiQuantile 4.4 QIndex 0x05 输出模型 0x06 预测 6.1 加载模型 6.2 预测…
from http://breezedeus.github.io/2014/11/15/breezedeus-feature-processing.html 请您移步原文观看,本文只供自己学习使用 连续(continuous)特征: 无序类别(categorical)特征: 有序类别(ordinal)特征. 特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面.怎么处理好特征,最重要的当然还是对要解决问题的了解.但是,它其实也…
Scikit-learn与特征工程 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这句话很好的阐述了数据在机器学习中的重要性.大部分直接拿过来的数据都是特征不明显的.没有经过处理的或者说是存在很多无用的数据,那么需要进行一些特征处理,特征的缩放等等,满足训练数据的要求. 我们将初次接触到Scikit-learn这个机器学习库的使用 Scikit-learn Python语言的机器学习工具 所有人都适用,可在不同的上下文中重用 基于NumPy.SciPy和matplotlib构建 开…