Alink漫谈(六) : TF-IDF算法的实现

Alink漫谈(六) : TF-IDF算法的实现目录 Alink漫谈(六) : TF-IDF算法的实现 0x00 摘要 0x01 TF-IDF 1.1 原理 1.2 计算方法 0x02 Alink示例代码 2.1 示例代码 2.2 TF-IDF模型 2.3 TF-IDF预测 0x03 分词 Segment 3.1 结巴分词 3.2 分词过程 0x04 训练 4.1 计算IDF 4.2 排序 4.2.1 SortUtils.pSort 采样SampleSplitPoint 归并 SplitPoi…

Alink漫谈(十六) ：Word2Vec源码分析之建立霍夫曼树

Alink漫谈(十六) :Word2Vec源码分析之建立霍夫曼树目录 Alink漫谈(十六) :Word2Vec源码分析之建立霍夫曼树 0x00 摘要 0x01 背景概念 1.1 词向量基础 1.1.1 独热编码 1.1.2 分布式表示 1.2 CBOW & Skip-Gram 1.2.1 CBOW 1.2.2 Skip-gram 1.3 Word2vec 1.3.1 Word2vec基本思想 1.3.2 Hierarchical Softmax基本思路 1.3.3 Hierarchi…

Alink漫谈(十一) ：线性回归之 L-BFGS优化

Alink漫谈(十一) :线性回归之 L-BFGS优化目录 Alink漫谈(十一) :线性回归之 L-BFGS优化 0x00 摘要 0x01 回顾 1.1 优化基本思路 1.2 各类优化方法 0x02 基本概念 2.1 泰勒展开如何通俗推理? 2.2 牛顿法 2.2.1 泰勒一阶展开 2.2.2 泰勒二阶展开 2.2.3 高维空间 2.2.4 牛顿法基本流程 2.2.5 问题点及解决 2.3 拟牛顿法 2.4 L-BFGS算法 0x03 优化模型 -- L-BFGS算法 3.1 如何分布…

Alink漫谈(五) : 迭代计算和Superstep

Alink漫谈(五) : 迭代计算和Superstep 目录 Alink漫谈(五) : 迭代计算和Superstep 0x00 摘要 0x01 缘由 0x02 背景概念 2.1 四层执行图 2.2 Task和SubTask 2.3 如何划分 Task 的依据 2.4 JobGraph 2.5 BSP模型和Superstep BSP模型 BSP模型的实现 Flink-Gelly 0x03 Flink的迭代算法(superstep-based) 3.1 Bulk Iterate 3.2 迭代机制 0…

Alink漫谈(十) ：特征工程之特征哈希/标准化缩放

Alink漫谈(十) :特征工程之特征哈希/标准化缩放目录 Alink漫谈(十) :特征工程之特征哈希/标准化缩放 0x00 摘要 0x01 相关概念 1.1 特征工程 1.2 特征缩放(Scaling) 1.3 特征哈希(Hashing Trick) 0x02 数据集 0x03 示例代码 0x04 标准化缩放 StandardScaler 4.1 StandardScalerTrainBatchOp 4.2 StatisticsHelper.summary 4.3 BuildStandard…

Alink漫谈(十七) ：Word2Vec源码分析之迭代训练

Alink漫谈(十七) :Word2Vec源码分析之迭代训练目录 Alink漫谈(十七) :Word2Vec源码分析之迭代训练 0x00 摘要 0x01 前文回顾 1.1 上文总体流程图 1.2 回顾霍夫曼树 1.2.1 变量定义 1.2.2 为何要引入霍夫曼树 0x02 训练 2.1 训练流程 2.2 生成训练模型 2.3 初始化词典&缓冲 2.4 更新模型UpdateModel 2.5 计算更新 2.5.1 sigmoid函数值近似计算 2.5.2 窗口及上下文 2.5.3 训练…

TF/IDF（term frequency/inverse document frequency)

TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明. 一. TF/IDF描述单个term与特定document的相关性 TF(Term Frequency): 表示一个term与某个document的相关性.公式为: 这个term在document中出现的次数除以该document中所有term出现的总次数. IDF(Inverse Document Frequency)表示一个term表示document的主…

Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想

Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想目录 Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想 0x00 摘要 0x01 Flink 是什么 0x02 Alink 是什么 0x03 Alink设计思路 1. 白手起家 2. 替代品如何造成威胁 3. 用户角度看设计底层逻辑Flink 开发工具 4. 竞争对手角度看设计 5. 企业角度看设计 6. 设计原则总结 0x04 KMeans算法实现看设计 1. KMeans算法 2. Flink…

Alink漫谈(二) : 从源码看机器学习平台Alink设计和架构

Alink漫谈(二) : 从源码看机器学习平台Alink设计和架构目录 Alink漫谈(二) : 从源码看机器学习平台Alink设计和架构 0x00 摘要 0x01 Alink设计原则 0x02 Alink实例代码算法调用算法主函数算法模块举例 0x03 顶层 -- 流水线 1. 机器学习重要概念 2. Alink中概念实现 3. 结合实例看流水线 0x04 中间层 -- 算法组件 1. Algorithm operators 2. Mapper(提前说明) 3. 系统内置算法组件 Mo…

[Alink漫谈之三] AllReduce通信模型

[Alink漫谈之三] AllReduce通信模型目录 [Alink漫谈之三] AllReduce通信模型 0x00 摘要 0x01 MPI是什么 0x02 Alink 实现MPI的思想 0x03 如何实现共享 1. Task相关概念 2. TaskManager 3. 状态共享 3.1 概念剖析算法角度:ComContext 框架角度:IterativeComQueue Session角度:SessionSharedObjs Subtask角度:IterTaskObjKeeper 3.2…

Alink漫谈(四) : 模型的来龙去脉

Alink漫谈(四) : 模型的来龙去脉目录 Alink漫谈(四) : 模型的来龙去脉 0x00 摘要 0x01 模型 1.1 模型包含内容 1.2 Alink的模型文件 0x02 流程图 0x03 生成模型 3.1 生成模型 3.2 转换DataSet 3.3 存储为Table 0x04 存储模型 4.1 存储代码 0x05 读取模型 0x06 预测 6.1 生成runtime rapper 6.2 加载模型 6.3 预测 0x07 流式预测 0x08 总结 0x00 摘要 Alink 是阿…

Alink漫谈(七) : 如何划分训练数据集和测试数据集

Alink漫谈(七) : 如何划分训练数据集和测试数据集目录 Alink漫谈(七) : 如何划分训练数据集和测试数据集 0x00 摘要 0x01 训练数据集和测试数据集 0x02 Alink示例代码 0x03 批处理 3.1 得到记录数 3.2 随机选取记录 3.2.1 得到总记录数 3.2.2 决定每个task选择记录数 3.2.3 每个task选择记录 3.3 设置训练数据集和测试数据集 0x04 流处理 0x05 参考 0x00 摘要 Alink 是阿里巴巴基于实时计算引擎 Flink…

Alink漫谈(十) ：线性回归实现之数据预处理

Alink漫谈(十) :线性回归实现之数据预处理目录 Alink漫谈(十) :线性回归实现之数据预处理 0x00 摘要 0x01 概念 1.1 线性回归 1.2 优化模型 1.3 损失函数&目标函数 1.4 最小二乘法 0x02 示例代码 0x03 整体概述 0x04 基础功能 4.1 损失函数 4.1.1 导数和偏导数 4.1.2 方向导数 4.1.3 Hessian矩阵 4.1.4 平方损失函数 in Alink 4.2 目标函数 4.2.1 梯度 4.2.2 梯度下降法 4.2.…

Bug2算法的实现（RobotBASIC环境中仿真）

移动机器人智能的一个重要标志就是自主导航,而实现机器人自主导航有个基本要求--避障.之前简单介绍过Bug避障算法,但仅仅了解大致理论而不亲自动手实现一遍很难有深刻的印象,只能说似懂非懂.我不是天才,不能看几遍就理解理论中的奥妙,只能在别人大谈XX理论XX算法的时候,自己一个人苦逼的面对错误的程序问为什么... 下面开始动手来实现一下简单的Bug2避障算法.由于算法中涉及到机器人与外界环境的交互,因此需要选择一个仿真软件.常用的移动机器人仿真软件主要有Gazebo.V-rep.Webots.MRD…

基于TF/IDF的聚类算法原理

一.TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性. 公式为这个term在document中出现的次数除以该document中所有term出现的总次数. IDF(Inverse Document Frequency)表示一个term表示document的主题的权重大小.主要是通过包含了该term的docuement的数量和docuement set的总数量来比较的.出现的次数越多,权重越小.…

使用solr的函数查询,并获取tf*idf值

1. 使用函数df(field,keyword) 和idf(field,keyword). http://118.85.207.11:11100/solr/mobile/select?q={!func}product%28idf%28title,%E9%97%AE%E9%A2%98%29,tf%28title,%E9%97%AE%E9%A2%98%29%29&fl=title,score,product%28idf%28title,%E9%97%AE%E9%A2%98%29,tf%28title…

TF/IDF计算方法

FROM:http://blog.csdn.net/pennyliang/article/details/1231028 我们已经谈过了如何自动下载网页.如何建立索引.如何衡量网页的质量(Page Rank).我们今天谈谈如何确定一个网页和某个查询的相关性.了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎.] 我们还是看上回的例子,查找关于“原子能的应用”的网页.我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系…

tf–idf算法解释及其python代码实现(下)

tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四句话,每句表示一个文档 copus=['我正在学习计算机','它正在吃饭','我的书还在你那儿','今天不上班'] 由于中文需要分词,jieba分词是python里面比较好用的分词工具,所以选用jieba分词,文末是jieba的链接.首先对文档进行分词: import jieba copus=['我…

tf–idf算法解释及其python代码实现(上)

tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息检索和文本挖掘中. 一个很自然的想法是在一篇文档中词频越高的词对这篇文档越重要,但同时如果这个词又在非常多的文档中出现的话可能就是很普通的词,没有多少信息,对所在文档贡献不大,例如‘的’这种停用词.所以要综合一个词在所在文档出现次数以及有多少篇文档包含这个词,如果一个词在所在文档出现次数很多同时整个…

Canny边缘检测算法的实现

图像边缘信息主要集中在高频段,通常说图像锐化或检测边缘,实质就是高频滤波.我们知道微分运算是求信号的变化率,具有加强高频分量的作用.在空域运算中来说,对图像的锐化就是计算微分.由于数字图像的离散信号,微分运算就变成计算差分或梯度.图像处理中有多种边缘检测(梯度)算子,常用的包括普通一阶差分,Robert算子(交叉差分),Sobel算子等等,是基于寻找梯度强度.拉普拉斯算子(二阶差分)是基于过零点检测.通过计算梯度,设置阀值,得到边缘图像. Canny边缘检测算子是一种多级检测算法.1986年由J…

java基础解析系列(四)---LinkedHashMap的原理及LRU算法的实现

java基础解析系列(四)---LinkedHashMap的原理及LRU算法的实现 java基础解析系列(一)---String.StringBuffer.StringBuilder java基础解析系列(二)---Integer java基础解析系列(三)---HashMap 这是我的博客目录,欢迎阅读实验遍历HashMap public static void main(String[] args) { Map<String, String> map=new HashMap<St…

SSE图像算法优化系列十三：超高速BoxBlur算法的实现和优化（Opencv的速度的五倍）

在SSE图像算法优化系列五:超高速指数模糊算法的实现和优化(10000*10000在100ms左右实现) 一文中,我曾经说过优化后的ExpBlur比BoxBlur还要快,那个时候我比较的BoxBlur算法是通过积分图+SSE实现的,我在09年另外一个博客账号上曾经提供过一篇这个文章彩色图像高速模糊之懒惰算法,里面也介绍了一种快速的图像模糊算法,这个算法的执行时间基本也是和半径无关的.在今年的SSE优化学习之路上我曾经也考虑过将该算法使用SSE实现,但当时觉得这个算法逐像素同时逐行都是前后依赖的(…

文本分类学习（三）特征权重（TF/IDF）和特征提取

上一篇中,主要说的就是词袋模型.回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示.首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的向量.这样每个文本在分词之后,就可以根据我们之前得到的词袋,构造成一个向量,词袋中有多少个词,那这个向量就是多少维度的了.然后就把这些向量交给计算机去计算,而不再需要文本啦.而向量中的数字表示的是每个词所代表的权重.代表这个词对文本类型的影响程度. 在这个过程中我们需要解决两个问题:1.如何计算出适…

信息检索中的TF/IDF概念与算法的解释

https://blog.csdn.net/class_brick/article/details/79135909 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术.TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降.TF-IDF加权的各种形式常被搜寻引擎应用,…

详解Linux内核红黑树算法的实现

转自:https://blog.csdn.net/npy_lp/article/details/7420689 内核源码:linux-2.6.38.8.tar.bz2 关于二叉查找树的概念请参考博文<详解二叉查找树算法的实现>. 平衡二叉树(BalancedBinary Tree或Height-Balanced Tree)又称AVL树.它或者是一棵空树,或者是具有下列性质的二叉树:它的左子树和右子树都是平衡二叉树,且左子树和右子树的深度之差的绝对值不超过1.若将二叉树上结点的平衡因子BF(Ba…

Elasticsearch学习之相关度评分TF&IDF

relevance score算法,简单来说,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度 Elasticsearch使用的是 term frequency/inverse document frequency算法,简称为TF/IDF算法 Term frequency(TF):搜索文本中的各个词条在field文本中出现了多少次,出现次数越多,就越相关 Inverse document frequency(IDF):搜索文本中的各个词条在整个索引的所有文档中出现了多少次,出现的…