每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:本文大多内容来自未出版的<数据挖掘之道>的情感分析章节.本书中总结情感分析算法主要分为两种:词典型+监督算法型. 监督算法型主要分别以下几个步骤: 构建训练+测试集+特征提取(TFIDF指标)+算法模型+K层交叉验证.可与博客对着看:R语言︱词典型情感分析文本操作技巧汇总(打标签.词典与数据匹配等) ----------------…
推文<阿里凑单算法首次公开!基于Graph Embedding的打包购商品挖掘系统解析>笔记 从17年5月份开始接触Graph Embedding,学术论文读了很多,但是一直不清楚这技术是否真的能应用于工业界? 最近导师转发给我一篇文章,名为<阿里凑单算法首次公开!基于Graph Embedding的打包购商品挖掘系统解析>,眼界大开! 今天就阅读这篇推文,做一些摘录和笔记...侵删! 传送门:http://mp.weixin.qq.com/s/diIzbc0tpCW4xhbIQu…
KNN算法全名为k-Nearest Neighbor,就是K最近邻的意思. 算法描述 KNN是一种分类算法,其基本思想是采用测量不同特征值之间的距离方法进行分类. 算法过程如下: 1.准备样本数据集(样本中每个数据都已经分好类,并具有分类标签):2.使用样本数据进行训练:3.输入测试数据A:4.计算A与样本集的每一个数据之间的距离:5.按照距离递增次序排序:6.选取与A距离最小的k个点:7.计算前k个点所在类别的出现频率:8.返回前k个点出现频率最高的类别作为A的预测分类. 主要因素 训练集(或…
TOTP 介绍及基于C#的简单实现 Intro TOTP 是基于时间的一次性密码生成算法,它由 RFC 6238 定义.和基于事件的一次性密码生成算法不同 HOTP,TOTP 是基于时间的,它和 HOTP 具有如下关系: TOTP = HOTP(K, T) HOTP(K,C) = Truncate(HMAC-SHA-1(K,C)) 其中: T:T = (Current Unix time - T0) / X, T0 = 0,X = 30 K:客户端和服务端的共享密钥,不同的客户端的密钥各不相同.…
Spark 介绍(基于内存计算的大数据并行计算框架)  Hadoop与Spark 行业广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持可扩展,灵活,容错和成本有效的计算解决方案.这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等待时间方面保持速度.Spark由Apache Software Foundation引入,用于加速Hadoop计算软件过程.对于一个普遍的信念,Spark不是Hadoop的修改版本,并不…
不多说,直接上干货! RFormula算法介绍: RFormula通过R模型公式来选择列.支持R操作中的部分操作,包括‘~’, ‘.’, ‘:’, ‘+’以及‘-‘,基本操作如下: 1. ~分隔目标和对象 2.+合并对象,“+ 0”意味着删除空格 3. :交互(数值相乘,类别二值化) 4.. 除了目标外的全部列 假设a和b为两列: 1.y ~ a + b表示模型y ~ w0 + w1 * a +w2 * b其中w0为截距,w1和w2为相关系数. 2. y ~a + b + a:b – 1表示模型…
采样方法(二)MCMC相关算法介绍及代码实现 2017-12-30 15:32:14 Dark_Scope 阅读数 10509更多 分类专栏: 机器学习   版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/Dark_Scope/article/details/78937731 0.引子 书接前文,在采样方法(一)中我们讲到了拒绝采样.重要性采样一系列的蒙特卡洛采样方法,但这些方法在高维空间…
(本文转自:http://www.syphong.cn/52-1.html#) 视频透雾原理加视频增强Retinex算法介绍 -上海凯视力成 钟建军 一. 视频增强的背景 视觉信息是人类获得外界信息的主要来源,因为大约有70%的信息是通过人眼获得的.随着多媒体技术飞速发展,视频图像得到了广泛重视和应用,其应用领域遍及广播电视.医学.保安监控.车场管理.军事及生命科学等方面.视频采集技术与显示技术的提升,使得人们对画质的要求越来越高,但是在各类图像系统中图像的传送和转换(如成像.复制.扫描.传输以…
一.KNN算法介绍 邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表.近邻算法就是将数据集合中每一个记录进行分类的方法 . k近邻法是一种基本的分类和回归方法,是监督学习方法里的一种常用方法.k近邻算法假设给定一个训练数据集,其中的实例类别已定.分类时,对新的实例,根据其k个最近邻的训练实例类别,通过多数表决等方式进行预测. 二.KNN算法核…
考虑到知识的复杂性,连续性,将本算法及应用分为3篇文章,请关注,将在本月逐步发表. 1.机器学习之PageRank算法应用与C#实现(1)算法介绍 2.机器学习之PageRank算法应用与C#实现(2)球队排名应用与C#代码 3.机器学习之PageRank算法应用与C#实现(3)球队实力排名应用与C#代码 Pagerank是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准.在揉合了诸如Title标…