对比一 : 有标签 vs 无标签 有监督机器学习又被称为“有老师的学习”,所谓的老师就是标签.有监督的过程为先通过已知的训练样本(如已知输入和对应的输出)来训练,从而得到一个最优模型,再将这个模型应用在新的数据上,映射为输出结果.再经过这样的过程后,模型就有了预知能力. 而无监督机器学习被称为“没有老师的学习”,无监督相比于有监督,没有训练的过程,而是直接拿数据进行建模分析,意味着这些都是要通过机器学习自行学习探索.这听起来似乎有点不可思议,但是在我们自身认识世界的过程中也会用到无监督学习.比如…
词义消歧,句子.篇章语义理解基础,必须解决.语言都有大量多种含义词汇.词义消歧,可通过机器学习方法解决.词义消歧有监督机器学习分类算法,判断词义所属分类.词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义. 有监督词义消歧方法.基于互信息词义消歧方法,两种语言对照,基于大量中英文对照语料库训练模型可词义消歧.来源信息论,一个随机变量中包含另一个随机变量信息量(英文信息中包含中文信息信息量),假设两个随机变量X.Y的概率分别是p(x), p(y),联合分布概率是p(x,y),互信息计算…
自动编码器是一种有三层的神经网络:输入层.隐藏层(编码层)和解码层.该网络的目的是重构其输入,使其隐藏层学习到该输入的良好表征. 自动编码器神经网络是一种无监督机器学习算法,其应用了反向传播,可将目标值设置成与输入值相等.自动编码器的训练目标是将输入复制到输出.在内部,它有一个描述用于表征其输入的代码的隐藏层. 自动编码器的目标是学习函数 h(x)≍x.换句话说,它要学习一个近似的恒等函数,使得输出 x^ 近似等于输入 x.自动编码器属于神经网络家族,但它们也和 PCA(主成分分析)紧密相关.…
先说说他们的产品:企业免疫系统(基于异常发现来识别威胁) 可以看到是面向企业内部安全的! 优点整个网络拓扑的三维可视化企业威胁级别的实时全局概述智能地聚类异常泛频谱观测 - 高阶网络拓扑;特定群集,子网和主机事件可搜索的日志和事件重播历史数据设备和外部IP的整体行为的简明摘要专为业务主管和安全分析师设计100%的能见度 企业免疫系统是世界上最先进的网络防御机器学习技术.受到人体免疫系统自我学习智能的启发,这种新技术在复杂和普遍的网络威胁的新时代中,使组织自我保护方式发生了根本转变. 人体免疫系统…
一.概念 K-means是一种典型的聚类算法,它是基于距离的,是一种无监督的机器学习算法. K-means需要提前设置聚类数量,我们称之为簇,还要为之设置初始质心. 缺点: 1.循环计算点到质心的距离,复杂度较高. 2.对噪声不敏感,即使是噪声也会被聚类. 3.质心数量及初始位置的选定对结果有一定的影响. 二.计算 K-means需要循环的计算点到质心的距离,有三种常用的方法: 1.欧式距离 欧式距离源自N维欧氏空间中两点x,y间的距离公式,在二维上(x1,y1)到(x2,y2)的距离体现为:…
聚类算法 概述 无监督问题 手中无标签 聚类 将相似的东西分到一组 难点 如何 评估, 如何 调参 基本概念 要得到的簇的个数  - 需要指定 K 值 质心 - 均值, 即向量各维度取平均 距离的度量 - 常用 欧几里得距离 和 余弦线相似度 ( 先标准化 ) 优化目标 -  需求每个簇中的点, 到质心的距离尽可能的加和最小, 从而得到最优 K - MEANS 算法 工作流程 - (a)   初始图 - (b) 在指定了 K 值之后, 会在图中初始化两个点 红点, 蓝点( 随机质心 )    这…
   \(LDA\)是一种比较常见的有监督分类方法,常用于降维和分类任务中:而\(PCA\)是一种无监督降维技术:\(k\)-means则是一种在聚类任务中应用非常广泛的数据预处理方法.    本文的主要写作出发点是:探讨无监督情况下,\(LDA\)的类内散度矩阵和类间散度矩阵与\(PCA\)和\(k\)-means之间的联系. 1.常规有监督\(LDA\)的基本原理:   (1) \(LDA\)的目标函数:    关于\(LDA\)的产生及理论推导,大家参考:"线性判别分析LDA原理总结&qu…
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异常值定义为与其余数据群1不一致的样本或事件.异常值通常包含有关影响数据生成过程2的系统和实体的异常特征的有用信息. 异常检测算法的常见应用包括: 入侵检测系统信用卡诈骗有趣的传感器事件医学诊断在本文中,我们将重点介绍异常检测 - 信用卡欺诈的最常见应用之一.通过一些简单的离群值检测方法,可以在真实世…
目录 0 前置知识 什么是机器学习 机器学习的算法 机器学习首先要解决的两个问题 一些基本概念 数据集介绍 1 正文 数据提取 数字型 文本型 数据读取 0 前置知识 什么是机器学习 通过简单示例来理解什么是机器学习 机器学习的算法 属于监督式学习的算法有:回归模型,决策树,随机森林,K近邻算法,逻辑回归等算法 属于无监督式学习的算法有:关联规则,K-means聚类算法等 属于强化学习的算法有:马尔可夫决策过程 机器学习的算法——用最通俗的例子去理解 通俗易懂机器学习 图解十大经典机器学习算法入…
https://blog.csdn.net/ChenVast/article/details/81449509 本文档旨在帮助那些掌握机器学习基础知识的人从Google机器学习的最佳实践中获益.它提供了机器学习的风格,类似于Google C ++风格指南和其他流行的实用编程指南.如果您参加了机器学习课程,或者在机器学习模型上构建或工作,那么您就具备了阅读本文档的必要背景知识. 术语 在我们关于有效机器学习的讨论中,将反复提出以下术语: 实例:您想要做出预测的事情.例如,实例可能是您要将其分类为“…