机器学习 MLIA学习笔记(一)】的更多相关文章

监督学习(supervised learning):叫监督学习的原因是因为我们告诉了算法,我们想要预测什么.所谓监督,其实就是我们的意愿是否能直接作用于预测结果.典型代表:分类(classification)和回归(regression). 非监督学习(unsupervised learning):在非监督学习的数据中,没有给出标签(label,用于类别区分等)和目标值(target value,用于回归预测).通常,如果我们如果想将具有相似性的数据项进行分组,这种行为就是“聚类”(cluste…
KNN=K-Nearest Neighbour 原理:我们取前K个相似的数据(排序过的)中概率最大的种类,作为预测的种类.通常,K不会大于20. 下边是一个简单的实例,具体的含义在注释中: import numpy as np import operator import os def createDataSet(): group = np.array([[1.0, 1.1],[1.0, 1.0],[0, 0],[0, 0.1]]) labels = ['A', 'A', 'B', 'B'] r…
这是个KNN算法的另一实例,计算Dating的可能性. import numpy as np import os import operator import matplotlib import matplotlib.pyplot as plt def classify(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0]#lines num; samples num diffMat = np.tile(inX, (dataSetSiz…
# TensorFlow机器学习框架-学习笔记-001 ### 测试TensorFlow环境是否安装完成-----------------------------```import tensorflow as tf hello = tf.constant('Hello,TensorFlow!')sess = tf.Session()print(sess.run(hello))```…
背景 之前所讨论的SVM都是非常严格的hard版本,必须要求每个点都被正确的区分开.但是,实际情况时很少出现这种情况的,因为噪声数据时无法避免的.所以,需要在hard SVM上添加容错机制,使得可以容忍少量噪声数据.   "软"化问题 软化SVM的思路有点类似正规化,在目标函数添加错误累加项,然后加一个系数,控制对错误的容忍度,并且在约束中添加错误容忍度的约束,形式如下:   现在问题就变成了(d+1+N)个变量和2N个约束.ξ用来描述错误的容忍度.C是常量,用来控制容忍度.C越大,由…
机器学习的定义: 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能. 机器学习的应用实例: 1.学习关联性 在零售业中,机器学习的应用就是购物篮分析,任务就是发现顾客所购商品之间的关联性. 2.分类 2.1信贷行业,做好风险评估,以及做好银行贷款问题中的信用评分.还有就是做好预测,通过学习过去的数据,…
文章目录 1.ID3及C4.5算法基础 1.1 计算香农熵 1.2 按照给定特征划分数据集 1.3 选择最优特征 1.4 多数表决实现 2.基于ID3.C4.5生成算法创建决策树 3.使用决策树进行分类 4.存储决策树 通过决策树原理及相关概念细节我们知道,决策树的学习算法主要包括3个步骤:特征选择.决策树生成算法.决策树剪枝,我们按照这个思路来一一实现相关功能. 本文的实现目前主要涉及特征选择.ID3及C4.5算法.剪枝及CART算法暂未涉及,后期补上. 1.ID3及C4.5算法基础 前面文章…
笔者本人是个初入机器学习的小白,主要是想把学习过程中的大概知识和自己的一些经验写下来跟大家分享,也可以加强自己的记忆,有不足的地方还望小伙伴们批评指正,点赞评论走起来~ 文章目录 1.k-近邻算法概述 1.1 距离度量 1.2 k值的选择 1.3 分类决策规则 2.k-近邻算法实现 2.1 实现方法 2.2 k-近邻法python3.6实现 2.2.1 k-近邻法实现程序 2.2.2 classify0(inX, dataSet, labels, k)中部分方法注释 2.2.3 如何测试分类器…
sklearn.feature_selection模块的作用是feature selection,而不是feature extraction.   Univariate feature selection:单变量的特征选择 单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标重要.剔除那些不重要的指标.   sklearn.feature_selection模块中主要有以下几个方法: SelectKBest和SelectPercentile比较相似,前者选择排名排…
背景 支持向量机(SVM)背后的数学知识比较复杂,之前尝试过在网上搜索一些资料自学,但是效果不佳.所以,在我的数据挖掘工具箱中,一直不会使用SVM这个利器.最近,台大林轩田老师在Coursera上的机器学习技法课程上有很详细的讲授SVM的原理,所以机会难得,一定要好好把握这次机会,将SVM背后的原理梳理清楚并记录下来.这篇文章总结第一讲linear hard SVM的相关内容.     最好的分割线 之前有讲过PLA,即在线性可分的数据中,找到一条线,能够区分开正负样本,如下所示: 上面三条线,…