1. 降维技术 1.1 降维的必要性 1. 多重共线性--预测变量之间相互关联.多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯.2. 高维空间本身具有稀疏性.一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%. 3. 过多的变量会妨碍查找规律的建立. 4. 仅在变量层面上分析可能会忽略变量之间的潜在联系.例如几个预测变量可能落入仅反映数据某一方面特征的一个组内. 1. 2 降维的目的: 1. 减少预测变量的个数 2. 确保这些变量是相互独立的 3. 提供一个框架来…
第1-3章 这个文档是记录我学习python时一些学习笔记以及一些想法也可以称作复习笔记 第一章:起步这一章主要是从第一个"hello world"程序到python环境的搭建与配置,因为我在Mac上用的一个叫Jupiter Notebook的网页端界面,所以就省去了这个步骤,直接进行后面的练习了,当然后面到小项目的时候也许还是需要熟练的在Windows.MacOS.Linux三个不同环境下搭建环境的. 第二章:变量和简单数据类型这一章主要涵盖了:变量.字符串.数字.注释.python…
文章目录 1.ID3及C4.5算法基础 1.1 计算香农熵 1.2 按照给定特征划分数据集 1.3 选择最优特征 1.4 多数表决实现 2.基于ID3.C4.5生成算法创建决策树 3.使用决策树进行分类 4.存储决策树 通过决策树原理及相关概念细节我们知道,决策树的学习算法主要包括3个步骤:特征选择.决策树生成算法.决策树剪枝,我们按照这个思路来一一实现相关功能. 本文的实现目前主要涉及特征选择.ID3及C4.5算法.剪枝及CART算法暂未涉及,后期补上. 1.ID3及C4.5算法基础 前面文章…
笔者本人是个初入机器学习的小白,主要是想把学习过程中的大概知识和自己的一些经验写下来跟大家分享,也可以加强自己的记忆,有不足的地方还望小伙伴们批评指正,点赞评论走起来~ 文章目录 1.k-近邻算法概述 1.1 距离度量 1.2 k值的选择 1.3 分类决策规则 2.k-近邻算法实现 2.1 实现方法 2.2 k-近邻法python3.6实现 2.2.1 k-近邻法实现程序 2.2.2 classify0(inX, dataSet, labels, k)中部分方法注释 2.2.3 如何测试分类器…
第十三章 时间与日期 13.1 认识时间与日期 13.1.1 时间的度量 1.格林威治标准时间GMT 格林威治标准时间的正午是太阳抵达天空最高点之时.现在已经不作为标准时间使用. 2.世界时UT世界时是借由观测远方星体跨过子午线而得,在引入UTC之前,GMT和UT是相同的. 3.国际原子时TAI 将秒的国际单位定义为铯原子辐射振动91926331770周耗费的时间,从UT的1958年开始同步. 4.世界协调时UTC 采用了闰秒修正,确保UTC与UT相差不会超过0.9秒,加入闰秒的时间通常会在6月…
备注:本章介绍了比较简单,只是比较使用样品,主要假设是把握连接,利用数据库.和SQLite做演示样本 ------ Python数据库API 为了解决Python中各种数据库模块间的兼容问题,如今已经通过了一个标准的DB API. 眼下的API版本号(2.0)定义在PEP249中的Python Database API Specification v2.0中. 异常 为了尽可能准确地处理错误,API中定义了一些异常.它们被定义在一种层次结构中,所以能够通过一个except块捕捉多种异常. 连接和…
文章目录 1.改进约会网站匹配效果 1.1 准备数据:从文本文件中解析数据 1.2 分析数据:使用Matplotlib创建散点图 1.3 准备数据:归一化特征 1.4 测试算法:作为完整程序验证分类器 1.5 使用算法:构建完成可用系统 2.手写识别系统 2.1 准备数据:将图像转换为测试向量 2.2 测试算法:使用k-近邻算法识别手写数字 在上一篇文章中我们得到了基于欧式距离.多数表决规则,实现方法采用线性搜索法的k-近邻法classify0(inX, dataSet, labels, k),…
一.AlexNet:共8层:5个卷积层(卷积+池化).3个全连接层,输出到softmax层,产生分类. 论文中lrn层推荐的参数:depth_radius = 4,bias = 1.0 , alpha = 0.001 / 9.0 , beta = 0.75 lrn现在仅在AlexNet中使用,主要是别的卷积神经网络模型效果不明显.而LRN在AlexNet中会让前向和后向速度下降,(下降1/3). [训练时耗时是预测的3倍] 代码: #加载数据 import tensorflow as tf fr…
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 降维技术的用途 使得数据集更易使用: 降低很多算法的计算开销: 去除噪声: 使得结果易懂. 基本概念 降维(dimensionality reduction). 如果样本数据的特征维度很大,会使得难以分析和理解.我们可以通过降维技术减少维度. 降维技术并不是将影响少的特征去掉,而是将样本数据集转换成一个低维度…
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念 关联分析(association analysis)或者关联规则学习(association rule learning) 这是非监督学习的一个特定的目标:发现数据的关联(association)关系.简单的说,就是那些数据(或者数据特征)会一起出现. 关联分析的目标包括两项:发现频繁项集和发现关联规则.首先需要找到频繁项集,然后才能…