一.作业说明 给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量. 训练集介绍: (1)CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20天的数据做训练集,12月X20天=240天,每月后10天数据用于测试,对学生不可见); (2)每天的监测时间点为0时,1时......到23时,共24个时间节点; (3)每天的检测指标包括CO.NO.PM2.5.PM10等气体浓度,是否降雨.刮风等气象信息,共计18项. 用excel打开,繁体字会出现…
一.项目说明 给定数据集train.csv,要求使用卷积神经网络CNN,根据每个样本的面部图片判断出其表情.在本项目中,表情共分7类,分别为:(0)生气,(1)厌恶,(2)恐惧,(3)高兴,(4)难过,(5)惊讶和(6)中立(即面无表情,无法归为前六类).所以,本项目实质上是一个7分类问题. 数据集介绍: (1).CSV文件,大小为28710行X2305列: (2).在28710行中,其中第一行为描述信息,即“label”和“feature”两个单词,其余每行内含有一个样本信息,即共有28709…
一.作业说明 给定训练集spam_train.csv,要求根据每个ID各种属性值来判断该ID对应角色是Winner还是Losser(0.1分类). 训练集介绍: (1)CSV文件,大小为4000行X59列; (2)4000行数据对应着4000个角色,ID编号从1到4001; (3)59列数据中, 第一列为角色ID,最后一列为分类结果,即label(0.1两种),中间的57列为角色对应的57种属性值. 二.思路分析及实现 2.1 思路分析 这是一个典型的二分类问题,结合课上所学内容,决定采用Log…
期末终于过去了,看看别人的总结:http://blog.sina.com.cn/s/blog_641289eb0101dynu.html 接触机器学习也有几年了,不过仍然只是个菜鸟,当初接触的时候英文不好,听不懂课,什么东西都一知半解.断断续续的自学了一些公开课和书以后,开始逐渐理解一些概念.据说,心得要写下来才记得住.据说,心得要与人分享.这里是自己一点非常粗浅的感想或者遇到的问题,不一定对,请自带滤镜.有大牛的看到了请指出错误,求轻拍,求指导.   先说说台大这门课,总体来说偏理论一些.本来…
作业说明 给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量. 训练集介绍: (1):CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20天的数据做训练集,12月X20天=240天,每月后10天数据用于测试,对学生不可见); (2):每天的监测时间点为0时,1时......到23时,共24个时间节点; (3):每天的检测指标包括CO.NO.PM2.5.PM10等气体浓度,是否降雨.刮风等气象信息,共计18项: (4):数据集https:/…
转自:http://blog.sina.com.cn/s/blog_641289eb0101e2ld.html Part 2总结一下一个粗略的建模过程: 首先,弄清楚问题是什么,能不能用机器学习的思路去考虑: 是否有pattern? 是否规则不明确? 是否有数据? 如果可以用,那么考虑,问题的学习目标是什么,有多少feature,有多少数据,应该用什么error measure(Learning from data 有一节专门讲这个,客户能提供吗?如果不能,我们找一个能说服自己的,或者找一个容易…
最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by…
Coursera台大机器学习基础课程学习笔记 -- 1 最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一 机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance a…
总体思路: 各种类型的机器学习分类 按照输出空间类型分Y 按照数据标记类型分yn 按照不同目标函数类型分f 按照不同的输入空间类型分X 按照输出空间类型Y,可以分为二元分类,多元分类,回归分析以及结构化学习等,这个好理解,离散的是分类,连续的是回归,到是结构化的学习接触的相对较少,以后有空可以关注下. 按照数据标记分可以分为: 监督: 非监督: 半监督: 增强学习: 下面这张ppt很好的总结了这点: 这是围绕标记yn的类型进行分类的, 监督和非监督很好理解,半监督和增强其实应用更加普遍,数据的标…
这是机器学习系列的第一篇文章. 本文将使用Python及scikit-learn的线性回归预测Google的股票走势.请千万别期望这个示例能够让你成为股票高手.下面按逐步介绍如何进行实践. 准备数据 本文使用的数据来自www.quandl.com网站.使用Python相应的quandl库就可以通过简单的几行代码获取到我们想要的数据.本文使用的是其中的免费数据.利用下面代码就可以拿到数据: import quandl df = quandl.get('WIKI/GOOGL') 其中WIKI/GOO…
在本节中将通过一个预测房屋价格的实例来讲解利用线性回归预测房屋价格,以及在tensorflow中如何实现 Tensorflow 线性回归预测房价实例 1.1. 准备工作 1.2. 归一化数据 1.3. 用随机的值填充a,b并计算误差,误差采用上文所使用SSE(和方差) 1.4. 计算误差梯度 1.5. 调整参数直到SSE参数最小 1.6. 概念 1.6.1. 简单线性回归 1.6.2. 梯度下降 梯度 步长 1.1. 准备工作 从网上得到的数据可以看到房屋价格与房屋尺寸的一个对比关系,如下图:…
李宏毅机器学习课程---4.Gradient Descent (如何优化) 一.总结 一句话总结: 调整learning rates:Tuning your learning rates 随机Gradient Descent:Stochastic Gradient Descent 特征缩放:Feature Scaling stochastic英 [stə'kæstɪk]  美 [sto'kæstɪk] adj. [数] 随机的:猜测的 1.如何调整 Learning Rates? 比如先大后小:…
李宏毅机器学习课程---3.Where does the error come from 一.总结 一句话总结:机器学习的模型中error的来源是什么 bias:比如打靶,你的瞄准点离准心的偏移 variance:比如打靶,你的实际打靶的位置 偏离你的瞄准点的距离:相当于方差 1.机器学习中为什么需要判断error的来源? 有的放矢,改进模型:因为你的模型出错,你肯定需要改进模型,知道错误来源后才方便改进模型 2.做多次实验,一次函数和多次函数的函数在图上如何分布? 多次函数在多次实验中分布的线…
李宏毅机器学习课程---2.Regression - Case Study 一.总结 一句话总结: 分类讨论可能是比较好的找最佳函数的方法:如果 有这样的因素存在的话 模型不够好,可能是因素没有找全 因素以及函数的复杂度,并不是越高越好,适合的才是最好的 1.AI训练师的工作是什么? 为机器挑选[合适的model 和 loss function],不同的model和loss function,来适合解决不同的问题 loss英 [lɒs]  美 [lɔs] n. 减少:亏损:失败:遗失n. (Lo…
本文为作者学习李宏毅机器学习课程时参照样例完成homework1的记录. 任务描述(Task Description) 现在有某地空气质量的观测数据,请使用线性回归拟合数据,预测PM2.5. 数据集描述(Dataset Description) train.csv 该文件中是2014年每月前20天每小时的观察数据,每小时的数据是18个维度的(其中之一是PM2.5). test.csv 该文件中包含240组数据,每组数据是连续9个小时的所有观测数据(同样是18个维度). 请预测每组数据对应的第10…
最近翻阅资料,找到 chart.DataManipulator.FinancialFormula()公式的使用,打开另一扇未曾了解的窗,供大家分享一下. 一 DataManipulator类 运行时,执行数据操作.此类是通过chart中DataManipulator属性对外公开的. 在C#中的继承关系如下: System.Object System.Web.UI.DataVisualization.Charting.DataFormula System.Web.UI.DataVisualizat…
参考: 原视频:李宏毅机器学习-Keras-Demo 调参博文1:深度学习入门实践_十行搭建手写数字识别神经网络 调参博文2:手写数字识别---demo(有小错误) 代码链接: 编程环境: 操作系统:win7 - CPU anaconda-Python3-jupyter notebook tersonFlow:1.10.0 Keras:2.2.4 背景: 视频里宝可梦大师提供的部分参数设置不能得到好的结果,这里记录一下后续调参 1-载入数据报错的问题: 载入数据运行时报错:[WinError 1…
本章的思路在于揭示VC Dimension的意义,简单来说就是假设的自由度,或者假设包含的feature vector的个数(一般情况下),同时进一步说明了Dvc和,Eout,Ein以及Model Complexity Penalty的关系. 一回顾 由函数B(N,k)的定义,可以得到比较松的不等式mh(N)小于等于N^(k-1)(取第一项). 这样就可以把不等式转化为仅仅只和VC Dimension和N相关了,从而得出如下结论: 1 mh(N)有break point k,那么其就是多项式级别…
极其淡腾的一学期终于过去了,暑假打算学下台大的这门机器学习技法. 第一课是对SVM的介绍,虽然之前也学过,但听了一次感觉还是很有收获的.这位博主总结了个大概,具体细节还是 要听课:http://www.cnblogs.com/bourneli/p/4198839.html 这位博主总结的很详细:http://www.cnblogs.com/xbf9xbf/p/4617120.html 这节课提出了一个重要的概念--maxmum margin(它和hinge loss是线性SVM最重要的两个部分)…
 这节的主题感觉和training,testing关系不是很大,其根本线索在于铺垫并求解一个问题:    为什么算法PLA可以正确的work?因为前面的知识告诉我们,只有当假设的个数有限的时候,我们才能比较确认我们得到坏的数据集的概率比较低,也就是说算法得出的假设和最佳假设在全局表现相同(错误率相等),可是PLA的假设是平面上的直线,不是无数个么?为什么可以正常泛化?   为解释这个问题,有了这节以及下面几节的课程  可以看到这个问题其实很重要,因为这是我们理解机器为啥能学习的关键一步,因为很多…
提纲: 机器学习为什么可能? 引入计算橙球概率问题 通过用Hoeffding's inequality解决上面的问题,并得出PAC的概念,证明采样数据学习到的h的错误率可以和全局一致是PAC的 将得到的理论应用到机器学习,证明实际机器是可以学习 机器学习的大多数情况下是让机器通过现有的训练集(D)的学习以获得预测未知数据的能力,即选择一个最佳的h做为学习结果,那么这种预测是可能的么?为什么在采样数据上得到的h可以认为适用于全局,也就是说其泛化性的本质是什么? 课程首先引入一个情景: 如果有一个装…
这一节讲的是核化的SVM,Andrew Ng的那篇讲义也讲过,讲的也不错. 首先讲的是kernel trick,为了简化将低维特征映射高维特征后的计算,使用了核技巧.讲义中还讲了核函数的判定,即什么样的函数K能使用kernel trick. 此外,核函数还可以衡量两个特征的相似度,值越大,越相似(可用于跟踪哦 ). 接着讲的是Polynomial Kernel,需要注意的是核函数的系数和常量,这会影响到最终的margin. 再接着讲了高斯Kernel,它能将原始数据映射到无限维!但是如果参数选的…
这节课是最后一节,讲的是做机器学习的三个原则. 第一个是Occan's razor,即越简单越好.接着解释了什么是简单的hypothesis,什么是简单的model.关于为什么越简单越好,林老师从大致思想 上进行了解释:如果一个简单的模型能对数据分得很好,那说明输入的资料是有规律的资料(这被称为资料具有显著性significant):对于复杂的模型来说,不是资料怎么样,都可以分的较好,这样 的资料不具备显著性.那做机器学习的方向就是,先做简单的线性模型,不行再做其他的. 第二个是sampling…
这一节讲的是如何将线性不可分的情况转为非线性可分以及转换的代价.特征转换是机器学习的重点. 最后得出重要的结论是,在做转换时,先从简单模型,再到复杂模型. 参考:http://www.cnblogs.com/ymingjingr/p/4340977.html…
如果只想得到某种概率,而不是简单的分类,那么该如何做呢?在误差衡量问题上,如何选取误差函数这段很有意思. 接下来是如何最小化Ein,由于Ein是可凸优化的,所以采用的是梯度下降法:只要达到谷底,就找到了最优解.与PLA对比发现, logistic regression的梯度下降其实也是调整错分的w(错分有较大权重). 当采用梯度下降法时,发现Ein是非线性,所以不能像linear regression那样,直接得到闭式解,于是采用了小技巧将其转为线性.于是可以得到最优的方向. 关于步长的选择,过…
将Radial Basis Function与Network相结合.实际上衡量两个点的相似性:距离越近,值越大. 将神经元换为与距离有关的函数,就是RBF Network: 可以用kernel和RBF来衡量相似性: 那么如何选中心点呢,一种方法是把所有看过的资料都当做中心点,这就是 FULL NETWORK: 用所有的点作中心太麻烦,可以选择某几个点来投票,这就是KNN(具体可参考机器学习实战): 之前投票的y就是资料的标签,如果每笔资料都不同的话,可以得到一个简洁的贝塔: 减少中心点(相当于选…
一.说明 给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量. 训练集介绍: (1).CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20天的数据做训练集,12月X20天=240天,每月后10天数据用于测试,对学生不可见); (2).每天的监测时间点为0时,1时......到23时,共24个时间节点; (3).每天的检测指标包括CO.NO.PM2.5.PM10等气体浓度,是否降雨.刮风等气象信息,共计18项: 二.数据处理 根据要求,要用…
本章重点:  简单的论证了即使有Noise,机器依然可以学习,VC Dimension对泛化依然起作用:介绍了一些评价Model效果的Error Measurement方法. 一论证即使有Noisy,VC Dimension依然有效: 下图展示了主要思想,以前的数据集是确定的(Deterministic),现在加了Noisy变成了分布函数了,即对每个一x,y出现的概率是P(y|x).可以这么理解,概率表示的是对事件确定的程度,以前确定性的数据集是 P(y|x) = 1, for y = f(x)…
本章思路: 根据之前的总结,如果M很大,那么无论假设泛化能力差的概率多小,都无法忽略,所以问题转化为证明M不大,然后上章将其转化为证明成长函数:mh(N)为多项式级别.直接证明似乎很困难,本章继续利用转化的思想,首先想想和mh(N)相关的因素可能有哪些?不难想到目前来看只有两个: 假设的抽样数据集大小N: break point k(这个变量确定了假设的类型): 那么,由此可以得到一个函数B,给定N和k可以确定该系列假设能够得到的最大的mh(N),那么新的目标便是证明B(N,k) <= Poly…
这节课是接着上节的正则化课程的,目的也是为了防止overfitting. 第一小节讲了模型的选择,前面讲了很多模型,那么如何做出正确的选择呢?我们的目标是选择最小的Eout目标函数.首先应避免视觉化选择,因为高维. 假如选Ein最小的化,则会出现过拟合.虽然能用test数据选择最好的,但通常test数据是不可得的.然后提出了一个办法,在训练数据中留出一部分,作为test,称为validation data 第二节中,要想让Eval与Eout产生连接,就在数据集中随即抽样K个样本.这样在N-K个样…