本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第19篇文章,我们来看经典的Apriori算法. Apriori算法号称是十大数据挖掘算法之一,在大数据时代威风无两,哪怕是没有听说过这个算法的人,对于那个著名的啤酒与尿布的故事也耳熟能详.但遗憾的是,随着时代的演进,大数据这个概念很快被机器学习.深度学习以及人工智能取代.即使是拉拢投资人的创业者也很少会讲到这个故事了,虽然时代的变迁令人唏嘘,但是这并不妨碍它是一个优秀的算法. 我们来简单回顾一下这个故事,据说在美国…
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 关联分析 关联分析是一类非常有用的数据挖掘方法,能从数据中挖掘出潜在的关联关系.比如,在著名的购物篮事务(market basket transactions)问题中, TID Iterms 1 {Bread, Milk} 2 {Bread, Diapers, Beer, Eggs} 3 {Milk, Diapers, Beer…
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第14篇文章,我们来聊聊大名鼎鼎的EM算法. EM算法的英文全称是Expectation-maximization algorithm,即最大期望算法,或者是期望最大化算法.EM算法号称是十大机器学习算法之一,听这个名头就知道它非同凡响.我看过许多博客和资料,但是少有资料能够将这个算法的来龙去脉以及推导的细节全部都讲清楚,所以我今天博览各家所长,试着尽可能地将它讲得清楚明白. 从本质上来说EM算法是最大似然估计方法的…
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 我特地把PageRank作为[十大经典数据挖掘算法]系列的收尾篇,是因为本人是Google脑残粉.因了PageRank而Google得以成立,因了Google而这个世界变得好了那么一点点. 1. 引言 PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的,用来解决链接分析中网页排名的问题.…
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 极大似然 极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法.比如,我们想了解抛硬币是正面(head)的概率分布\(\theta\):那么可以通过最大似然估计方法求得.假如我们抛硬币\(10\)次,其中\(8\)次正面.\(2\)次反面:极大似然估计参数\(\theta\)值: \[ \ha…
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 集成学习 集成学习(ensemble learning)通过组合多个基分类器(base classifier)来完成学习任务,颇有点"三个臭皮匠顶个诸葛亮"的意味.基分类器一般采用的是弱可学习(weakly learnable)分类器,通过集成学习,组合成一个强可学习(strongly learnable)分类器.所谓…
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART SVM(Support Vector Machines)是分类算法中应用广泛.效果不错的一类.<统计学习方法>对SVM的数学原理做了详细推导与论述,本文仅做整理.由简至繁SVM可分类为三类:线性可分(linear SVM in linearly separable case)的线性SVM.线性不可分的线性SVM.非线性(nonlin…
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 朴素贝叶斯(Naïve Bayes)属于无监督学习的一种,实现简单,没有迭代,学习效率高,在大样本量下会有较好的表现.但因为假设太强--假设特征条件独立,在输入向量的特征条件有关联的场景下并不适用. 1. 朴素贝叶斯算法 朴素贝叶斯分类器的主要思路:通过联合概率\(P(x,y) = P(x|y) P(y)\)建模,运用贝叶斯定理求解后…
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 决策树模型与学习 决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快.决策树算法包括了由Quinlan提出的ID3与C4.5,Breiman等提出的CART.其中,C4.5是基于ID3的,对分裂属性的目标函数做出了改进. 决策树模型 决策树是一种通过对特征属性的分类对…
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 引言 k-means与kNN虽然都是以k打头,但却是两类算法--kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法:二者相同之处:均利用近邻信息来标注类别. 聚类是数据挖掘中一种非常重要的学习流派,指将未标注的样本数据中相似的分为同一类,正所谓"物以类聚,人以群分"嘛.k-means是聚类算法中最…