之前有幸在MOOC学院抽中小象学院hadoop体验课。 
这是小象学院hadoop2.X的笔记

由于平时对数据挖掘做的比较多,所以优先看Mahout方向视频。

Mahout有很好的扩展性与容错性(基于HDFS&MapReduce开发),实现了大部分常用的数据挖掘算法(聚类、分类、推荐算法)不过数据挖掘调参和业务理解是关键,个人觉得真正想学习的话,还是看正规机器学习的课程比较好。

这里省略了大部分比较技术那一块的笔记。。。

虽然mahout在速度上有天然优势。但R/Python其实也在接入hadoop,如RHadoop等 
而且正如[别老扯什么Hadoop了,你的数据根本不够大](http://geek.csdn.net/news/detail/2780) 这里提到的,在轻量级数据上,还是没有太大必要折腾hadoop,在hadoop上用mahout的前提应该是数据量非常大

不在博客园上阅读时才会看到的,这篇博文归http://www.cnblogs.com/weibaar 所有

仅保证在博客园博客上的排版干净利索还有代码块与图片正确显示,他站请保留作者信息尊重版权啊

一、课程概述

1、综合介绍 
2、聚类算法 
3、分类算法 
4、推荐算法

二、聚类算法

聚类应用场景如新闻聚类(多少条与之相关)。最常用的是k-means聚类 
基本流程应该是指定聚类次数,定位中心点,计算平均距离,最后实现产品分类。 
在Mahout里

1、提取feature

对新闻正文分词,对词编码,如doc1有哪些词出现,转化为0-1多维向量

2、feature向量化,多维的向量

之前的多维向量浪费空间,需要换一种表达方式,mahout里提供lucene或其他工具把这些feature转化为向量格式 
总之要实现有序的、节省空间的feature,最后储存为SequenceFile格式。

3、用kmeans实施聚类

bin/mahout kmeans \ 并可调相应格式

另外,mahout提供多种向量之间距离计算org.apache.mahout.distance

因此kmeans参数调优,有一个方法是对向量距离计算方法调优

cannopy算法:寻找最优的初始点

一般配合其他聚类方法使用 
如cannopy算法可以协助kmeans确定初始点

就是先随机选一个点,计算不同距离的点的个数,然后迭代计算,最后可以找出一个包含度较高的初始点 
(kmeans默认用随机点,指定canopy的话可以寻找最优的初始点,这个改进应该也是调参之一)

三、分类算法

属于有监督的机器学习算法,分类已经实现订好了,现在看什么因素是可以让我们快速定位其为该分类的数据 
所以应用步骤应该是,用训练集获得分类模型,测试调优后用于线上产品里

再调用其他的参数引用分类模型

模型评估常用的两个指标:confusion混淆矩阵 & AUC

不在博客园上阅读时才会看到的,这篇博文归http://www.cnblogs.com/weibaar 所有

仅保证在博客园博客上的排版干净利索还有代码块与图片正确显示,他站请保留作者信息尊重版权啊

四、推荐算法

用户,对什么物品,打多少分 
preference:倾向度,可以用user-item矩阵进行评分

就是用用户对其他物品的打分(基于相似用户的打分,重点是查找用户相似度)以及其他用户对该item的打分(重点查找相似的物品,用商品相似度作为权重填充)

User-based的推荐效果更好,用户效果好 
Item-based的效果较差,但是计算效率高,适合实时推荐系统

Mahout有自带一个Taste推荐系统实现。基于java,协同过滤,属于可靠高效的推荐引擎

Hadoop里的数据挖掘应用-Mahout——学习笔记<三>的更多相关文章

  1. java之jvm学习笔记三(Class文件检验器)

    java之jvm学习笔记三(Class文件检验器) 前面的学习我们知道了class文件被类装载器所装载,但是在装载class文件之前或之后,class文件实际上还需要被校验,这就是今天的学习主题,cl ...

  2. Typescript 学习笔记三:函数

    中文网:https://www.tslang.cn/ 官网:http://www.typescriptlang.org/ 目录: Typescript 学习笔记一:介绍.安装.编译 Typescrip ...

  3. angular学习笔记(三十一)-$location(2)

    之前已经介绍了$location服务的基本用法:angular学习笔记(三十一)-$location(1). 这篇是上一篇的进阶,介绍$location的配置,兼容各版本浏览器,等. *注意,这里介绍 ...

  4. angular学习笔记(三十一)-$location(1)

    本篇介绍angular中的$location服务的基本用法,下一篇介绍它的复杂的用法. $location服务的主要作用是用于获取当前url以及改变当前的url,并且存入历史记录. 一. 获取url的 ...

  5. angular学习笔记(三十)-指令(10)-require和controller

    本篇介绍指令的最后两个属性,require和controller 当一个指令需要和父元素指令进行通信的时候,它们就会用到这两个属性,什么意思还是要看栗子: html: <outer‐direct ...

  6. angular学习笔记(三十)-指令(7)-compile和link(2)

    继续上一篇:angular学习笔记(三十)-指令(7)-compile和link(1) 上一篇讲了compile函数的基本概念,接下来详细讲解compile和link的执行顺序. 看一段三个指令嵌套的 ...

  7. angular学习笔记(三十)-指令(6)-transclude()方法(又称linker()方法)-模拟ng-repeat指令

    在angular学习笔记(三十)-指令(4)-transclude文章的末尾提到了,如果在指令中需要反复使用被嵌套的那一坨,需要使用transclude()方法. 在angular学习笔记(三十)-指 ...

  8. angular学习笔记(三十)-指令(2)-restrice,replace,template

    本篇主要讲解指令中的 restrict属性, replace属性, template属性 这三个属性 一. restrict: 字符串.定义指令在视图中的使用方式,一共有四种使用方式: 1. 元素: ...

  9. MySql学习笔记三

    MySql学习笔记三 4.DML(数据操作语言) 插入:insert 修改:update 删除:delete 4.1.插入语句 语法: insert into 表名 (列名1,列名2,...) val ...

随机推荐

  1. opentsdb basic install

    git clone git://github.com/OpenTSDB/opentsdb.git cd opentsdb ./build.sh env COMPRESSION=NONE HBASE_H ...

  2. github 和 github for windows 学习使用总结

    github 是最大的开源项目托管平台,是一个网站.但是它不仅仅只能托管开源项目或代码,还能作为我们备份重要资料的平台,更重要的是我们可以通过这个平台来学习和获取别人的代码,避免重复造轮子,还可以多人 ...

  3. frakti && RunPodSandbox 源码分析

    listen = flag.String("listen", "/var/run/frakti.sock", "...") hyperEnd ...

  4. 深入.NET平台的软件系统分成开发(1/6)

    第一章软件系统的分层开发 1.1 分成架构 分成模式定义:将解决方案中功能不同的模块分到不同的项目中实现.每一层中的主键应保持内聚性,每一层都应与他下面的各层保持松耦合. 分层模式是最常见的一种架构模 ...

  5. 14-前端开发之CSS

    什么是 CSS ? CSS 指层叠样式表 (Cascading Style Sheets),用于对页面进行美化. 存在的方式有3种: 元素内联:在标签中使用 style='xx:xxx;' 页面嵌入: ...

  6. Sublime Text 3 3126 注册码 + 下载地址

    Sublime Text 3 3126  下载地址 Windows版本 64位:https://download.sublimetext.com/Sublime%20Text%20Build%2031 ...

  7. 配置文件类 Properties

    Properties(配置文件类): 主要用于生产配置文件与读取配置文件的信息. Properties属于集合类,继承于Hashtable. Properties要注意的细节:    1. 如果配置文 ...

  8. 开源任务管理平台TaskManagerV2.0介绍及升级说明

    上一篇开源任务管理平台TaskManager介绍发布后,有网友联系我看看能不能做个后台管理界面,方便管理系统中所有的任务.由于时间和技术问题1.0版本的时候,新增了一个3分钟读取配置文件动态修改任务的 ...

  9. JS组件系列——基于Bootstrap Ace模板的菜单和Tab页效果分享(你值得拥有)

    前言:最近园子里多了许多谈语言.谈环境.谈逼格(格局)的文章,看看笑笑过后,殊不知其实都是然并卵.提升自己的技术才是王道.之前博主分享过多篇bootstrap组件的文章,引起了很多园友的关注和支持,看 ...

  10. CSS基本知识3-CSS盒模型

    box-sizing: content-box|border-box|inherit; 值 描述 content-box 这是由 CSS2.1 规定的宽度高度行为. 宽度和高度分别应用到元素的内容框. ...