1 文件格式的选择 ORC格式确实要比textFile要更适合于hive,查询速度会提高20-40%左右 例子1: youtube1的文件格式是TextFIle,youtube3的文件格式是orc hive> select videoId,uploader,age,views from youtube1 order by views limit 10; Query ID = hadoop_20170710085454_6768a540-a0b3-4d98-92a0-f97d4eff8b42 To
Mahout朴素贝叶斯文本分类算法 Mahout贝叶斯分类器按照官方的说法,是按照<Tackling the PoorAssumptions of Naive Bayes Text Classiers>实现的.分为三个模块:训练.测试和分类.该文档首先简要介绍朴素贝叶斯的基本原理,然后介绍MapReduce实现的思路. 一.MapReduce 朴素贝叶斯算法实现 (一)预处理 在训练和分类之前都需要将小文档合并,以及分词处理.大量的小文档会让NameNode占用太多的内存空间存储元数据,另一方
案例三: 统计共同好友 任务需求: 如下的文本, A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J 求出哪些人两两之间有共同好友,及他俩的共同好友都是谁 b -ac -ad -aa -b c -b b -e b -j 解题思路: 写两个mapreduce 第一个MR输出结果如:b -> a