MapReduce实战--倒排索引】的更多相关文章

本文地址:http://www.cnblogs.com/archimedes/p/mapreduce-inverted-index.html,转载请注明源地址. 1.倒排索引简介 倒排索引(Inverted index),也常被称为反向索引.置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射.它是文档检索系统中最常用的数据结构. 有两种不同的反向索引形式: 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表. 一个单词的…
MapReduce的倒排索引 索引: 什么是索引:索引(Index)是帮助数据库高效获取数据的数据结构.索引是在基于数据库表创建的,它包含一个表中某些列的值以及记录对应的地址,并且把这些值存储在一个数据结构中.最常见的就是使用哈希表.B+树作为索引. 索引的具体分析:https ://blog.csdn.net/meiLin_Ya/article/details/80854232 用代码说事,先来看看我的数据吧: 包com.huhu.day05; import java.io.IOExcepti…
这里来学习的是利用MapReduce的分布式编程模型来实现简单的倒排索引. 首先什么是倒排索引? 倒排索引是文档检索中最常用的数据结构,被广泛地应用于全文搜索引擎. 它主要是用来存储某个单词(或词组)在一个文档或一组文档中存储位置的映射,即可以通过内容来查找文档: 而不是通过文档来确定文档所包含的内容,因而被称作倒排索引(Inverted Index). 倒排索引的基本原理和建立过程可以用图来说明. 各种类型的文件经过解析后变成纯文本,再经过中文分词,并与对应的文档号进行组合, 就形成了最简单的…
倒排索引 (就是key和Value对调的显示结果) 一.需求:下面是用户播放音乐记录,统计歌曲被哪些用户播放过 tom        LittleApple jack       YesterdayOnceMore Rose       MyHeartWillGoOn jack       LittleApple John       MyHeartWillGoOn kissinger  LittleApple kissinger  YesterdayOnceMore 二.最终的效果 Littl…
需求: 以上三个文件,用MapReduce进行处理,最终输出以下格式: hello c.txt-->2 b.txt-->2 a.txt-->3jerry c.txt-->1 b.txt-->3 a.txt-->1tom c.txt-->1 b.txt-->1 a.txt-->2 思考: 我们需要进行两个步骤: 1.就是之前的统计单词个数的练习,只不过现在需要加上文件名而已.得到如下效果 hello-->a.txt 3hello-->b.tx…
环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境 数据:任意数量.格式的文本文件(我用的四个.java代码文件) 方案目标: 根据提供的文本文件,提取出每个单词在哪个文件中出现了几次,组成倒排索引,格式如下 Ant FaultyWordCount.java : 1 , WordCount.java : 1 思路: 因为这个程序需要用到三个变量:单词.文件名.出现的频率,因此需要自定义Writable类,以单词为key,将文件名和出现的频率打包. 1.先将每行文本的单…
一.github使用手册 1. 我也用github(2)——关联本地工程到github 2. Git错误non-fast-forward后的冲突解决 3. Git中从远程的分支获取最新的版本到本地 4. Git教程 二.案例:倒排索引 1. 完成功能: 统计一系列文本文件中的每个单词构成的倒排索引. 1)分析:(1)倒排索引主要是用来存储某个单词在一个文档中或者一组文档中出现的位置映射关系,即提供一个根据内容查找文档的方式. (2)加权倒排索引,在确定指定单词到文档位置的映射关系的时候,加入权重…
1.薪资数据集 我们要写一个薪资统计程序,统计数据来自于互联网招聘hadoop岗位的招聘网站,这些数据是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计. 2.数据格式 我们使用的数据来自互联网招聘网站,其中每一行是一条记录. 下面我们展示一行数据,其中重要的字段被突出显示.该行数据被分割成很多行以突出每个字段,但在实际文件中,这些字段被整合成一行 美团 3-5年经验 # 工作年限 15-30k # 薪资 北京 [够牛就来]hadoop高级工程 3.分析 在这里,map阶段的…
气象数据集 我们要写一个气象数据挖掘的程序.气象数据是通过分布在美国各地区的很多气象传感器每隔一小时进行收集,这些数据是半结构化数据且是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计分析. 数据格式 我们使用的数据来自美国国家气候数据中心.美国国家海洋和大气管理局(简称 NCDC NOAA),这些数据按行并以 ASCII 格式存储,其中每一行是一条记录. 下面我们展示一行采样数据,其中重要的字段被突出显示.该行数据被分割成很多行以突出每个字段,但在实际文件中,这些字段被整合…
hadoop api http://hadoop.apache.org/docs/r1.0.4/api/org/apache/hadoop/mapreduce/Reducer.html 改变一下需求:要求“文档词频列表”是经过排序的,即 出现次数高的再前 思路: 代码: package proj; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.apache.hadoop…
需求: 在实战(一)的基础 上,实现自定义分组机制.例如根据手机号的不同,分成不同的省份,然后在不同的reduce上面跑,最后生成的结果分别存在不同的文件中. 对流量原始日志进行流量统计,将不同省份的用户统计结果输出到不同文件. 思考: 需要自定义改造两个机制:1.改造分区的逻辑,自定义一个partitioner,主要是实现如何进行分组. Partitioner的作用是对Mapper产生的中间结果进行分片,以便将同一个分区的数据交给同一个Reducer处理,它直接影响Reducer阶段的负载均衡…
紧接着上一篇博文我们学习了MapReduce得到输出格式之后,在这篇博文里,我们将通过一个实战小项目来熟悉一下MultipleOutputs(多输出)格式的用法. 项目需求: 假如这里有一份邮箱数据文件,我们期望统计邮箱出现次数并按照邮箱的类别,将这些邮箱分别输出到不同文件路径下(MultipleOutputs).数据集示例如下所示. wolys@21cn.com zss1984@126.com 294522652@qq.com simulateboy@163.com zhoushigang_1…
实战项目:查找相同字母组成的字谜 项目需求:一本英文书籍中包含有成千上万个单词或者短语,现在我们要从中找出相同字母组成的所有单词. 数据集和期望结果举例: 思路分析: 1)在Map阶段,对每个word按字母进行升序(或降序)排序生成sortWord,然后输出key/value键值对(sortWord, word). 2)在Reduce阶段,统计出每组根据相同字母组成的所有anahrams(字谜).  项目代码: /** * */ package com.hadoop.train; import…
一.问题背景 倒排索引其实就是出现次数越多,那么权重越大,不过我国有凤巢....zf为啥不管,总局回应推广是不是广告有争议... eclipse里ctrl+t找接口或者抽象类的实现类,看看都有啥方法,有时候hadoop的抽象类返回的接口没有需要的方法,那么我们返回他的实现类. 吧需要的文件放入hdfs下的目录下,只要不是以下划线开头的均算. 二.理论准备 搜索引擎查询的时候就是查询这个单词文档矩阵,旺旺采用倒排索引存储,后缀树也可以. 不管理论直接看例子,这是原始的文档 下面是简单的索引,只是表…
(总感觉上一篇的实现有问题)http://www.cnblogs.com/i80386/p/3444726.html combiner是把同一个机器上的多个map的结果先聚合一次现重新实现一个: 思路:第一个mapreduce仅仅做 <word_docid,count>的统计,即某个单词在某一篇文章里出现的次数.(原理跟wordcount一样,只是word变成了word_docid)第二个mapreduce将word_docid在map阶段拆开,重新组合为<word,docid_coun…
1 思路:0.txt MapReduce is simple1.txt MapReduce is powerfull is simple2.txt Hello MapReduce bye MapReduce 1 map函数:context.write(word:docid, 1) 即将word:docid作为map函数的输出输出key 输出valueMapReduce:0.txt 1is:0.txt 1simple:0.txt 1Mapreduce:1.txt 1is:1.txt 1powerf…
MapReduce编程规范: (1)用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端) (2)Mapper的输入数据是KV对的形式(KV的类型可自定义) (3)Mapper的输出数据是KV对的形式(KV的类型可自定义) (4)Mapper中的业务逻辑写在map()方法中 (5)map()方法(maptask进程)对每一个<K,V>调用一次 (6)Reducer的输入数据类型对应Mapper的输出数据类型,也是KV (7)Reducer的业务逻辑写…
应用场景: 用户每天会在网站上产生各种各样的行为,比如浏览网页,下单等,这种行为会被网站记录下来,形成用户行为日志,并存储在hdfs上.格式如下: 17:03:35.012ᄑpageviewᄑ{"device_id":"4405c39e85274857bbef58e013a08859","user_id":"0921528165741295","ip":"61.53.69.195",&q…
需求: Order_0000001,Pdt_01,222.8Order_0000001,Pdt_05,25.8Order_0000002,Pdt_05,325.8Order_0000002,Pdt_03,522.8Order_0000002,Pdt_04,122.4Order_0000003,Pdt_01,222.8 按照订单的编号分组,计算出每组的商品价格最大值. 分析: 我们可以把订单编号当做key,然后按照在reduce端去找出每组的最大值.在这里,我想介绍另外一种方法,顺便介绍Group…
需求: 利用mapReduce实现类似微博中查找共同粉丝的功能.如下: A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J 求出哪些人两两之间有共同粉丝,及他俩的共同粉丝都是谁.比如:A,B [C,E] 分析: 在利用MapReduce程序解答之前,我们不妨用单机程序练习一下,思路很简单,可以…
需求: 利用MapReduce程序,实现SQL语句中的join关联查询. 订单数据表order: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 1003 20150710 P0003 4 商品信息表product: pid pname category_id price P0001 小米6 1000 2499 P0002 锤子T3 1001 2500 P0003 三星S8…
需求: 基于上一道题,我想将结果按照总流量的大小由大到小输出. 思考: 默认mapreduce是对key字符串按照字母进行排序的,而我们想任意排序,只需要把key设成一个类,再对该类写一个compareTo(大于要比较对象返回1,等于返回0,小于返回-1)方法就可以了. 注:这里如果是实现java.lang.Comparable接口,最终报错,还是直接实现WritableComparable吧. FlowBean.java更改如下: package cn.darrenchan.hadoop.mr…
需求: 处理以下流量数据,第1列是手机号,第7列是上行流量,第8列是下行流量.将手机号一样的用户进行合并,上行流量汇总,下行流量也汇总,并相加求得总流量. 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0…
1. 项目需求 我们取有一份学生五门课程的期末考试成绩数据,现在我们希望统计每个学生的总成绩和平均成绩. 样本数据如下所示,每行数据的数据格式为:学号.姓名.语文成绩.数学成绩.英语成绩.物理成绩.化学成绩. 19020090040 秦心芯 123 131 100 95 100 19020090006 李磊 99 92 100 90 100 19020090017 唐一建 90 99 100 89 95 19020090031 曾丽丽 100 99 97 79 96 19020090013 罗开…
1.项目需求 一本英文书籍包含成千上万个单词,现在我们需要在大量的单词中,找出相同字母组成的所有单词 2.数据集 下面是一本英文书籍截取的一部分单词内容(书籍内容是随意写的,主要目的是实现这种需求) 3.分析 1.先看如下图 在上图中,cat.act是相同字母组成的单词,tar.rat也是相同字母组成的单词,bar只有一个,它不显示,因为没有和它是相同字母组成单词 2.基于以上分析,我们通过以下几步完成 1.在Map阶段,对每个word(单词)按字母进行排序生成sortedWord,然后输出ke…
最新一期<中国IT产业发展报告>在2016中国(深圳)IT领袖峰会上正式发布,数字中国联合会常务理事李颖称.中国IT产业完毕了从要素驱动向效率驱动的过渡,眼下正在由效率驱动向创新驱动发展. //定义要序列化的类型 protected int[] splits;//int 数组 protected String[][] splitss;// 二维数组 protected int n1; //int public void cFPoints1(Vector<Text2> sample,…
文章目录 一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 MapReduce程序运行流程分析 二 MapReduce理论篇 2.1 Writable序列化 2.1.1 常用数据序列化类型 2.1.2 自定义bean对象实现序列化接口 2.2 InputFormat数据切片机制 2.2.1 FileInputFormat切片机制 2.2.2 CombineTex…
在工作中,很多时候都是用hive或pig来自动化执行mr统计,但是我们不能忘记原始的mr.本文记录了一些通过mr来完成的经典的案例,有倒排索引.数据去重等,需要掌握. 一.使用mapreduce实现倒排索引  倒排索引(Inverted index),也常被称为反向索引.置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射.它是文档检索系统中最常用的数据结构.通过倒排索引,可以根据单词快速获取包含这个单词的文档列表.  之所以称之为倒排索引,…
前言 的一个渣渣程序猿一枚,因为个人工作,须要常常和hadoop打交道,可是自己之前没有接触过hadoop.所以算是边学边用,这个博客算是记录一下学习历程,梳理一下自己的思路,请各位看官轻拍.本博客大量复制了各路大神的博客,在此不一一列出来了.求各位大神见谅. 大量复制http://hadoop.apache.org/docs/r1.0.4/cn/index.html Hadoop简单介绍 Hadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.or…
一学生成绩---增强版 数据信息 computer,huangxiaoming,,,,,,, computer,xuzheng,,,,, computer,huangbo,,,, english,zhaobenshan,,,,,,, english,liuyifei,,,,,,, algorithm,liuyifei,,,,,,, computer,huangjiaju,,,,, english,liuyifei,,,,,,, english,huangdatou,,,,,,, algorith…