利用MapReduce实现倒排索引

这里来学习的是利用MapReduce的分布式编程模型来实现简单的倒排索引。

首先什么是倒排索引？

倒排索引是文档检索中最常用的数据结构，被广泛地应用于全文搜索引擎。

它主要是用来存储某个单词（或词组）在一个文档或一组文档中存储位置的映射，即可以通过内容来查找文档；

而不是通过文档来确定文档所包含的内容，因而被称作倒排索引（Inverted Index）。

倒排索引的基本原理和建立过程可以用图来说明。

各种类型的文件经过解析后变成纯文本，再经过中文分词，并与对应的文档号进行组合，

就形成了最简单的倒排索引文件倒排序表。

倒排序表的结构是这样一些元组集合：<词汇，<文档 ID，词汇位置>>。

比如有如下三个文件：

file1.txt

MapReduce is simple

file2.txt

MapReduce is powerful is simple

file3.txt

Hello MapReduce bye MapReduce

经过倒排索引之后的输出结果可能是：

Hello file3.txt:1;

MapReduce file3.txt:2; file2.txt:1; file1.txt:1;

bye file3.txt:1;

is file2.txt:2; file1.txt:1;

powerful file2.txt:1;

simple file2.txt:1; file1.txt:1;

设计思路

倒排索引主要关注的点在于单词、文档URL和词频。

1、Map过程

2、Combine过程

3、Reduce过程

===========================================

此处应有代码

===========================================

利用MapReduce实现倒排索引的更多相关文章

Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
Hadoop阅读笔记（二）——利用MapReduce求平均数和去重
前言:圣诞节来了,我怎么能虚度光阴呢?!依稀记得,那一年,大家互赠贺卡,短短几行字,字字融化在心里:那一年,大家在水果市场,寻找那些最能代表自己心意的苹果香蕉梨,摸着冰冷的水果外皮,内心早已滚烫.这一 ...
hadoop笔记之MapReduce的应用案例(利用MapReduce进行排序)
MapReduce的应用案例(利用MapReduce进行排序) MapReduce的应用案例(利用MapReduce进行排序) 思路: Reduce之后直接进行结果合并具体样例: 程序名:Sort. ...
MapReduce的倒排索引
MapReduce的倒排索引索引: 什么是索引:索引(Index)是帮助数据库高效获取数据的数据结构.索引是在基于数据库表创建的,它包含一个表中某些列的值以及记录对应的地址,并且把这些值存储在一个数 ...
利用MapReduce计算平均数
利用mapreduce求出股票价格的开盘和收盘平均数下图为采集到的股票信息,共计1416支股票的信息因为在linux系统下默认采用utf-8的编码格式,而在win下txt默认采用ANSI编码格式. ...
MapReduce实例-倒排索引
环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境数据:任意数量.格式的文本文件(我用的四个.java代码文件) 方案目标: 根据提供的文本文件,提取出每个单词在哪个文件 ...
mapreduce (三) MapReduce实现倒排索引(二)
hadoop api http://hadoop.apache.org/docs/r1.0.4/api/org/apache/hadoop/mapreduce/Reducer.html 改变一下需求: ...
MapReduce实战--倒排索引
本文地址:http://www.cnblogs.com/archimedes/p/mapreduce-inverted-index.html,转载请注明源地址. 1.倒排索引简介倒排索引(Inver ...
利用MapReduce实现数据去重
数据去重主要是为了利用并行化的思想对数据进行有意义的筛选. 统计大数据集上的数据种类个数.从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重. 示例文件内容: 此处应有示例文件设计思路数据 ...

随机推荐

ReentrantLock和synchronized的区别随笔
http://wsmajunfeng.iteye.com/blog/1492316 可重入锁 ReentrantLock 的含义是: 当某个线程获取某个锁后,在未释放锁的情况下,第二次再访问该锁锁定的 ...
【转载】Delphi下实现鼠标自动点击器
本文最早于2009年6月1日在编程论坛(programbbs.com)上发表,页面地址:http://programbbs.com/bbs/view12-20849-1.htm . 众所周知,当鼠标指 ...
SpringBoot自定义HttpMessageConverter
Spring就是一个大大的插线板,上面插着各种各样的Bean. SpringBoot大大简化了Spring的配置,将原来放在XML中的配置大量的在代码中使用注解实现.这么做有利有弊,总体上利大于弊. ...
使用EditPlus技巧，提高工作效率(附英文版、自动完成文件、语法文件下载)
http://www.cnblogs.com/JustinYoung/archive/2008/01/14/editplus-skills.html
ubuntu 忘记root密码了不用怕，看这里
方法来自这里:http://jingyan.baidu.com/article/8065f87fe20832233024985a.html
SIPp常用脚本之二：UAS
看名字就能猜出来,这是作为SIP消息服务端的存在,启动uas,等着接受SIP消息并且给出响应. 一.uas.xml <?xml version="2.0" encoding= ...
Solr4：配置Data Import，从数据库直接创建索引
1. 要求将数据库中的数据直接创建到Solr索引中去.先做全部索引,然后定期做增量索引. 2. 环境 Solr4.4版本,Tomcat7.0版本,Oracle 11g,已经配置好Tomcat与Sol ...
putty的复制和粘贴
putty在终端中的复制--->只要用左键选中即是复制了,千万不要按右键. 在windows下的复制后,在终端粘贴---> 只要右键即可.
mybatis 一二事（3） - 多表关联查询
db.properties jdbc.driver=com.mysql.jdbc.Driver jdbc.url=jdbc:mysql://localhost:3306/order jdbc.user ...
RhinoMock异常ExpectationViolationException以及解决
ExpectationViolationException 异常的原因是没有按照mock的顺序调用方法. mock b mock a //expectation call a call b call ...

利用MapReduce实现倒排索引

利用MapReduce实现倒排索引的更多相关文章

随机推荐

热门专题