Solr与MongoDB集成,实时增量索引

一. 概述

  大量的数据存储在MongoDB上,需要快速搜索出目标内容,于是搭建Solr服务。

  另外一点,用Solr索引数据后,可以把数据用在不同的项目当中,直接向Solr服务发送请求,返回xml、json等形式的内容,使得对数据的使用更灵活。

  对于MongoDB与Solr的描述不在这里阐释了,本文旨在给大家提供整个Solr与MongoDB接合的方法,实现实时的增量索引。

  MongoDB的官网:http://www.mongodb.org/

  Solr项目的主页:http://lucene.apache.org/solr/

二. 寻找解决方案

  既然有了目标是讲Solr跟MongoDB接到一起,那么就开始想想解决的方案。

  网上搜了一些资料之后,汇总了下面三个方案:

  1. 使用Solr的DataImport功能(Data Import)

    我们先来看看Solr Wiki上对于DataImport功能的描述http://wiki.apache.org/solr/DataImportHandler

    Most applications store data in relational databases or XML files and searching over such data is a common use-case.The DataImportHandler is a Solr contrib that provides a configuration driven way to import this data into Solr in both "full builds" and using incremental delta imports.

    对于存储在关系型数据库及XML上的数据,Solr提供了DataImportHandler去实现全量和增量索引。

    啥?人家没说支持NoSQL啊,不信,我看清楚一点。

    Wiki中的内容只给出了Usage with RDBMS 和 Usage with XML/HTTP Datasource,貌似Solr目前是不支持对于NoSQL的DataImport的。

    有兴趣的朋友可以尝试给Solr添加一个Mongo的DataImportHandler,可能还要写底层的Mongo驱动,工程量可能很大。

    关键是这个方案不可控,成本可能会很大,因此我就不采取这种方式了。

    在这里给大家分享一篇文章,Solr与MySQL集成指南

    确实DataImport这个功能还是比较强大的,而且对MySQL也支持得很好,本人尝试一下将Solr跟MySQL集成起来,配置过程也很简单。

    不过MySQL不是本文的重点,跑题了,因此只是尝试了一下,没有深入。

  2. 使用脚本语言读取MongoDB中的数据(Script Update)

    说白了就是读取整个Collection中的数据,遍历。

    这种方案是最直观的,但不优雅,复用性、可维护性低,

    最严重的问题在于性能,当数量级在百万以下,那还是可以接受的,一旦数据继续增长,那性能问题就凸显出来了。

    然而要是你还想用这种方案,那这里还有一个需要考虑的问题,你是打算每次遍历的时候对Solr进行全量还是增量索引呢?

    全量的话就直接overwrite,事情也好办;增量的话,Mongo中删除了的数据你咋整呢?

    总而言之,不推荐这种方案,它的复杂度问题很明显,无论是时间上还是空间上。

  3. 使用MongoDB的oplog功能(Oplog Update)

    MongoDB支持集群,集群中的实例进行通信,很自然地想到它们会记录log,在MongoDB中称之为oplog(operation log),类似与MySQL的binlog。

    我们可以看看MongoDB官网上对oplog的描述 http://docs.mongodb.org/manual/reference/program/mongooplog/

    

    如果现在你还想用上面方案2的话,那oplog的存在必然是对你的工作带来极大便利的。

    其一,oplog是实时记录的,配合tailable cursor,可以实现实时的更新Solr索引,见http://derickrethans.nl/mongodb-and-solr.html

    其二,实现优雅,增量的新增删除的判断时间复杂度变为O(1)

    看到这里,你想用oplog来实现Solr与MongoDB的集成,那需要理清下面几个问题:

    (1)mongooplog如何开启,怎么配置才适合

    (2)Mongo Tailable Cursor是怎么一回事

    (3)使用什么语言,选择合适的Solr Client

    (4)服务器宕机恢复后的处理

三. 最终方案,mongo-connector

  当我性高彩烈地动手实现方案3的时候,我看到了这个http://blog.mongodb.org/post/29127828146/introducing-mongo-connector

  竟然找到了一个mongo-solr的connector,当时那个心情真叫欣喜若狂啊。

  它完全就是方案3的实现啊!提到的问题它都解决了,而且使用Python正好适合这个项目,一切来得太突然。

  Git地址:https://github.com/10gen-labs/mongo-connector

  但是配置的过程都搞了我很久,后文将整个过程记录下来

四. 项目环境及工具版本

  在本地测试,服务器:Windows7 32-bit

  MongoDB:mongodb-win32-i386-2.4.5

  Tomcat 6

  Python:2.7.4

  Solr:4.5.1

  mongo-connector:没有提供版本号

  Python pysolr模块

  Python pymongo模块

  Python lxml模块:lxml-3.2.3.win32-py2.7

  可能还需要一些模块,但由于我在之前已经安装了,没有列举出来。如果运行的过程中报module not found,就去安装吧~

五. Solr端准备

  这里默认你已经部署Solr成功,详细的部署过程自行Google。

  这里主要是讲述与本次测试相关的配置。

  使用的是solr example中的multicore例子,以其中的core0为例子

  schema.xml文件如下:修改_id与Mongo对应,只留下一个name字段,为String类型

  

  其它的配置不需要修改

  把它放到Tomcat中运行吧,检查是否已经配置成功

六. MongoDB端准备

  看到mongo-connector项目中的说明,

  Since the connector does real time syncing, it is necessary to have MongoDB running, although the connector will work with both sharded and non sharded configurations. It requires a replica set setup.

  就算我们开启了oplog也不行,还需要在Mongo中启动一个replica set

  

  1. 配置replica set

    (1)

    我的MONGO_HOME为 D:\mongodb

    目录树如下:

    -rs  (d)

    |----db  (d)  mongo数据文件文件存放的目录

      |----rs1  (d)  rs1实例数据文件存放的目录

      |----rs2  (d)  rs2实例数据文件存放的目录

    |----log  (d)  log文件存放的目录

      |----rs1.log  (f)  rs1实例的log文件

      |----rs2.log  (f)  rs2实例的log文件

    |----mongod-rs1.bat  rs1实例的启动脚本

    |----mongod-rs2.bat  rs2实例的启动脚本

    mongod-rs1.bat内容如下:    

    D:\mongodb\bin\mongod --port 27001 --oplogSize 100 --dbpath db\rs1 --logpath log\rs1.log --replSet rs/127.0.0.1:27002 --journal
    pause

    mongod-rs2.bat内容如下:   

    D:\mongodb\bin\mongod --port 27002 --oplogSize 100 --dbpath db\rs2 --logpath log\rs2.log --replSet rs/127.0.0.1:27001 --journal
    pause

    (2)执行两个脚本,启动两个mongod实例

    (3)但这时它们还没组成一个replica set,还需要进行配置,开启mongo,连上localhost:27001,也就是实例rs1

    

    

    

    

    

    至此,配置完成。

七. mongo-connector准备

  如果是在mongo example中的multicore默认的配置上修改的话,访问http://localhost:8080/solr/core0/admin/luke?show=Schema&wt=json

  应该是能看到JSON形式的core0的schema

  打开mongo_connector/doc_managers/solr_doc_manager.py

  进行如下修改:1.从util引入verify_url;2. ADMIN_URL修改为获取Solr核core0的JSON形式schema的URL的后半部分,因为要根据schema中的fields进行索引

  

  在Solr多核的情况下启动mongo-connector,会报出Solr URL访问错误,它期望你传入http://localhost:8080/solr

  但http://localhost:8080/solr/core0才是实际起作用的,因此我们需要传入这个作为BASE_URL

  解决办法如下:屏蔽掉url检查就行了

  

  接下来就是启动mongo-connector了,启动命令如下:

  C:\Users\gmuser\Desktop\mongo_connector>python mongo_connector.py -m localhost:27001 -t http://localhost:8080/solr/core0 -o oplog_progress.txt -n test.test -u _id -d ./doc_managers/solr_doc_manager.py

  

  -m  Mongod实例的访问路径

  -t  Solr的BASE_URL

  -o  记录oplog处理时间戳的文件

  -n  mongo命名空间,是监听哪个database哪个collection的设置,以逗号分隔多个命名空间,这里是监听test库中的test集合

  -d  就是处理doc的py文件

  

  启动结果如下:说明你的配置已经成功了

  

八. 测试增量索引

  先看看Solr中core0的状态:现在是没有记录的,Num Docs为0

  

  往MongoDB中插入一条数据:需要包含name字段,还记得我们上面的schema.xml吗?

  

  查看mongo-connector的输出:update了一条记录

  

  看看Solr现在的状态:我们看到了刚才插入的

  

  尝试删除掉刚才那条记录,connector输出如下:多了一条update的记录,这次是<delete>

  

  再看看Solr的状态:刚才那条记录没了,删除成功!

  

九. 一些说明

  mongo-connector会在oplog_progress.txt中记录时间戳,可以在服务器宕机恢复后索引Mongo oplog新增的数据,记录如下:

  ["Collection(Database(MongoClient([u'127.0.0.1:27001', u'127.0.0.1:27002']), u'local'), u'oplog.rs')", 5941530871067574273]

  mongo-connector的代码并不复杂,想想上面上面方案3怎么实现,那它就是怎么做的了。

  有些地方还是要根据我们项目进行一些修改的。

 
 
分类: MongoDBSolr

Solr与MongoDB集成,实时增量索引的更多相关文章

  1. [Solr] (源) Solr与MongoDB集成,实时增量索引

    一. 概述 大量的数据存储在MongoDB上,需要快速搜索出目标内容,于是搭建Solr服务. 另外一点,用Solr索引数据后,可以把数据用在不同的项目当中,直接向Solr服务发送请求,返回xml.js ...

  2. sphinx通过增量索引实现近实时更新

    一.sphinx增量索引实现近实时更新设置 数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少. 例如.原来的数据 ...

  3. Lucene.net 实现近实时搜索(NRT)和增量索引

    Lucene做站内搜索的时候经常会遇到实时搜索的应用场景,比如用户搜索的功能.实现实时搜索,最普通的做法是,添加新的document之后,调用 IndexWriter 的 Commit 方法把内存中的 ...

  4. sphinx 增量索引 实现近实时更新

    一.sphinx增量索引的设置   数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少.例如.原来的数据有几百万条 ...

  5. solr与.net系列课程(六)solr定时增量索引与安全

     solr与.net系列课程(六)solr定时增量索引与安全 solr增量索引的方式,就是一个Http请求,但是这样的请求显然不能满足要求,我们需要的是一个自动的增量索引,solr官方提供了一个定时器 ...

  6. sphinx续5-主索引增量索引和实时索引

    原文件地址:http://blog.itpub.net/29806344/viewspace-1400942/ 在数据库数据非常庞大的时候,而且实时有新的数据插入,如果我们不更新索引,新的数据就sea ...

  7. Coreseek:部门查询和增量索引代替实时索引

    1.行业调查 索引系统需要通过主查询来获取所有的文档信息,一个简单的实现是整个表的数据到内存,但是这可能会导致整个表被锁定,并且使其它操作被阻止(例如:在MyISAM格款式上INSERT操作).同时, ...

  8. solr之定时增量索引实现

    solr本身就提供了一个工具库实现定时增量索引,但是我在使用的过程中发现会出现一些问题,目前遇到两点: 1.启动时总是报如下异常: ? 1 The web application [solr] reg ...

  9. sphinx增量索引和主索引来实现索引的实时更新

    项目中文章的信息内容因为持续有新增,而文章总量的基数又比较大,所以做搜索的时候,用了主索引+增量索引这种方式来实现索引的实时更新. 实现原理: 1. 新建一张表,记录一下上一次已经创建好索引的最后一条 ...

随机推荐

  1. (转).net webconfig使用IConfigurationSectionHandler自定section

    自定义配置结构 (使用IConfigurationSectionHandler) 假设有以下的配置信息,其在MyInfo可以重复许多次,那么应如何读取配置呢?这时就要使用自定义的配置程序了.<m ...

  2. Repository模式

    Repository模式的两种写法与疑惑 现如今DDD越来越流行,园子里漫天都是介绍关于它的文章.说到DDD就不能不提Repository模式了,有的地方也叫它仓储模式. 很多时候我们对Reposit ...

  3. 从头开始学JavaScript (四)——操作符

    原文:从头开始学JavaScript (四)--操作符 一.一元操作符 1.自增自减操作符:分为前置型和后置型: 前置型:++a;--a; 后置型:a++;a--; 例: <script typ ...

  4. 2014鞍山直播比赛H称号HDU5077(DFS修剪+通过计)

    NAND Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 262144/262144 K (Java/Others) Total Sub ...

  5. Android MediaPlayer 和 NativePlayer 播放格式控制

    对于本机MediaPlayer 支持格型式试验: 对于原生 NativeMedia 的支持格式測试: 这个支持就比較失望了,眼下測试的手机仅仅支持 H.264视频及AAC音频,其他的格式都不支持. 使 ...

  6. 在Mac OS X 10.8中配置Apache+PHP+MySQL

    在Mac OS X 10.8中配置Apache+PHP+MySQL的内容包括: 配置Apache 配置PHP 安装MySQL 配置PHPAdmin 设置数据库默认字符集 一. 配置Apache 1. ...

  7. C程序中引用自定义的C函数模块

    原文:C程序中引用自定义的C函数模块 我们知道,刚开始接触C语言编程,一般都是在一个.c或者.cpp(以下只说.c)的文件中编写代码,其中一定会有一个入口函数, 也就是main()函数,你可以将程序代 ...

  8. sql注入工具sqlmap使用参数说明

    Options(选项):--version 显示程序的版本号并退出-h, --help 显示此帮助消息并退出-v VERBOSE 详细级别:0-6(默认为1)Target(目标):以下至少需要设置其中 ...

  9. JVM监控概述(图文)

    JVM内存分配概述 Jvm 内存分为:堆.非堆及直接内存三大块. 堆区分为年轻代和老年代,永生代属于非堆内存. 对象优先在Eden区分配 大对象直接进入老年代 长期存活的对象将进入老年代 class. ...

  10. jquery插件FlexiGrid的使用

    jquery插件FlexiGrid的使用 已不推荐下载,如要下载去这个连接下载最新的 http://gundumw100.iteye.com/blog/545610  更新于2009-11-30 先看 ...