索引数据源并不会一定来自于数据库、XML、JSON、CSV这类结构化数据,很多时候也来自于PDF、word、html、word、MP3等这类非结构化数据,从这类非结构化数据创建索引,solr也给我们提供了很好的支持,利用的是apache  tika。

下面我们来看看在solr4.7中如何从pdf文件创建索引。

一、配置文件索引库

1、  新建core

我们新建一个solr的core,用于存储文件型索引,新建core的步骤请参考:

http://blog.csdn.net/clj198606061111/article/details/21288499

2、  准备jar

我们在$solr_home下面新建一个extract文件夹,用于存放solr扩展jar包。

从colr4.7发布包中solr-4.7.0\dist拷贝solr-cell-4.7.0.jar到新建的extract文件夹下。拷贝solr4.7发布包solr-4.7.0\contrib\extraction\lib下所有jar包到extract文件夹下。

3、  配置solrconfig.xml

添加请求解析配置:

[html] view
plain
copy

  1. <requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >
  2. <lst name="defaults">
  3. <str name="fmap.content">text</str>
  4. <str name="lowernames">true</str>
  5. <str name="uprefix">attr_</str>
  6. <str name="captureAttr">true</str>
  7. </lst>
  8. </requestHandler>

指定依赖包位置:

注意,这个相对位置不是相对于配置文件所在文件夹位置,而是相对core主目录的。比如我的配置文件在solr_home\core1\conf,但是我的jar包在solr_home\ extract那么我的相对路径就是../extract而不是../../extract。

[html] view
plain
copy

  1. <lib dir="../extract" regex=".*\.jar" />

4、配置schema.xml

4.1配置索引字段的类型,也就是field类型。

其中text_general类型我们用到2个txt文件(stopwords.txt、synonyms.txt),这2个txt文件在发布包示例core里面有位置在:solr-4.7.0\example\solr\collection1\conf,复制这2个txt文件到新建的$solr_home的那个新建的core下面的conf目录下,和schema.xml一个位置。

[html] view
plain
copy

  1. <types>
  2. <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>
  3. <fieldtype name="string"  class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
  4. <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
  5. <analyzer type="index">
  6. <tokenizer class="solr.StandardTokenizerFactory"/>
  7. <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  8. <filter class="solr.LowerCaseFilterFactory"/>
  9. </analyzer>
  10. <analyzer type="query">
  11. <tokenizer class="solr.StandardTokenizerFactory"/>
  12. <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  13. <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
  14. <filter class="solr.LowerCaseFilterFactory"/>
  15. </analyzer>
  16. </fieldType>
  17. </types>

4.2配置索引字段,也就是field

其中有个动态类型字段,attr_*,这个是什么意思呢。也就是solr在解析文件的时候,文件本身有很多属性,具体有哪些属性是不确定的,solr全部把他解析出来以attr作为前缀加上文件本身的属性名,组合在一起就成了field的名称

[html] view
plain
copy

  1. <field name="id"        type="string"       indexed="true"  stored="true"  multiValued="false" required="true"/>
  2. <field name="text"      type="text_general" indexed="true"  stored="true"/>
  3. <field name="_version_" type="long"         indexed="true"  stored="true"/>
  4. <dynamicField name="attr_*" type="text_general" indexed="true" stored="true" multiValued="true"/>

到这里solr服务端的配置以及完成了。

二、solrj测试

1、  需要的jar

Maven配置

[html] view
plain
copy

  1. <dependency>
  2. <groupId>org.apache.solr</groupId>
  3. <artifactId>solr-solrj</artifactId>
  4. <version>4.7.0</version>
  5. <scope>test</scope>
  6. </dependency>
  7. <dependency>
  8. <groupId>org.apache.httpcomponents</groupId>
  9. <artifactId>httpclient</artifactId>
  10. <version>4.3.2</version>
  11. <scope>test</scope>
  12. </dependency>

2、 测试类CreateIndexFromPDF.java

Solrj4.7里面ContentStreamUpdateRequest的addFile方法多了一个contentType参数,指明内容类型。ContentType请参看:http://baike.baidu.com/link?url=panQQa04z0gc4-gQRnIoUhwOQPABfG6unIqE1-7SEe5ZMygYxWT2lkvoKlQmTEYIZDNhntB4T9aGQM5KhevKDa

[java] view
plain
copy

  1. package com.clj.test.solr.solrj;
  2. import java.io.File;
  3. import java.io.IOException;
  4. import org.apache.solr.client.solrj.SolrQuery;
  5. import org.apache.solr.client.solrj.SolrServer;
  6. import org.apache.solr.client.solrj.SolrServerException;
  7. import org.apache.solr.client.solrj.impl.HttpSolrServer;
  8. import org.apache.solr.client.solrj.request.AbstractUpdateRequest;
  9. import org.apache.solr.client.solrj.request.ContentStreamUpdateRequest;
  10. import org.apache.solr.client.solrj.response.QueryResponse;
  11. /**
  12. * 从PDF创建索引
  13. * <功能详细描述>
  14. *
  15. * @author  Administrator
  16. * @version  [版本号, 2014年3月18日]
  17. * @see  [相关类/方法]
  18. * @since  [产品/模块版本]
  19. */
  20. public class CreateIndexFromPDF
  21. {
  22. public static void main(String[] args)
  23. {
  24. String fileName = "e:/MyBatis3用户指南中文版.pdf";
  25. String solrId = "MyBatis3用户指南中文版.pdf";
  26. try
  27. {
  28. indexFilesSolrCell(fileName, solrId);
  29. }
  30. catch (IOException e)
  31. {
  32. e.printStackTrace();
  33. }
  34. catch (SolrServerException e)
  35. {
  36. e.printStackTrace();
  37. }
  38. }
  39. /** 从文件创建索引
  40. * <功能详细描述>
  41. * @param fileName
  42. * @param solrId
  43. * @see [类、类#方法、类#成员]
  44. */
  45. public static void indexFilesSolrCell(String fileName, String solrId)
  46. throws IOException, SolrServerException
  47. {
  48. String urlString = "http://localhost:8080/solr/core1";
  49. SolrServer solr = new HttpSolrServer(urlString);
  50. ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");
  51. String contentType="application/pdf";
  52. up.addFile(new File(fileName), contentType);
  53. up.setParam("literal.id", solrId);
  54. up.setParam("uprefix", "attr_");
  55. up.setParam("fmap.content", "attr_content");
  56. up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
  57. solr.request(up);
  58. QueryResponse rsp = solr.query(new SolrQuery("*:*"));
  59. System.out.println(rsp);
  60. }
  61. }

执行上面代码,便把我们的pdf文件上传到solr服务器,解析、创建索引,后面的solr.query是执行一个查询,查询解析索引后结果。解析后pdf就变成了纯文本的内容,在控制台可以看到很多文档其他信息。

Solr解析完pdf、创建索引后,我们也可以在solr的管理界面查看索引结果。Core1s就是我们新建的文件索引库。如下图。

Solr4.7从文件创建索引的更多相关文章

  1. Solr 从文件创建索引

    http://blog.csdn.net/clj198606061111/article/details/21492457 http://wiki.apache.org/solr/Extracting ...

  2. lucene 建立索引的不同方式

    1.创建一个简单的索引: package lia.meetlucene; import java.io.File; import org.apache.lucene.document.Document ...

  3. Lucene.Net无障碍学习和使用:索引篇

    一.简单认识索引 Lucene.Net的应用相对比较简单.一段时间以来,我最多只是在项目中写点代码,利用一下它的类库而已,对很多名词术语不是很清晰,甚至理解 可能还有偏差.从我过去的博客你也可以看出, ...

  4. windows索引服务

        windows索引服务是windows操作系统提供的桌面搜索引擎,通过预先创建索引来提高对硬盘上文件内容的搜索速度.以windows服务程序的方式运行. 一.工作方式 1.对指定路径下的文件创 ...

  5. Linux下的压缩和解压缩命令——jar

    原文链接:http://blog.chinaunix.net/uid-692788-id-2681136.htmlJAR包是Java中所特有一种压缩文档,其实大家就可以把它理解为.zip包.当然也是有 ...

  6. MongoDB常用命令

    本文整理了一年多以来我常用的MongoDB操作,涉及mongo-shell.pymongo,既有运维层面也有应用层面,内容有浅有深,这也就是我从零到熟练的历程. MongoDB的使用之前也分享过一篇, ...

  7. jar命令的用法详解

    本文详细讲述了JAR命令的用法,对于大家学习和总结jar命令的使用有一定的帮助作用.具体如下: JAR包是Java中所特有一种压缩文档,其实大家就可以把它理解为.zip包.当然也是有区别的,JAR包中 ...

  8. .bat文件和Jar包的生成及运行

    .bat文件和Jar包的生成及运行 1.Jar包简单介绍 Jar包是Java中所特有的一种压缩文档,有点类似于zip包,区别在于Jar包中有一个META-INF\MANIFEST.MF文件(在生成Ja ...

  9. MongoDB使用小结:一些常用操作分享

    本文整理了一年多以来我常用的MongoDB操作,涉及mongo-shell.pymongo,既有运维层面也有应用层面,内容有浅有深,这也就是我从零到熟练的历程. MongoDB的使用之前也分享过一篇, ...

随机推荐

  1. Apache Mina开发手冊之四

    Apache Mina开发手冊之四 作者:chszs,转载需注明. 博客主页:http://blog.csdn.net/chszs 一.Mina开发的主要步骤 1.创建一个实现了IoService接口 ...

  2. 今天碰到的angular 中的一个小坑

    最近在自个儿研究angular,在写一个demo的时候总是有问题,最后发现居然是大小写的问题,卧槽 特tm的坑爹了,代码如下: <!DOCTYPE html> <html lang= ...

  3. flexbox 伸缩布局盒

    Flexbox(伸缩布局盒) 是 CSS3 中一个新的布局模式,为了现代网络中更为复杂的网页需求而设计. Flexbox 由 伸缩容器 和 伸缩项目 组成.通过设置元素的 display 属性为   ...

  4. OC KVC总结

    在iOS开发中,我们一般使用set方法或者点语法来修改对象的属性值,比如说 stu.age = 9 与 [stu setAge:9]. KVC(key value coding)键值编码,这是一种间接 ...

  5. //相当于深拷贝一份dataArray。这样才不会改变dataArray本身的值

    //相当于深拷贝一份dataArray.这样才不会改变dataArray本身的值 NSMutableArray* commitDataArray = [NSKeyedUnarchiver unarch ...

  6. 在mac系统安装Apache Tomcat的详细步骤(转载自himi的博客,修改了错误添加了图片)

    链接地址:http://blog.csdn.net/liuyuyefz/article/details/8072485 1. 2. 3. 4. 5. 对于Apache Tomcat 估计很多童鞋都会, ...

  7. JBoss 系列六十九:CDI 基本概念

    概述 如果说EJB,JPA是之前JEE(JEE5及JEE5之前)中里程碑式的规范,那么在JEE6,JEE7中CDI可以与之媲美,CDI(Contexts and Dependency Injectio ...

  8. gridview回顾

    第一看asp.net是在做项目之前,感觉收获也很大,第二次看gridview是在做完项目之后对GridView的回顾,这次的感觉是:我需要多想点,知识直到用时方觉少.直入正题吧,看gridview. ...

  9. win7 64位 TortoiseSVN-1.8.4客户端安装

    下载地址链接:http://pan.baidu.com/s/1nukeBVz 密码:tc79 (32 64位都有,注意区分) next一路安装 安装好后,在需要和服务器同步的文件夹图标上--鼠标右键- ...

  10. python数据库连接

    现在装python基本都内置了sqlite连接,写成如下形式即可 from sqlite3 import dbapi2 as sqlite 如果需要insert或update东西,之后的cur必须co ...