solr建立pdf/word/excel索引的方法
PS: 本文假设你已经成功的搭建了一个Solr服务器
步骤如下:
(1)准备好一份Solr的源码,假设现在保存在c:\apache-solr-1.4.1\目录下
(2)从https://issues.apache.org/jira/browse/SOLR-284 上下载最新的rich.patch, libs.zip和test-files.zip三个文件
(3)解压libs.zip到c:\apache-solr-1.4.1\lib目录下,里面的jar就是负责分析Pdf、word和excel的
(4)新建一个文件patch-build.xml,内容如下:
- <?xml version="1.0" encoding="UTF-8"?>
- <project name="solr-patch" default="apply-patch" basedir=".">
- <target name="apply-patch" description="Apply a patch file. Set - Dpatch.file">
- <patch patchfile="${patch.file}" strip="0" />
- </target>
- </project>
(5) 将rich.patch复制到c:\apache-solr-1.4.1\目录下,运行ant -Dpatch.file=rich.patch -f patch-build.xml 给solr打补丁,注意这里需要ant和Cygwin两个运行环境!
(6)执行ant dist 重新编译Solr包,编译好的文件在dist目录下将它复制到tomcat里面
(7)打开solrconfig.xml,添加如下内容:
- <requestHandler name="/update/rich" class="solr.RichDocumentRequestHandler" startup="lazy">
- </requestHandler>
然后将
- <requestParsers enableRemoteStreaming="false" multipartUploadLimitInKB="2048" />
的enableRemoteStreaming属性设为true
(8)解压test-files.zip 到任意目录,假设现在是在c:\apache-solr-1.4.1\test\ 目录下
(9)启动SOLR,在浏览器输入:
http://localhost:8983/solr/update/rich?stream.type=doc&stream.file=c:/apache-solr-1.4.1/test/test-files/complex.doc&fieldnames=id&id=101&stream.fieldname=name&commit=true
为complex.doc 文件建立索引
(10) 打开http://localhost:8983/solr/admin/form.jsp 页输入关键字测试索引,完成!
- cygwinsetup.zip (565.3 KB)
- 下载次数: 135
solr建立pdf/word/excel索引的方法的更多相关文章
- PDF/WORD/EXCEL 图片预览
一.PDF/WORD/EXCEL 转 XPS 转 第一页内容 转 图片 WORD.EXCEL转XPS (Office2010) public bool WordToXPS(string sourceP ...
- PDF/WORD/EXCEL/PPT 文档在线阅读
查资料看了2种解决方法: 1.通过办公软件dll转换,用flans去看 2.通过Aspose转换成pdf格式,在用js前台读pdf(我用的pdf.js) 今天我解决的就是WORD/EXCEL/PPT ...
- Ireport 报表导出 Poi + ireport 导出pdf, word ,excel ,htm
Ireport 报表导出 Poi + ireport 导出pdf, doc ,excel ,html 格式 下面是报表导出工具类reportExportUtils 需要导出以上格式的报表 只需要调用本 ...
- php pdf word excel 操作方法
很早的时候,用php生成execl都是件麻烦的事,我一般都会用csv来替代,现在这类工具就很多了,并且比较成熟了.不光有excel的,word,pdf. 1,php excelreader操作exce ...
- 将页面内容转换Pdf\Word\Excel格式
项目中用到了将邮件内容转换为Pdf.Word.Excel格式,做为邮件附件发送. 查了一些解决方案,走了一些弯路.以此代码记录下. 转换PDF需要下载NReco.PdfGenerator.dll 以下 ...
- pdf word excel ppt 在线预览方案收集
https://www.idocv.com/docs.html http://www.cnblogs.com/wolf-sun/p/3569960.html http://coolwanglu.git ...
- asp.net 文件下载(txt,rar,pdf,word,excel,ppt)
aspx 文件下载说起来一点都不难,但是在做的过程中还是遇到了一些小小的问题,就是因为这些小小的问题,导致解决起来实在是太难了,其中一个就是Response.End();导致下载文件出现线程终止的情况 ...
- Word,Excel,pdf,txt等文件上传并提取内容
近期项目需求:1.要用到各种文件上传,下载. 2.并对文件进行搜索. 3.仅仅要文件里包括有搜索的内容,所有显示出来. 今天正好有时间整理一下,方便以后阅读,及对须要用到的朋友提供微薄之力.首先在实现 ...
- Java解析OFFICE(word,excel,powerpoint)以及PDF的实现方案及开发中的点滴分享
Java解析OFFICE(word,excel,powerpoint)以及PDF的实现方案及开发中的点滴分享 在此,先分享下写此文前的经历与感受,我所有的感觉浓缩到一个字,那就是:"坑&qu ...
随机推荐
- java中的PO,VO,TO,BO,DAO,POJO的解释
java的(PO,VO,TO,BO,DAO,POJO)解释 O/R Mapping 是 Object Relational Mapping(对象关系映射)的缩写.通俗点讲,就是将对象与关系数据库绑定 ...
- Redis客户端连接以及持久化数据(三)
0.Redis目录结构 1)Redis介绍及部署在CentOS7上(一) 2)Redis指令与数据结构(二) 3)Redis客户端连接以及持久化数据(三) 4)Redis高可用之主从复制实践(四) 5 ...
- 2,EasyNetQ-日志记录
EasyNetQ提供了一个IEasyNetQLogger接口: public interface IEasyNetQLogger { void DebugWrite(string format, pa ...
- 每日踩坑 2018-12-25 【Unable to convert MySQL date/time value to System.DateTime】异常
之前的公司一直是用 ORM ,所以底层的事情完全不用在意, 到了这家全是似乎全是 SQL 硬编码 所以也有机会重新去补补以前也没怎么写过的基本 ADO. 不过这两天总有自己写个简易ORM的想法在蠢蠢欲 ...
- Codeforces.744B.Hongcow's Game(交互 按位统计)
题目链接 \(Description\) 一个\(n\times n\)的非负整数矩阵\(A\),保证\(A_{i,i}=0\).现在你要对每个\(i\)求\(\min_{j\neq i}A_{i,j ...
- Codeforces.810D.Glad to see you!(交互 二分)
题目链接 \(Description\) 有一个大小为\(k\)的集合\(S\),元素两两不同且在\([1,n]\)内.你可以询问不超过\(60\)次,每次询问你给出\(x,y\),交互库会返回\(\ ...
- PDCA管理方法论
PDCA管理方法论 PDCA管理循环,由日本的高管们在1950年日本科学家和工程师联盟研讨班上学到的戴明环改造而成,最先是由休哈特博士提出来的,由戴明把PDCA发扬光大,并且用到质量领域,故称为质量环 ...
- RX库中的IDisposable对象
IDisposable是.net中的主动资源释放接口,它是在编程过程中经常使用到的一个接口,本文介绍一下微软在Rx.NET中提供的一系列常用的Disposable类,通过它们可以简化我们的程序代码,提 ...
- embOS实时操作系统 - 任务状态
A task may be in one of several states at any given time. When a task is created, it is placed into ...
- tomcat点击startup.bat一闪而退的方法
摘要 在摸索tomcat的配置的时候,发现在启动tomcat服务器的时候,点击startup一闪而退. 解决办法 分析闪退原因,简单做法,右键编辑startup.bat文件,在最后一行添加“pause ...