solr6.6 solrJ索引富文本(word/pdf)文件

　　1、文件配置

　　　　在core下面新建lib文件夹，存放相关的jar包，如图所示：

　　　　修改solrconfig.xml

<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />

  <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />

  <lib dir="${solr.install.dir:../../../..}/contrib/clustering/lib/" regex=".*\.jar" />

  <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-clustering-\d.*\.jar" />

  <lib dir="${solr.install.dir:../../../..}/contrib/langid/lib/" regex=".*\.jar" />

  <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-langid-\d.*\.jar" />

  <lib dir="${solr.install.dir:../../../..}/contrib/velocity/lib" regex=".*\.jar" />

  <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-velocity-\d.*\.jar" />

  <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />

  <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />

  <lib dir="./lib" regex=".*\.jar"/>

　　　　增加配置，如果有则不用添加：

 <requestHandler name="/update/extract"

                  startup="lazy"

                  class="solr.extraction.ExtractingRequestHandler" >

    <lst name="defaults">

      <str name="fmap.content">text</str>

      <str name="fmap.meta">ignored_</str>

      <str name="lowernames">true</str>

      <str name="uprefix">attr_</str>

      <str name="captureAttr">true</str>

    </lst>

  </requestHandler>

　　配置managed-schema文件：

　　修改managed-schema文件，增加字段：

  <field name="path"      type="string"   indexed="true"  stored="true"  multiValued="false" />

  <field name="pathftype"      type="string"   indexed="true"  stored="true"  multiValued="false" />

  <field name="pathuploaddate"      type="string"   indexed="true"  stored="true"  multiValued="false" />

  <field name="pathsummary"      type="string"   indexed="true"  stored="true"  multiValued="false" />

  <field name="attr_content"      type="text_general"   indexed="true"  stored="true"  multiValued="false" />

　　2、Java代码solrj操作（6.6.0版本）

import java.io.File;

import java.io.IOException;

import java.text.SimpleDateFormat;

import java.util.Date;

import org.apache.solr.client.solrj.SolrClient;

import org.apache.solr.client.solrj.SolrQuery;

import org.apache.solr.client.solrj.SolrServerException;

import org.apache.solr.client.solrj.impl.HttpSolrClient;

import org.apache.solr.client.solrj.request.AbstractUpdateRequest.ACTION;

import org.apache.solr.client.solrj.request.ContentStreamUpdateRequest;

import org.apache.solr.client.solrj.response.QueryResponse;

/**

 * @Author：sks

 * @Description：索引pdf等富文本文件

 * @Date：Created in 15:16 2017/12/13

 * @Modified by：

 **/

public class solr_pdf {

    public static void main(String[] args)

    {

        String fileName = "D:/work/Solr/ImportData/20160229001cn.pdf";

        String solrId = "20160229001cn.pdf";

        try

        {

            indexFilesSolrCell(solrId, solrId,fileName);

        }

        catch (IOException e)

        {

            e.printStackTrace();

        }

        catch (SolrServerException e)

        {

            e.printStackTrace();

        }

    }

    /**

     * @Author：sks

     * @Description：获取系统当天日期yyyy-mm-dd

     * @Date：

     */

    private static String GetCurrentDate(){

        Date dt = new Date();

        //最后的aa表示“上午”或“下午”    HH表示24小时制    如果换成hh表示12小时制

//        SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss aa");

        SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");

        String day =sdf.format(dt);

        return day;

    }

    public static void indexFilesSolrCell(String fileName, String solrId, String path)

            throws IOException, SolrServerException

    {

        String urlString = "http://localhost:8983/solr/test";

        SolrClient solr = new HttpSolrClient.Builder(urlString).build();

        ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");

        String contentType = getFileContentType(fileName);

        up.addFile(new File(path), contentType);

        String fileType = fileName.substring(fileName.lastIndexOf(".")+1);

        up.setParam("literal.id", fileName);

        up.setParam("literal.path", path);//文件路径

        up.setParam("literal.pathuploaddate", GetCurrentDate());//文件上传时间

        up.setParam("literal.pathftype", fileType);//文件类型，doc,pdf

        up.setParam("fmap.content", "attr_content");//文件内容

        up.setAction(ACTION.COMMIT, true, true);

        solr.request(up);

    }

    /**

    * @Author：sks

    * @Description：根据文件名获取文件的ContentType类型

    * @Date：

    */

    public static String getFileContentType(String filename) {

        String contentType = "";

        String prefix = filename.substring(filename.lastIndexOf(".") + 1);

        if (prefix.equals("xlsx")) {

            contentType = "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet";

        } else if (prefix.equals("pdf")) {

            contentType = "application/pdf";

        } else if (prefix.equals("doc")) {

            contentType = "application/msword";

        } else if (prefix.equals("txt")) {

            contentType = "text/plain";

        } else if (prefix.equals("xls")) {

            contentType = "application/vnd.ms-excel";

        } else if (prefix.equals("docx")) {

            contentType = "application/vnd.openxmlformats-officedocument.wordprocessingml.document";

        } else if (prefix.equals("ppt")) {

            contentType = "application/vnd.ms-powerpoint";

        } else if (prefix.equals("pptx")) {

            contentType = "application/vnd.openxmlformats-officedocument.presentationml.presentation";

        }

        else {

            contentType = "othertype";

        }

        return contentType;

    }

}

solr6.6 solrJ索引富文本(word/pdf)文件的更多相关文章

搜索引擎Solr6.2.1 索引富文本(word/pdf/txt/html)
一:首先建立Core 在core下面新建lib文件夹,存放相关的jar包,如图所示: lib文件夹打开所示,这些类库在solr6.2.1解压之后都能找到: 修改solrconfig.xml,把刚刚建的 ...
利用 Pandoc 将 Markdown 生成 Word/PDF 文件
Pandoc 是一个格式转化工具,可以用于各(luan)种(qi)各(ba)样(zao)的文件转换, 反正我是认不全官网上的那个图(傲娇脸), 之前一直使用它将 Markdown 文件转换成 Html ...
SolrCloud索引富文本数据
solrconfig配置文件: schema配置文件: 执行目录: /opt/solr-5.5.4/server/scripts/cloud-scripts -- 下载配置文件 ./zkcli.sh ...
个人永久性免费-Excel催化剂功能第88波-批量提取pdf文件信息（图片、表格、文本等）
日常办公场合中,除了常规的Excel.Word.PPT等文档外,还有一个不可忽略的文件格式是pdf格式,而对于想从pdf文件中获取信息时,常规方法将变得非常痛苦和麻烦.此篇给大家送一pdf文件提取信息 ...
富文本编辑器UEditor的配置使用方法
将下载的富文本编辑器的文件解压后放到 webcontent 下如果文件中的jsp文件夹下的controller.java文件报错的话就将jsp下的lib文件夹中的文件都复制到 web-i ...
iOS - 开发中加载本地word/pdf文档说明
最近项目中要加载一个本地的word/pdf等文件比如<用户隐私政策><用户注册说明>,有两种方法加载 > 用QLPreviewController控制器实现步骤 : & ...
uedit富文本编辑器及图片上传控件
微力后台 uedit富文本编辑器及文件上传控件的使用,无时间整理,暂略,参考本地代码.能跑起来.
给Django后台富文本编辑器添加上传文件的功能
使用富文本编辑器上传的文件是要放到服务器上的,所以这是一个request.既然是一个request,就需要urls.py进行转发请求views.py进行处理.views.py处理完了返回一个文件所在的 ...
「Python实用秘技04」为pdf文件批量添加文字水印
本文完整示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/PythonPracticalSkills 这是我的系列文章「Python实用秘技」的第4期 ...

随机推荐

HDU1024（最大M子段和）
Max Sum Plus Plus Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others ...
mac air 装ubuntu16.04
前言我的mac air购于14年,128GB款.最开始我只是在OS X系统里留出了70GB给ubuntu,然后通过u盘装了ubuntu 14.04,后来又陆续将系统升级到15.04.16.04.各方 ...
Jenkins安装配置过程及问题详解
1:去官网下载jenkins.war包. 官网地址:http://Jenkins-ci.org/ 下载win版官网镜像地址:http://mirrors.jenkins-ci.org/war-sta ...
关于C++编译的程序无法在新一台电脑上运行总结
最近在调用一个SDK调试一个主板的DPIO. 可是编译好的程序在开发电脑上运行没问题,到了新主板建立的电脑系统上就出问题. 总结了下要注意一下几方面. 1:程序本身要没有问题.至少在开发电脑系统环境下 ...
Java虚拟机栈和方法区的联系
1.Java虚拟机栈 java方法执行时的内存模型 1.1 栈帧每个方法都会在虚拟机栈中创建一个对应的栈帧,用于存储局部变量表,操作数栈,动态链接,方法出口等信息. 一个方法的调用到结束就对应这一个 ...
HDU 2824.The Euler function-筛选法求欧拉函数
欧拉函数: φ(n)=n*(1-1/p1)(1-1/p2)....(1-1/pk),其中p1.p2…pk为n的所有素因子.比如:φ(12)=12*(1-1/2)(1-1/3)=4.可以用类似求素数的筛 ...
UVA 10341.Solve It-二分查找
二分查找二分查找又称折半查找,优点是比较次数少,查找速度快,平均性能好:其缺点是要求待查表为有序表,且插入删除困难.因此,折半查找方法适用于不经常变动而查找频繁的有序列表.首先,假设表中元素是按升序 ...
HDU 3516 Tree Construction
区间$dp$,四边形优化. #pragma comment(linker, "/STACK:1024000000,1024000000") #include<cstdio&g ...
RabbitMQ (五) 订阅者模式之分发模式 ( fanout )
前面讲到了简单队列和工作队列. 这两种队列有个非常明显的缺点 : 生产者发送的消息,只能进入到一个队列. 消息只能进入到一个队列就意味着消息只能被一个消费者消费. 尽管工作队列模式中,一个队列中的消息 ...
Oracle SQL*Loader commit point tips
http://www.dba-oracle.com/t_sql_loader_commit_frequency.htm - Question: Can I control the commit fr ...

solr6.6 solrJ索引富文本(word/pdf)文件

1、文件配置

solr6.6 solrJ索引富文本(word/pdf)文件的更多相关文章

随机推荐

热门专题

　　1、文件配置