使用Elasticsearch7 java api实现pdf全文检索

前提:pdf的内容是文字形式而不是图片形式！

一.方法

Elasticsearch实现pdf的全文检索,原理是将pdf转换为Base64,然后提取pdf的文字内容然后将其存储起来.

Elasticsearch已有相关Api提供,也给出了例子.链接如下:

我们来解读以下

//定制一个管道,用于将Base64转换为文字形式

PUT _ingest/pipeline/attachment

{

  "description" : "Extract attachment information",  //管道的描述

  "processors" : [

    {

      "attachment" : {

        "field" : "data"        //配置在哪个字段获取Base64数据,然后进行转换

      }

    }

  ]

}

//后面我们索引文档的时候 ?pipeline=attachment,就要指定这个参数,表明索引一个文档的时候要

使用这个管道

PUT my_index/_doc/my_id?pipeline=attachment

{

  "data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0=" //base64数据

}

那么获取那篇刚刚索引的数据,返回的json就为

"attachment": {

      "content_type": "application/rtf",

      "language": "ro",

      "content": "Lorem ipsum dolor sit amet",

      "content_length": 28

    }

其中content就是转换后的文字

注意,上述操作的前提之下是装了ingest-attachment插件,可以再es的根目录下直接运行下面的命令进行安装
./bin/elasticsearch-plugin install ingest-attachment

二. Java Api 7.0的实现

我pdf都存储在远程服务器上,以https://*******.pdf路径进行存储着,所以如果你跟我一样,必须先根据http链接获取这个pdf然后转换为Base64,代码如下

 public static String pdfToBase64(String contentpath) throws IOException {

        InputStream is = null;

        String url = contentpath;

        URL url2 = new URL(url);

        HttpURLConnection conn = (HttpURLConnection) url2.openConnection();

        conn.setDoInput(true);

        conn.connect();

        is =  conn.getInputStream();

         // 将图片文件转化为字节数组字符串，并对其进行Base64编码处理

        byte[] data = null;

        // 读取图片字节数组

        try {

            ByteArrayOutputStream swapStream = new ByteArrayOutputStream();

            byte[] buff = new byte[100];

            int rc = 0;

            while ((rc = is.read(buff, 0, 100)) > 0) {

                swapStream.write(buff, 0, rc);

            }

            data = swapStream.toByteArray();

        } catch (IOException e) {

            e.printStackTrace();

        } finally {

            if (is != null) {

                try {

                    is.close();

                } catch (IOException e) {

                    e.printStackTrace();

                }

            }

        }

        return new BASE64Encoder().encode(data).replace("\n", "").replace("\r", "");

    }

这个代码你放在一个Util类中直接调用就行,如果你是pdf存储在本地,直接通过File获取然后转换,网上有很多,在这就不说了.

//将http链接作为参数

String base64Contentpath = Base64Util.pdfToBase64("http://******.pdf");

然后我们就可以将其存在一个pdf的索引中,但是别忘记指定管道

    RestHighLevelClient esClient = esClient();

    Map<String,Object> jsonMap = new HashMap<>();

    jsonMap.put("base64Contentpath", base64Contentpath);

    IndexRequest request = new IndexRequest("pdf")

                                .setPipeline("管道名称")   //这里就是前面通过json创建的管道

                                .source(jsonMap);  

    esClient.index(request, RequestOptions.DEFAULT);   //执行

这样我们就对pdf的内容进行提取然后索引到Elasticsearch中了.后面怎么搜索就不要再说了

这里我只贴出了关键代码,如果有什么不懂的或者是有什么错误,请在文章的评论下方指出来

使用Elasticsearch7 java api实现pdf全文检索的更多相关文章

利用Java动态生成 PDF 文档
利用Java动态生成 PDF 文档,则需要开源的API.首先我们先想象需求,在企业应用中,客户会提出一些复杂的需求,比如会针对具体的业务,构建比较典型的具备文档性质的内容,一般会导出PDF进行存档.那 ...
Elasticsearch Java API深入详解
0.题记之前Elasticsearch的应用比较多,但大多集中在关系型.非关系型数据库与Elasticsearch之间的同步.以上内容完成了Elasticsearch所需要的基础数据量的供给.但想要 ...
Elasticsearch Java API 很全的整理
Elasticsearch 的API 分为 REST Client API(http请求形式)以及 transportClient API两种.相比来说transportClient API效率更高, ...
使用Java操作Elasticsearch(Elasticsearch的java api使用)
1.Elasticsearch是基于Lucene开发的一个分布式全文检索框架,向Elasticsearch中存储和从Elasticsearch中查询,格式是json. 索引index,相当于数据库中的 ...
Atitit 图像处理调用opencv 通过java api attilax总结
Atitit 图像处理调用opencv 通过java api attilax总结 1.1. Opencv java api的支持 opencv2.4.2 就有了对java api的支持1 1. ...
【分布式】Zookeeper使用--Java API
一.前言上一篇博客我们通过命令行来操作Zookeper的客户端和服务端并进行相应的操作,这篇主要介绍如何通过API(JAVA)来操作Zookeeper. 二.开发环境配置首先打开Zookeeper ...
Elasticsearch的CRUD：REST与Java API
CRUD(Create, Retrieve, Update, Delete)是数据库系统的四种基本操作,分别表示创建.查询.更改.删除,俗称"增删改查".Elasticsearch ...
[转]HDFS中JAVA API的使用
HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的文件进行操作的过程. 对分HDFS中的 ...
HDFS中JAVA API的使用
HDFS中JAVA API的使用 HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的 ...

随机推荐

HelloDjango 系列教程：博客从“裸奔”到“有皮肤”
文中涉及的示例代码,已同步更新到 HelloGitHub-Team 仓库在此之前我们已经编写了博客的首页视图,并且配置了 URL 和模板,让 django 能够正确地处理 HTTP 请求并返回合适的 ...
koa2基于stream(流)进行文件上传和下载
阅读目录一:上传文件(包括单个文件或多个文件上传) 二:下载文件回到顶部一:上传文件(包括单个文件或多个文件上传) 在之前一篇文章,我们了解到nodejs中的流的概念,也了解到了使用流的优点,具 ...
fiddler设置断点
1.有两种方法设置断点 before response:也就是发送请求之后,但是Fiddler代理中转之前,这时可以修改请求的数据 after response:也就是服务器响应之后,但是在Fiddl ...
Go中的interface学习
学过Java的同学都知道在Java中接口更像是一种规范,用接口定义了一组方法,下面实现这个接口的类只管按照写好的方法名和返回值去实现就好,内部如何实现是各个方法自己的事情,接口本身不关注. 另外Jav ...
turtle绘制图形
Example1: import turtle as t #初始设置画笔的宽度(size).颜色(color) t.pensize(5) t.pencolor("black") # ...
Daily，一个入门级的 React Native 应用
Daily,一个React-Native写的android app. 下拉刷新获取:图片.诗句.言语.音乐.乐评.雨声.知乎日报.历史上的今天. 可以说是一个入门级的React-Native应用. 项 ...
warpAffine仿射变换
仿射变换,其实就是不同的坐标系的相互转换,用于图像的平移和旋转. 首先看一下官方的api描述. https://docs.opencv.org/2.4/modules/imgproc/doc/geom ...
Vue cli2.0 项目中使用Monaco Editor编辑器
monaco-editor 是微软出的一条开源web在线编辑器支持多种语言,代码高亮,代码提示等功能,与Visual Studio Code 功能几乎相同. 在项目中可能会用带代码编辑功能,或者展示代 ...
浅谈Http与Https
大家都知道,在客户端与服务器数据传输的过程中,http协议的传输是不安全的,也就是一般情况下http是明文传输的.但https协议的数据传输是安全的,也就是说https数据的传输是经过加密. 在客户端 ...
谈谈JVM垃圾回收
概述 Java运行时区域中,程序计数器,虚拟机栈,本地方法栈三个区域随着线程的而生,随线程而死,这几个区域的内存分配和回收都具备确定性,不需要过多考虑回收问题.而Java堆和方法区则不一样,一个接口的 ...

使用Elasticsearch7 java api实现pdf全文检索

一.方法

二. Java Api 7.0的实现

使用Elasticsearch7 java api实现pdf全文检索的更多相关文章

随机推荐

热门专题