java读取pdf文本转换html

补充：一下代码基于maven，现将依赖的jar包单独导出

java读取pdf中的纯文字，这里使用的是pdfbox工具包

maven引入如下配置

　　　　 <dependency>

            <groupId>net.sf.cssbox</groupId>

            <artifactId>pdf2dom</artifactId>

            <version>1.7</version>

        </dependency>

        <dependency>

            <groupId>org.apache.pdfbox</groupId>

            <artifactId>pdfbox</artifactId>

            <version>2.0.12</version>

        </dependency>

        <dependency>

            <groupId>org.apache.pdfbox</groupId>

            <artifactId>pdfbox-tools</artifactId>

            <version>2.0.12</version>

        </dependency>

工具类直接读取

代码示例

　　/*

    读取pdf文字

     */

    @Test

    public void readPdfTextTest() throws IOException {

        byte[] bytes = getBytes("D:\\code\\pdf\\HashMap.pdf");

        //加载PDF文档

        PDDocument document = PDDocument.load(bytes);

        readText(document);

    }

    public void readText(PDDocument document) throws IOException {

        PDFTextStripper stripper = new PDFTextStripper();

        String text = stripper.getText(document);

        System.out.println(text);

    }

将pdf转换为html

效果图

代码示例

/*

    pdf转换html

     */

    @Test

    public void pdfToHtmlTest()  {

        String outputPath = "D:\\code\\pdf\\HashMap.html";

        byte[] bytes = getBytes("D:\\code\\pdf\\HashMap.pdf");

//        try() 写在()里面会自动关闭流

        try (BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File(outputPath)),"UTF-8"));){

            //加载PDF文档

            PDDocument document = PDDocument.load(bytes);

            PDFDomTree pdfDomTree = new PDFDomTree();

            pdfDomTree.writeText(document,out);

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    /*

    将文件转换为byte数组

     */

    private byte[] getBytes(String filePath){

        byte[] buffer = null;

        try {

            File file = new File(filePath);

            FileInputStream fis = new FileInputStream(file);

            ByteArrayOutputStream bos = new ByteArrayOutputStream(1000);

            byte[] b = new byte[1000];

            int n;

            while ((n = fis.read(b)) != -1) {

                bos.write(b, 0, n);

            }

            fis.close();

            bos.close();

            buffer = bos.toByteArray();

        } catch (FileNotFoundException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }

        return buffer;

    }

完整的一个上传pdf转换为HTML功能（今后转换pdf也不需要找什么第三方了，哈哈）

@RequestMapping("ud")

@Controller

public class UpAndDownController {

    @RequestMapping("upload.do")

    @ResponseBody

    public Map<String,Object> upload(@RequestParam("file") MultipartFile file, HttpServletRequest request){

        Map<String, Object> map = new HashMap<>();

        map.put("code","200");

        try {

            PdfConvertUtil pdfConvertUtil = new PdfConvertUtil();

            String pdfName = file.getOriginalFilename();

            int lastIndex = pdfName.lastIndexOf(".pdf");

            String fileName = pdfName.substring(0, lastIndex);

            String htmlName = fileName + ".html";

            String realPath = ResourceUtils.getURL("classpath:").getPath() + "/templates/file";

            File f = new File(realPath);

            if(!f.exists()){

                f.mkdirs();

            }

            String htmlPath = realPath + "\\" + htmlName;

            pdfConvertUtil.pdftohtml(file.getBytes(), htmlPath);

        } catch (Exception e) {

            map.put("code","500");

            e.printStackTrace();

        }

        return map;

    }

}

可以使用postman调试

需要设置请求头 Content-Type 指定为 application/x-www-form-urlencoded

之后选择body选择form-data，OK

如果涉及到HTML页面直接加载PDF，无需插件

可以参考下

https://www.cnblogs.com/jacksoft/p/5302587.html

https://github.com/mozilla/pdf.js

java读取pdf文本转换html的更多相关文章

[转].NET下读取PDF文本
本文转自:http://blog.csdn.net/wangqiuyun/article/details/8548779 在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSha ...
.Net ->> iTextSharp工具读取PDF文本内容
分享一个开源的C#DLL,可以读取PDF文本内容. 地址:http://sourceforge.net/projects/itextsharp/ 这里还有相关的链接:http://www.codepr ...
Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Ja ...
java读取pdf总结
第三方软件 1.pdfbox PDFBox 0.7.3.PDFBox是一个开源的对pdf文件进行操作的库. PDFBox-0.7.3.jar加入classpath.同时FontBox1.0.jar加入 ...
Java 读取PDF中的表格
一.概述本文以Java示例展示读取PDF中的表格的方法.这里导入Spire.PDF for Javah中的jar包,并使用其提供的相关及方法来实现获取表格中的文本内容.下表中整理了本次代码使用到的主 ...
Java 读取Word文本/段落格式属性
本文介绍通过Java后端程序代码来读取Word文本和段落格式的方法. 本次测试环境如下: Word版本:2013 编译环境:IntelliJ IDEA2018 Work库:free spire.doc ...
java读取pdf和MS Office文档
有时候PDF中的文字无法复制,这可能是因为PDF文件加密了,不过使用PDFBox开源软件就可以把它读出来. 还有一个用于创建PDF文件的项目----iText. PDFBox下面有两个子项目:Font ...
java读取pdf文档
import java.io.*;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.pdfparser.PDFParser;import o ...
Java 读取Word文本框中的文本/图片/表格
Word可插入文本框,文本框中可嵌入文本.图片.表格等内容.对文档中的已有文本框,也可以读取其中的内容.本文以Java程序代码来展示如何读取文本框,包括读取文本框中的文本.图片以及表格等. [程序环境 ...

随机推荐

Spring 源码学习——Aop
Spring 源码学习--Aop 什么是 AOP 以下是百度百科的解释:AOP 为 Aspect Oriented Programming 的缩写,意为:面向切面编程通过预编译的方式和运行期动态代理实 ...
python面试题之docstring是什么？
Docstring是一种文档字符串,用于解释构造的作用.我们在函数.类或方法中将它放在首位来描述其作用.我们用三个单引号或双引号来声明docstring. >>> def sayhi ...
使用apache搭建tomcat集群
1.安装apache 1.1 下载ApacheX64.rar,并解压 1.2 修改Apache24\conf\httpd.conf文件配置根目录: 配置ip和端口 1.2 安装apache服务器以 ...
android service 样例（电话录音和获取系统当前时间）
关于android service 的具体解释请參考: android四大组件--android service具体解释.以下将用两个实例具体呈现Android Service的两种实现. 一个是st ...
Java技术专区-虚拟机系列-堆快照（获取）
1.JVM-堆快照(Snapshot) 1.1 输出方式-获取hprof文件启动参数配置OOM时触发打印堆快照 (1)tomcat启动方式添加参数 (添加环境变量) export JAVA_OPTS ...
Tomcat发布项目的几种方式
如何在浏览器访问一个xml文件拷贝这个文件到webapps/ROOT底下, 在浏览器里面访问直接把tomcat/webapps/ROOT目录下浏览器访问http://localhost:8080 ...
2018-2-13-win10-uwp-hashcash
title author date CreateTime categories win10 uwp hashcash lindexi 2018-2-13 17:23:3 +0800 2018-2-13 ...
Android Studio在Ubuntu下离线安装Gradle
更新android studio3.0后又要升级gradle了,估计又要很长时间,晚上临走前跟开始更新下载,第二天一早发现又卡了,吐血. 在某CSDN下载gradle-4.1-all.zip,直接手动 ...
Java中this的基础用法
update on 2019-07-07 在Java核心技术一书中看到调用方法时this作为隐式参数传入的. 突然间许多问题都懂了比如:方法的多态父类变量指向子类对象的引用对象变量指向的实际类型 ...
mongoose 数据库连接
1安装mongoose npm install mongoose 安装成功 2.打开数据库 mongod --path E:\mongo 成功创建一个db.js var mongoose = req ...

java读取pdf文本转换html

java读取pdf文本转换html的更多相关文章

随机推荐

热门专题