Java poi 读取 word 、 pdf

从各个博客 CV 出来的，不好意思

pom

	<dependency>

            <groupId>org.apache.poi</groupId>

            <artifactId>poi</artifactId>

            <version>4.1.2</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml -->

        <dependency>

            <groupId>org.apache.poi</groupId>

            <artifactId>poi-ooxml</artifactId>

            <version>4.1.2</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml-schemas -->

        <dependency>

            <groupId>org.apache.poi</groupId>

            <artifactId>poi-ooxml-schemas</artifactId>

            <version>4.1.2</version>

        </dependency>

        <dependency>

            <groupId>org.apache.poi</groupId>

            <artifactId>ooxml-schemas</artifactId>

            <version>1.4</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-scratchpad -->

        <dependency>

            <groupId>org.apache.poi</groupId>

            <artifactId>poi-scratchpad</artifactId>

            <version>4.1.2</version>

        </dependency>

        <dependency>

            <groupId>org.apache.commons</groupId>

            <artifactId>commons-compress</artifactId>

            <version>1.21</version>

        </dependency>

        <!--读取pdf信息-->

        <dependency>

            <groupId>org.apache.pdfbox</groupId>

            <artifactId>pdfbox</artifactId>

            <version>2.0.12</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.pdfbox/fontbox -->

        <dependency>

            <groupId>org.apache.pdfbox</groupId>

            <artifactId>fontbox</artifactId>

            <version>2.0.12</version>

        </dependency>

按段落读取 docx

    @SneakyThrows

    private void readDocx(MultipartFile file) {

        InputStream inputStream = file.getInputStream();

        XWPFDocument document = new XWPFDocument(inputStream);

      	// 读取段落

        List<XWPFParagraph> paragraphs = document.getParagraphs();

        List<WordFileInfo> infos = new ArrayList<>();

        for (XWPFParagraph paragraph : paragraphs) {

            String text = paragraph.getParagraphText();

        }

    }

按段落读取 doc

    @SneakyThrows

    private void readDoc(MultipartFile file) {

        InputStream inputStream = file.getInputStream();

        HWPFDocument document = new HWPFDocument(inputStream);

        Range range = document.getRange();

        List<WordFileInfo> infos = new ArrayList<>();

        for (int i = 0; i < range.numParagraphs(); i++) {

            Paragraph paragraph = range.getParagraph(i);

            String text = paragraph.text();

        }

    }

读取 pdf

/**

     * 读取 pdf 文件内容

     *

     * @param inputStream

     * @return

     */

    private String readPDF(InputStream inputStream) {

        StringBuilder content = new StringBuilder();

        try {

            RandomAccessBuffer buffer = new RandomAccessBuffer(inputStream);

            PDFParser pdfParser = new PDFParser(buffer);

            pdfParser.parse();

            PDDocument document = pdfParser.getPDDocument();

            // 获取页码

            int pages = document.getNumberOfPages();

            PDFTextStripper stripper = new PDFTextStripper();

            // 设置按顺序输出

            stripper.setSortByPosition(true);

            stripper.setStartPage(1);

            stripper.setEndPage(pages);

            content.append(stripper.getText(document));

        } catch (Exception e) {

            e.printStackTrace();

        }

        return content.toString();

    }

Java poi 读取 word 、 pdf的更多相关文章

Java POI 读取word文件
Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能. 1.读取word 2003及word 2007需要 ...
java使用poi读取word（简单，简约，直观）
java使用poi读取word(简单,简约,直观) 说明其实poi的官网上面都是有接口和样例的,只是都是英文例如网址:http://poi.apache.org/spreadsheet/quick ...
POI 读取word (word 2003 和 word 2007) （转）
最近在给客户做系统的时候,用户提出需求,要能够导入 word 文件,现在 microsoft word 有好几个版本 97.2003.2007的,这三个版本存储数据的格式上都有相当大的差别,而现在 9 ...
POI 读取word (word 2003 和 word 2007)（转，好用）
POI 读取word (word 2003 和 word 2007)(转,好用) 转做的操作: 将作者文中失效的链接的正确链接放在失效链接的下面. 最近在给客户做系统的时候,用户提出需求,要能够导入 ...
Java poi读取,写入Excel2003
Java poi读取,写入Excel2003 相关阅读:poi读写Excel2007:http://www.cnblogs.com/gavinYang/p/3576741.htmljxl读写excel ...
Java poi读取,写入Excel2007
Java poi读取,写入Excel2007 相关阅读:poi读写Excel2003:http://www.cnblogs.com/gavinYang/p/3576739.htmljxl读写excel ...
java 使用poi读取word文档存入数据库
使用的poi jar包需要自己下载读取的word文档中含有多个图片,所以分为两个部分,一个部分读取各个表格中内容,一个是将所有图片截取出来: /** * 遍历段落内容 * docxReadPath ...
Java POI 解析word文档
实现步骤: 1.poi实现word转html 2.模型化解析html 3.html转Map数组 Map数组(数组的操作处理不做说明) 1.导jar包. 2.代码实现 package com.web.o ...
poi读取word的内容
pache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能. 1.读取word 2003及word 2007需要的 ...
java中读取word文档里的内容
package com.cn.peitest.excel.word; import java.io.FileInputStream; import java.io.FileOutputStream; ...

随机推荐

【DataBase】MySQL 27 函数
一.概述函数 Function,存储过程的用途一致,减少程序逻辑,和数据库服务的连接次数,提高效率简化操作,提高SQL重用性函数和存储过程的区别? 存储过程允许多个返回的数据,函数只允许一个 ...
从markdown引擎实现的角度看markerdown到底是什么?
引用百度百科的解释: 链接:https://baike.baidu.com/item/markdown/3245829 Markdown 是一种轻量级标记语言,创始人为约翰·格鲁伯(John Grub ...
ubuntu18.04 安装wine64出现错误： X 64-bit development files not found.
ubuntu18.04 编译源码方式安装 wine6.11 , 报错: 缺少依赖,解决方法如下: sudo apt install xserver-xorg-dev 参考: https://bl ...
Hessian Free Optimization——外国网友分享的“共轭梯度”的推导
外国网友分享的"共轭梯度"的推导: https://andrew.gibiansky.com/blog/machine-learning/hessian-free-optimiza ...
英特尔Movidius神经计算棒的介绍
手上有一款英特尔Movidius神经计算棒,本打算疫情结束返回学校,突然得到非官方的通知告诉我只能等到9月份返校了,于是就想起这个被闲置的计算棒了,手上的是1代的计算棒,不过1代的和二代的使用起来方法 ...
查看numpy中不同数据类型的表示范围
在numpy中数据类型主要可以分为int和float两个类型,查看int类型的表示范围可以使用numpy.iinfo,查看float类型的表示范围可以使用numpy.finfo . 例子: impo ...
记录一次Ubuntu20.04死机经过！！！在Ubuntu下使用Chrome的“无痕式”窗口，如果打开标签页过多就会造成死机
这里要说的事情就是自己刚刚经历的事情,而且尝试了多次最后证明,在Ubuntu下使用Chrome的"无痕式"窗口,如果打开标签页过多就会造成死机. 如何在Ubuntu下安装Chrom ...
英语.Net多语言开发中的问题
问题与现象多语言开发是一件成本很高的事情. 很多公司会退而求其次选择只开发英文版本的软件分发到不同国家,但这里仍存在不同问题. 我们就遇到了这样的问题,参考下面的代码. CultureInfo cu ...
java中sleep与 yield 区别
1.背景在多线程的使用中你会看到这个两个方法sleep()与yield()这两方法有什么作用呢? 请看下面案例演示 2.测试 package com.ldp.demo01; import com.c ...
使用 Apache SeaTunnel 实现 Kafka Source 解析复杂Json 案例
版本说明: SeaTunnel:apache-seatunnel-2.3.2-SNAPHOT 引擎说明: Flink:1.16.2 Zeta:官方自带前言近些时间,我们正好接手一个数据集成项目,数 ...

Java poi 读取 word 、 pdf

按段落 读取 docx

按段落 读取 doc

读取 pdf

Java poi 读取 word 、 pdf的更多相关文章

随机推荐

热门专题

按段落读取 docx

按段落读取 doc