poi提取docx中的文字和图片

package com.fry.poiDemo.dao;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.PrintStream;

import java.util.List;

import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

import org.apache.poi.xwpf.usermodel.XWPFDocument;

import org.apache.poi.xwpf.usermodel.XWPFPictureData;

public class Word {

    // maven太好用了

    // 读取srcFile源word文件docx文字

    // 读取srcFile源word文件docx中的image图片并且存放在文件夹imageFile中

    public String readDocxImage(String srcFile, String imageFile) {

        String path = srcFile;

        File file = new File(path);

        try {

            // 用XWPFWordExtractor来获取文字

            FileInputStream fis = new FileInputStream(file);

            XWPFDocument document = new XWPFDocument(fis);

            XWPFWordExtractor xwpfWordExtractor = new XWPFWordExtractor(document);

            String text = xwpfWordExtractor.getText();

//            System.out.println(text);

            //将获取到的文字存放到对应文件名中的txt文件中

            String temp[]=srcFile.split("\\/");

            String temp1=temp[temp.length-1];

            String temp3[]=temp1.split("\\.");

            String txtFileName="myRes//txt//"+temp3[0]+".txt";

            PrintStream ps = new PrintStream(txtFileName);

            ps.println(text);

            // 用XWPFDocument的getAllPictures来获取所有的图片

            List<XWPFPictureData> picList = document.getAllPictures();

            for (XWPFPictureData pic : picList) {

//                System.out.println(pic.getPictureType() + file.separator + pic.suggestFileExtension() + file.separator

//                        + pic.getFileName());

                byte[] bytev = pic.getData();

//                System.out.println(bytev.length);

                // 大于1000bites的图片我们才弄下来，消除word中莫名的小图片的影响

                if (bytev.length > 300) {

                    FileOutputStream fos = new FileOutputStream(imageFile + pic.getFileName());

                    fos.write(bytev);

                }

            }

            fis.close();

            return text;

        } catch (IOException e) {

            e.printStackTrace();

        }

        return null;

    }

}

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml -->

<dependency>

    <groupId>org.apache.poi</groupId>

    <artifactId>poi-ooxml</artifactId>

    <version>3.9</version>

</dependency>

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->

<dependency>

    <groupId>org.apache.poi</groupId>

    <artifactId>poi</artifactId>

    <version>3.9</version>

</dependency>

poi提取docx中的文字和图片的更多相关文章

poi读取docx中的文字和图片（自己应用）
poi读取docx中的文字和图片(自己应用) package com.fry.poiDemo.dao; import java.io.File; import java.io.FileInputStr ...
用poi替换ppt中的文字和图片
try { // 获取PPT文件 String pptModelPath =ConfigReadUtil.getInstance().getConfigI ...
使用 Python 识别并提取图像中的文字
1. 介绍介绍使用 python 进行图像的文字识别,将图像中的文字提取出来,可以帮助我们完成很多有趣的事情. 2. 必备工具 tesseract-ocr 下载地址: https://github. ...
Java 提取Word中的文本和图片
本文将介绍通过Java来提取或读取Word文档中文本和图片的方法.这里提取文本和图片包括同时提取文档正文当中以及页眉.页脚中的的文本和图片. 使用工具:Free Spire.Doc for Java ...
PDFtoWORD_V1.1版本支持PDF文档中的文字和图片一起转化到word文档中了~
昨天菜鸟小白做了一个小软件——PDFtoWORD,作用就是将pdf文件中的文字提取出来自动转化为可编辑的word类型.但是这个软件目前也只能将文件PDF中的文字提取出来,还无法提取图片.为了 ...
Java在已存在的pdf文件中生成文字和图片--基础
自我总结,有什么不足之处请告知,感激不尽!下一次总结pdf模板映射生成报表(应对多变的pdf报表需求,数据提供和报表生成解耦). 目的:在给定的pdf模板上生成报表,就需要知道最基本的操作:文字添加, ...
使用openxml提取word中的文本和图片并转为Html
使用openxml提取word中的文本和图片使用 openXml 提取 word 中的 Text 和 Drawing 使用 openXml 将 word 中的文本和图片转为Html 使用 openX ...
提取WORD中的所有InlineShape图片并保存成文件
InlineShape表示的类型其实不只是图片,还包括OLE, ACTIVE X等. 下面是MSDN中的定义:Represents an object in the text layer of a d ...
vue中添加文字或图片水印
首先引用warterMark.js,内容如下 'use strict' var watermark = (className,str,type) => { let dom = document. ...

随机推荐

二次封装dojo slider
上次的二次封装timeslider,挺有意思,又来封装一个dojo的,样式还是用arcgis的.实现更多功能,包括HorizontalSlider和VerticalSlider, 刻度的显示隐藏,标签 ...
Leaflet-Leafletv0.7使用leaflet-bing-layer
digidem/leaflet-bing-layer: Bing Maps Layer for Leaflet v1.0.0:从标题就可以看出要Leaflet v1.0.0才能用.其实leaflet ...
flask实现异步任务
最近在开发同步mysql数据到redis的接口,因为数据同步涉及各种增删查改,如果用同步实现,可能回造成连接超时.堵塞,所以,使用python实现异步任务. 代码实现from flask import ...
Linux操作系统(二)_快速入门
环境安装VM ware,输入VM key 在VM上安装CentOS 6.5 设置网络,能在本机上ping通通过终端连接工具:Xshell或SecureCRT,连接Linux服务器实操可能出现的问 ...
Bootstrap 学习笔记3 输入框和导航组件
导航组件: 导航条组件: 导航条代码: <nav class="navbar navbar-default"> <div class="containe ...
mysql常见的hint
mysql常用的hint对于经常使用oracle的朋友可能知道,oracle的hint功能种类很多,对于优化sql语句提供了很多方法.同样,在mysql里,也有类似的hint功能.下面介绍一些常用的. ...
java并发编程之美-阅读记录3
java并发包中的ThreadLocalRandom类,jdk1.7增加的随机数生成器 Random类的缺点:是多个线程使用同一个原子性的种子变量,导致对原子变量的更新产生竞争,降低了效率(该类是线程 ...
Node中的Cookie和Session
1.Cookie HTTP是无状态协议.例:打开一个域名的首页,进而打开该域名的其他页面,服务器无法识别访问者.即同一浏览器访问同一网站,每次访问都没有任何关系. Cookie的原理是:客户端浏览器在 ...
linux100day（day7）--用户管理和权限管理简单介绍
系统基础计算机的三大部件 CPU 内存 IO 总线一般使用system call和api来调用硬件一些基础命令, pwd 查看当前路径 cal 计算器 clock 时钟 hwclock 显示与设 ...
gcc 交叉工具链中工具使用（arm-linux-xxx）
在Ubuntu系统中使用 gcc 系列工具是在PC机上使用 arm-linux-gcc 编译的目标是在 arm CPU上使用一.安装交叉编译工具链 1. 编译工具怎么获取 1)从官网 http:/ ...

poi提取docx中的文字和图片

poi提取docx中的文字和图片的更多相关文章

随机推荐

热门专题