java项目word文件转html文件

最近在项目开发中用户提出要在电脑上没有装office时在浏览器中打开word文件，最后确定的逻辑：用户选择想要查看的文件，页面js判断文件是否为word。不是执行下载，是后端根据word文件后缀访问对应转换方法。文件已存在对应html文件直接返回html文件地址，不存在先生成对应html文件再返回地址。js直接通过open()打开新的页签，展示word文件内容。新人一枚，如果代码中存在错误或有更好的实现万望指正！

相关jar包

代码

import java.io.ByteArrayOutputStream;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.parsers.ParserConfigurationException;

import javax.xml.transform.OutputKeys;

import javax.xml.transform.Transformer;

import javax.xml.transform.TransformerException;

import javax.xml.transform.TransformerFactory;

import javax.xml.transform.dom.DOMSource;

import javax.xml.transform.stream.StreamResult;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.converter.PicturesManager;

import org.apache.poi.hwpf.converter.WordToHtmlConverter;

import org.apache.poi.hwpf.usermodel.PictureType;

import org.apache.poi.xwpf.converter.core.BasicURIResolver;

import org.apache.poi.xwpf.converter.core.FileImageExtractor;

import org.apache.poi.xwpf.converter.core.FileURIResolver;

import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter;

import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions;

import org.apache.poi.xwpf.usermodel.XWPFDocument;

import org.w3c.dom.Document;

/**

 * word 转换成html 2017-2-27

 */

public class WordToHtml {

    /**

     * 将word2003转换为html文件 2017-2-27

     * @param wordPath word文件路径

     * @param wordName word文件名称无后缀

     * @param suffix   word文件后缀

     * @throws IOException

     * @throws TransformerException

     * @throws ParserConfigurationException

     */

    public String Word2003ToHtml(String wordPath,String wordName,String suffix) throws IOException, TransformerException, ParserConfigurationException {

        String htmlPath = wordPath + File.separator + wordName + "_show" + File.separator;

        String htmlName = wordName + ".html";

        final String imagePath = htmlPath  + "image" + File.separator;

        //判断html文件是否存在

        File htmlFile = new File(htmlPath + htmlName);

        if(htmlFile.exists()){

            return htmlFile.getAbsolutePath();

        }

        //原word文档

        final String file = wordPath + File.separator + wordName + suffix;

        InputStream input = new FileInputStream(new File(file));

        HWPFDocument wordDocument = new HWPFDocument(input);

        WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument());

        //设置图片存放的位置

        wordToHtmlConverter.setPicturesManager(new PicturesManager() {

            public String savePicture(byte[] content, PictureType pictureType, String suggestedName, float widthInches, float heightInches) {

                File imgPath = new File(imagePath);

                if(!imgPath.exists()){//图片目录不存在则创建

                    imgPath.mkdirs();

                }

                File file = new File(imagePath + suggestedName);

                try {

                    OutputStream os = new FileOutputStream(file);

                    os.write(content);

                    os.close();

                } catch (FileNotFoundException e) {

                    e.printStackTrace();

                } catch (IOException e) {

                    e.printStackTrace();

                }

                //图片在html文件上的路径 相对路径

                return "image/" + suggestedName;

            }

        });

        //解析word文档

        wordToHtmlConverter.processDocument(wordDocument);

        Document htmlDocument = wordToHtmlConverter.getDocument();

        //生成html文件上级文件夹

        File folder = new File(htmlPath);

        if(!folder.exists()){

            folder.mkdirs();

        }

        //生成html文件地址

        OutputStream outStream = new FileOutputStream(htmlFile);

        DOMSource domSource = new DOMSource(htmlDocument);

        StreamResult streamResult = new StreamResult(outStream);

        TransformerFactory factory = TransformerFactory.newInstance();

        Transformer serializer = factory.newTransformer();

        serializer.setOutputProperty(OutputKeys.ENCODING, "utf-8");

        serializer.setOutputProperty(OutputKeys.INDENT, "yes");

        serializer.setOutputProperty(OutputKeys.METHOD, "html");

        serializer.transform(domSource, streamResult);

        outStream.close();

        return htmlFile.getAbsolutePath();

    }

    /**

     * 2007版本word转换成html 2017-2-27

     * @param wordPath word文件路径

     * @param wordName word文件名称无后缀

     * @param suffix   word文件后缀

     * @return

     * @throws IOException

     */

    public String Word2007ToHtml(String wordPath,String wordName,String suffix) throws IOException {

        String htmlPath = wordPath + File.separator + wordName + "_show" + File.separator;

        String htmlName = wordName + ".html";

        String imagePath = htmlPath  + "image" + File.separator;

        //判断html文件是否存在

        File htmlFile = new File(htmlPath + htmlName);

        if(htmlFile.exists()){

            return htmlFile.getAbsolutePath();

        }

        //word文件

        File wordFile = new File(wordPath + File.separator + wordName + suffix);  

        // 1) 加载word文档生成 XWPFDocument对象

        InputStream in = new FileInputStream(wordFile);

        XWPFDocument document = new XWPFDocument(in);  

        // 2) 解析 XHTML配置 (这里设置IURIResolver来设置图片存放的目录)

        File imgFolder = new File(imagePath);

        XHTMLOptions options = XHTMLOptions.create();

        options.setExtractor(new FileImageExtractor(imgFolder));

        //html中图片的路径 相对路径

        options.URIResolver(new BasicURIResolver("image"));

        options.setIgnoreStylesIfUnused(false);

        options.setFragment(true);  

        // 3) 将 XWPFDocument转换成XHTML

        //生成html文件上级文件夹

        File folder = new File(htmlPath);

        if(!folder.exists()){

            folder.mkdirs();

        }

        OutputStream out = new FileOutputStream(htmlFile);

        XHTMLConverter.getInstance().convert(document, out, options);

        return htmlFile.getAbsolutePath();

    }

}

文件目录

java项目word文件转html文件的更多相关文章

关于eclipse创建java项目时产生的.settings文件：
在用eclipse创建一个java项目,在项目目录下面往往会发现.settings文件夹并包含一个org.eclipse.core.resources.prefs文件条目. 这个条目是配置项目的编码方 ...
关于Java项目打包成Runnable jar文件后运行时图片不显示的问题
现象:在eclipse中能够无误运行,但导出Runnable jar后运行jar包时不显示图片. 原因:路径问题. 方法1: 新建一个文件夹.文件夹中放那个jar包和image文件夹.在这种情况下,双 ...
JAVA实现Word（doc）文件读写
1.pom.xml依赖 <dependencies> <dependency> <groupId>org.apache.poi</groupId> &l ...
idea如何将普通文件夹转成java项目root目录/maven
转java项目转maven 选中pom文件右键就能看到了
Ubuntu下eclipse不能新建java项目 java project的解决办法
在ubuntu系统中,装了eclipse,打开过,后来装了JDK,却不能新建java项目.重装了几遍eclipse也没有用. 原因分析: 之所以新建找不到java项目是因为eclipse有残留文件导致 ...
关于java项目与web项目中lib包的那点事
一.在java项目中如何引入外部jar包:1.在我们的java项目下新建一个lib文件夹:2.将我们需要引入的jat包复制到lib文件夹下:3.选中我们lib包下的jar,右键选择Build Path ...
IDEA中Java项目创建lib目录并生成依赖
首先介绍说明一下idea在创建普通的Java项目,是没有lib文件夹的,下面我来带大家来创建一下1.右键点击项目,创建一个普通的文件夹 2.取名为lib 3.把项目所需的jar包复制到lib文件夹下 ...
Java实现word文档在线预览，读取office文件
想要实现word或者其他office文件的在线预览,大部分都是用的两种方式,一种是使用openoffice转换之后再通过其他插件预览,还有一种方式就是通过POI读取内容然后预览. 一.使用openof ...
java操作office和pdf文件java读取word，excel和pdf文档内容
在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应 ...

随机推荐

C# WinForm：无法访问已释放的对象
C#在父窗口中调用子窗口的过程: 1. 创建子窗口对象 2. 显示子窗口对象笔者的程序中,主窗体MainFrm通过菜单调用子窗口ChildFrm.在窗体中定义了子窗口对象,然后在菜单项点击事件中 ...
apache-2.4.6 mod_bw-0.92 实现限速上传或下载
下载 mod_bw wget http://ivn.cl/files/source/mod_bw-0.92.tgz 解压到mod_bw tar -zxvf mod_bw-0.92.tgz -C mo ...
CentOS7 64位安装mysql教程
参考链接:http://baijiahao.baidu.com/s?id=1597184796823517712&wfr=spider&for=pc https://www.cnblo ...
F#周报2019年第16期
新闻 Ionide试验版本 FSharp路线图介绍 Blazor官方预览 .NET Framework 4.8发布 .NET Core 3 Preview 4发布需要来自FSharp.Data.Sq ...
task CancellationTokenSource
使用CancellationTokenSource对象需要与Task对象进行配合使用,Task会对当前运行的状态进行控制(这个不用我们关心是如何控制的).而CancellationTokenSourc ...
1python简介
02 python和03 python的区别: python:优美,清晰,简单. python2x: 源码重复,混乱,冗余. 源码不规范. python3x: 源码整合,优美,清晰 ...
django的分页与添加图片
分页: 在主页面的views里写接口导包: from django.core.paginator import Paginator 接口: id=request.GET.get("page ...
4. Scala程序流程控制
4.1 程序流程控制说明在程序中,程序运行的流程控制决定程序是如何执行的,是我们必须掌握的,主要有三大流程控制语句,顺序控制,粉质控制,循环控制温馨提示:Scala语言中控制结构和Java语言中的 ...
redis相关操作
#连接主机 redis-cli -h 192.168.2.109 -p 6379 #通过密码登录 auth "yourpassword" #存取值 set hello world ...
WSL（Windows Subsystem for Linux)笔记一安装与使用
1.安装linux子系统很简单直接在启动或关闭windows功能中选择“适用于linux的windows子系统”,确定安装后重启即可,安装还是比较快的只用了几分钟. 也可以直接使用shell命令行 ...

java项目word文件转html文件

java项目word文件转html文件的更多相关文章

随机推荐

热门专题