使用POI将doc文件转换为html

需要的jar包有：有一些是依赖包，可以使用maven下载

doc文件转换为html文件

package com.gsww.sxzz.controller.service;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.converter.PicturesManager;

import org.apache.poi.hwpf.converter.WordToHtmlConverter;

import org.apache.poi.hwpf.usermodel.Picture;

import org.apache.poi.hwpf.usermodel.PictureType;

import org.jsoup.Jsoup;

import org.w3c.dom.Document;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.parsers.ParserConfigurationException;

import javax.xml.transform.OutputKeys;

import javax.xml.transform.Transformer;

import javax.xml.transform.TransformerException;

import javax.xml.transform.TransformerFactory;

import javax.xml.transform.dom.DOMSource;

import javax.xml.transform.stream.StreamResult;

import java.io.*;

import java.util.List;

/**

 * Created by Carey on 15-2-2.

 */

public class docTohtml {

    public static void main(String argv[]) {

        try {

            convert2Html("D:\\b.doc","D:\\1.html");

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    //输出html文件

    public static void writeFile(String content, String path) {

        FileOutputStream fos = null;

        BufferedWriter bw = null;

        org.jsoup.nodes.Document doc = Jsoup.parse(content);

        String styleOld=doc.getElementsByTag("style").html();

        //统一字体格式为宋体

        styleOld=styleOld.replaceAll("font-family:.+(?=;\\b)", "font-family:SimSun");

        doc.getElementsByTag("head").empty();

        doc.getElementsByTag("head").append("<meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\"></meta>");

        doc.getElementsByTag("head").append(" <style type=\"text/css\"></style>");

        doc.getElementsByTag("style").append(styleOld);

        /*正则表达式查询字体内容：font-family:.+(?=;\b)*/

        System.out.println(content);

        content=doc.html();

        content=content.replace("<meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\">", "<meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\"></meta>");

        try {

            File file = new File(path);

            fos = new FileOutputStream(file);

            bw = new BufferedWriter(new OutputStreamWriter(fos,"UTF-8"));

            bw.write(content);

        } catch (FileNotFoundException fnfe) {

            fnfe.printStackTrace();

        } catch (IOException ioe) {

            ioe.printStackTrace();

        } finally {

            try {

                if (bw != null)

                    bw.close();

                if (fos != null)

                    fos.close();

            } catch (IOException ie) {

            }

        }

    }

    //word 转 html

    public static void convert2Html(String fileName, String outPutFile)

            throws TransformerException, IOException,

            ParserConfigurationException {

        HWPFDocument wordDocument = new HWPFDocument(new FileInputStream(fileName));//WordToHtmlUtils.loadDoc(new FileInputStream(inputFile));

         //兼容2007 以上版本

//        XSSFWorkbook  xssfwork=new XSSFWorkbook(new FileInputStream(fileName));

        WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(

                DocumentBuilderFactory.newInstance().newDocumentBuilder()

                        .newDocument());

        wordToHtmlConverter.setPicturesManager( new PicturesManager()

        {

            public String savePicture( byte[] content,

                                       PictureType pictureType, String suggestedName,

                                       float widthInches, float heightInches )

            {

                return "test/"+suggestedName;

            }

        } );

        wordToHtmlConverter.processDocument(wordDocument);

        //save pictures

        List pics=wordDocument.getPicturesTable().getAllPictures();

        if(pics!=null){

            for(int i=0;i<pics.size();i++){

                Picture pic = (Picture)pics.get(i);

                System.out.println();

                try {

                    pic.writeImageContent(new FileOutputStream("D:/test/"

                            + pic.suggestFullFileName()));

                } catch (FileNotFoundException e) {

                    e.printStackTrace();

                }

            }

        }

        Document htmlDocument = wordToHtmlConverter.getDocument();

        ByteArrayOutputStream out = new ByteArrayOutputStream();

        DOMSource domSource = new DOMSource(htmlDocument);

        StreamResult streamResult = new StreamResult(out);

        TransformerFactory tf = TransformerFactory.newInstance();

        Transformer serializer = tf.newTransformer();

        serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");

        serializer.setOutputProperty(OutputKeys.INDENT, "yes");

        serializer.setOutputProperty(OutputKeys.METHOD, "HTML");

        serializer.transform(domSource, streamResult);

        out.close();

        writeFile(new String(out.toByteArray()), outPutFile);

    }

}

遇到的问题，当doc转换为html时不会将图像的线条给转换过来。只有在table表格中才可以转换为span标签。如果要作下滑线，可以放一个table的单元格只设定下边框就可以完美转换为html了。

将html转换为pdf

package com.gsww.sxzz.controller.service;

import com.lowagie.text.pdf.BaseFont;

import org.xhtmlrenderer.pdf.ITextFontResolver;

import org.xhtmlrenderer.pdf.ITextRenderer;

import java.io.File;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.OutputStream;

/**

 * Created by Carey on 15-2-2.

 */

public class htmlToPdf {

    public boolean convertHtmlToPdf(String inputFile, String outputFile)

             {

        try {

                OutputStream     os = new FileOutputStream(outputFile);

              ITextRenderer renderer = new ITextRenderer();

                String url = new File(inputFile).toURI().toURL().toString();

                renderer.setDocument(url);

                // 解决中文支持问题

                ITextFontResolver fontResolver = renderer.getFontResolver();

                /*fontResolver.addFont("C:\\Windows\\Fonts\\simsunb.ttf", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);

                *///宋体文件的相对路径

                fontResolver.addFont("C:\\Windows\\Fonts\\simsun.ttc", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);     

                renderer.getSharedContext().setBaseURL("file:/D:/");

                renderer.layout();

                renderer.createPDF(os);

                os.flush();

                os.close();

        } catch (Exception e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        return true;

    }

     public   static  void  main(String [] args){

         htmlToPdf html2Pdf =new htmlToPdf();

         try {

             html2Pdf.convertHtmlToPdf("D:\\1.html","D:\\index.pdf");

         } catch (Exception e) {

             e.printStackTrace();

         }

     }

}

使用POI将doc文件转换为html的更多相关文章

Python如何实现doc文件转换为docx文件？
Python如何实现doc文件转换为docx文件? 在开发过程中遇到一个关于读写doc和docx的问题: 一个文件夹中有两种文件, 一种为doc结尾, 一种为docx结尾, 需要将这些文件全部重命名. ...
java将doc文件转换为pdf文件的三种方法
http://feifei.im/archives/93 —————————————————————————————————————————————— 项目要用到doc转pdf的功能,一番google ...
使用poi将Excel文件转换为data数据
pom <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http:// ...
如何把rtf、doc文件转换为HTML文件
//retText是路径 1 public string ExtractHtml(string rtfText) { try { //Create word object Word.Applicati ...
使用POI转换word doc文件
目录 1 转换为Html文件 2 转换为Xml文件 3 转换为Text文件在POI中还存在有针对于word doc文件进行格式转换的功能.我们可以将word的内容 ...
POI转换word doc文件为（html,xml,txt）
在POI中还存在有针对于word doc文件进行格式转换的功能.我们可以将word的内容转换为对应的Html文件,也可以把它转换为底层用来描述doc文档的xml文件,还可以把它转换为底层用来描述doc ...
java使用poi读取doc和docx文件
这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码. 我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码. 于 ...
使用POI读写Word doc文件
使用POI读写word doc文件目录 1 读word doc文件 1.1 通过WordExtractor读文件 1.2 通过HWPFDocument读文件 2 写w ...
android使用POI读写word doc文件
目录 1 读word doc文件 1.1 通过WordExtractor读文件 1.2 通过HWPFDocument读文件 2 写word doc文件 Apache p ...

随机推荐

在Ubuntu 16.04下安装 virtualbox 5.2
sudo sh -c 'echo "deb http://download.virtualbox.org/virtualbox/debian xenial contrib" ...
sparkstreaming+socket workCount 小案例
Consumer代码 import org.apache.spark.SparkConf import org.apache.spark.streaming.StreamingContext impo ...
md5加密--32位16进制小写
public class ttgameMd5 { public final static String MD5(String str) { char hexDigits[] = { // 用来将字节转 ...
跳转 nginx 跳转 apache跳转
公司在google上投广告,需要做一些很简单的站去google上投广告,当用户在google上点击那些很简单的网站的时候,就会跳转到真实的网站.但是,如果用户直接在浏览器输入域名,并访问的话,那样就不 ...
ubuntu 下使用polipo转换HTTP代理
***默认是用Socks5协议的,对于Terminal的get,wget等走http协议的地方是无能为力的,所以需要转换成http代理,加强通用性,这里使用的转换方法是基于Polipo的. sudo ...
JWT简介json web token bear token
, "exp": 1502360328,(相差3600s) "nbf": , "jti": "R0Gd00AvOW259LGo&q ...
Wireshark 与 Tcpdump
[1]Wireshark 与 Tcpdump Wireshark是Windows下非常容易上手的抓包工具.但在Linux下很难找到一个好用的图形界面抓包工具.还好有Tcpdump.我们可以用Tcpdu ...
DM8168 自己主动登录root用户
①指定连接: <DM8168># ln -s /bin/busybox /sbin/getty ②改动/etc/inittab文件: <DM8168># vi /etc/ini ...
线程池 http请求
package com.aibi.cmdc.test; import java.io.BufferedReader; import java.io.InputStream; import java.i ...
Spring Cloud 微服务三： API网关Spring cloud gateway
前言:前面介绍了一款API网关组件zuul,不过发现spring cloud自己开发了一个新网关gateway,貌似要取代zuul,spring官网上也已经没有zuul的组件了(虽然在仓库中可以更新到 ...

使用POI将doc文件转换为html

使用POI将doc文件转换为html的更多相关文章

随机推荐

热门专题