使用POI将doc文件转换为html

需要的jar包有：有一些是依赖包，可以使用maven下载

doc文件转换为html文件

package com.gsww.sxzz.controller.service;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.converter.PicturesManager;

import org.apache.poi.hwpf.converter.WordToHtmlConverter;

import org.apache.poi.hwpf.usermodel.Picture;

import org.apache.poi.hwpf.usermodel.PictureType;

import org.jsoup.Jsoup;

import org.w3c.dom.Document;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.parsers.ParserConfigurationException;

import javax.xml.transform.OutputKeys;

import javax.xml.transform.Transformer;

import javax.xml.transform.TransformerException;

import javax.xml.transform.TransformerFactory;

import javax.xml.transform.dom.DOMSource;

import javax.xml.transform.stream.StreamResult;

import java.io.*;

import java.util.List;

/**

 * Created by Carey on 15-2-2.

 */

public class docTohtml {

    public static void main(String argv[]) {

        try {

            convert2Html("D:\\b.doc","D:\\1.html");

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    //输出html文件

    public static void writeFile(String content, String path) {

        FileOutputStream fos = null;

        BufferedWriter bw = null;

        org.jsoup.nodes.Document doc = Jsoup.parse(content);

        String styleOld=doc.getElementsByTag("style").html();

        //统一字体格式为宋体

        styleOld=styleOld.replaceAll("font-family:.+(?=;\\b)", "font-family:SimSun");

        doc.getElementsByTag("head").empty();

        doc.getElementsByTag("head").append("<meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\"></meta>");

        doc.getElementsByTag("head").append(" <style type=\"text/css\"></style>");

        doc.getElementsByTag("style").append(styleOld);

        /*正则表达式查询字体内容：font-family:.+(?=;\b)*/

        System.out.println(content);

        content=doc.html();

        content=content.replace("<meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\">", "<meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\"></meta>");

        try {

            File file = new File(path);

            fos = new FileOutputStream(file);

            bw = new BufferedWriter(new OutputStreamWriter(fos,"UTF-8"));

            bw.write(content);

        } catch (FileNotFoundException fnfe) {

            fnfe.printStackTrace();

        } catch (IOException ioe) {

            ioe.printStackTrace();

        } finally {

            try {

                if (bw != null)

                    bw.close();

                if (fos != null)

                    fos.close();

            } catch (IOException ie) {

            }

        }

    }

    //word 转 html

    public static void convert2Html(String fileName, String outPutFile)

            throws TransformerException, IOException,

            ParserConfigurationException {

        HWPFDocument wordDocument = new HWPFDocument(new FileInputStream(fileName));//WordToHtmlUtils.loadDoc(new FileInputStream(inputFile));

         //兼容2007 以上版本

//        XSSFWorkbook  xssfwork=new XSSFWorkbook(new FileInputStream(fileName));

        WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(

                DocumentBuilderFactory.newInstance().newDocumentBuilder()

                        .newDocument());

        wordToHtmlConverter.setPicturesManager( new PicturesManager()

        {

            public String savePicture( byte[] content,

                                       PictureType pictureType, String suggestedName,

                                       float widthInches, float heightInches )

            {

                return "test/"+suggestedName;

            }

        } );

        wordToHtmlConverter.processDocument(wordDocument);

        //save pictures

        List pics=wordDocument.getPicturesTable().getAllPictures();

        if(pics!=null){

            for(int i=0;i<pics.size();i++){

                Picture pic = (Picture)pics.get(i);

                System.out.println();

                try {

                    pic.writeImageContent(new FileOutputStream("D:/test/"

                            + pic.suggestFullFileName()));

                } catch (FileNotFoundException e) {

                    e.printStackTrace();

                }

            }

        }

        Document htmlDocument = wordToHtmlConverter.getDocument();

        ByteArrayOutputStream out = new ByteArrayOutputStream();

        DOMSource domSource = new DOMSource(htmlDocument);

        StreamResult streamResult = new StreamResult(out);

        TransformerFactory tf = TransformerFactory.newInstance();

        Transformer serializer = tf.newTransformer();

        serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");

        serializer.setOutputProperty(OutputKeys.INDENT, "yes");

        serializer.setOutputProperty(OutputKeys.METHOD, "HTML");

        serializer.transform(domSource, streamResult);

        out.close();

        writeFile(new String(out.toByteArray()), outPutFile);

    }

}

遇到的问题，当doc转换为html时不会将图像的线条给转换过来。只有在table表格中才可以转换为span标签。如果要作下滑线，可以放一个table的单元格只设定下边框就可以完美转换为html了。

将html转换为pdf

package com.gsww.sxzz.controller.service;

import com.lowagie.text.pdf.BaseFont;

import org.xhtmlrenderer.pdf.ITextFontResolver;

import org.xhtmlrenderer.pdf.ITextRenderer;

import java.io.File;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.OutputStream;

/**

 * Created by Carey on 15-2-2.

 */

public class htmlToPdf {

    public boolean convertHtmlToPdf(String inputFile, String outputFile)

             {

        try {

                OutputStream     os = new FileOutputStream(outputFile);

              ITextRenderer renderer = new ITextRenderer();

                String url = new File(inputFile).toURI().toURL().toString();

                renderer.setDocument(url);

                // 解决中文支持问题

                ITextFontResolver fontResolver = renderer.getFontResolver();

                /*fontResolver.addFont("C:\\Windows\\Fonts\\simsunb.ttf", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);

                *///宋体文件的相对路径

                fontResolver.addFont("C:\\Windows\\Fonts\\simsun.ttc", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);     

                renderer.getSharedContext().setBaseURL("file:/D:/");

                renderer.layout();

                renderer.createPDF(os);

                os.flush();

                os.close();

        } catch (Exception e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        return true;

    }

     public   static  void  main(String [] args){

         htmlToPdf html2Pdf =new htmlToPdf();

         try {

             html2Pdf.convertHtmlToPdf("D:\\1.html","D:\\index.pdf");

         } catch (Exception e) {

             e.printStackTrace();

         }

     }

}

使用POI将doc文件转换为html的更多相关文章

Python如何实现doc文件转换为docx文件？
Python如何实现doc文件转换为docx文件? 在开发过程中遇到一个关于读写doc和docx的问题: 一个文件夹中有两种文件, 一种为doc结尾, 一种为docx结尾, 需要将这些文件全部重命名. ...
java将doc文件转换为pdf文件的三种方法
http://feifei.im/archives/93 —————————————————————————————————————————————— 项目要用到doc转pdf的功能,一番google ...
使用poi将Excel文件转换为data数据
pom <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http:// ...
如何把rtf、doc文件转换为HTML文件
//retText是路径 1 public string ExtractHtml(string rtfText) { try { //Create word object Word.Applicati ...
使用POI转换word doc文件
目录 1 转换为Html文件 2 转换为Xml文件 3 转换为Text文件在POI中还存在有针对于word doc文件进行格式转换的功能.我们可以将word的内容 ...
POI转换word doc文件为（html,xml,txt）
在POI中还存在有针对于word doc文件进行格式转换的功能.我们可以将word的内容转换为对应的Html文件,也可以把它转换为底层用来描述doc文档的xml文件,还可以把它转换为底层用来描述doc ...
java使用poi读取doc和docx文件
这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码. 我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码. 于 ...
使用POI读写Word doc文件
使用POI读写word doc文件目录 1 读word doc文件 1.1 通过WordExtractor读文件 1.2 通过HWPFDocument读文件 2 写w ...
android使用POI读写word doc文件
目录 1 读word doc文件 1.1 通过WordExtractor读文件 1.2 通过HWPFDocument读文件 2 写word doc文件 Apache p ...

随机推荐

开发中可能会用到的几个小tip----QT, pycharm, android, 等
QT: 如果是在windows下开发的话,添加外部库,外部包含头文件路径的时候,要注意用相对路径,或者在项目上右键添加外部库的路径或者头文件路径,否则,会卡在这里开始怀疑人生... 如果是在linux ...
创建自己的Spring Boot Starter
抽取通用模块作为项目的一个spring boot starter.可参照mybatis的写法. IDEA创建Empty Project并添加如下2个module,一个基本maven模块,另一个引入sp ...
【Mac系统 + Python + Django】之开发一个发布会系统【Django视图（二）】
此学习资料是通过虫师的python接口自动化出的书学习而来的,在此说明一下,想学习更多的自动化的同学可以找虫师的博客园,非广告,因为我python+selenium自动化也是跟虫师学的,学习效果很好的 ...
myeclipse配置问题
一,配置相关 1,myeclipse配置jdk Window --> Preferences --> Java --> Installed JREs 2.myeclipse配置tom ...
一次 read by other session 的处理过程
一个哥们给我打电话.他说系统中一直出现等待事件 read by other session .而且该等待都是同一个sql引起的.比較紧急,请我帮忙远程看看. 远程过去之后,用脚本把等待事件给抓 ...
[转]maven2中snapshot快照库和release发布库的区别和作用
Post by 铁木箱子 in 技术杂谈 on 2010-08-03 17:17 [转载声明] 转载时必须标注:本文来源于铁木箱子的博客http://www.mzone.cc[原文地址] 原文永久地址 ...
saltstack内置执行模块groupadd
groupadd模块用于命令行管理用户组 salt.modules.groupadd.add(name, gid=None, system=False) 添加一个用户到指定GID 例:salt '*' ...
jquery基础研究学习【HTML】
jQuery HTMLjQuery 捕获jQuery 设置jQuery 添加元素jQuery 删除元素jQuery CSS 类jQuery css() 方法jQuery 尺寸笔记:
We7的区县站点群建设策略
一．解决门户和委办局.乡镇的互动构建以区县政府门户为主站,各委办局.乡镇为子站的站点群体系: 基于统一的信息体系,实现分级授权.统一管理的功能.各网站能够有独立的页面展现和管理后台,同一时候网站之间 ...
Struts2+hibernate+spring 配置事物
今天自信看了看hibernate的事物配置问题,转载了其他人的日志,仅用来学习. struts+hibernate+spring事务配置 (2009-01-14 21:49:47) 转载▼ 标签: i ...

使用POI将doc文件转换为html

使用POI将doc文件转换为html的更多相关文章

随机推荐

热门专题