目录

1       转换为Html文件

2       转换为Xml文件

3       转换为Text文件

在POI中还存在有针对于word doc文件进行格式转换的功能。我们可以将word的内容转换为对应的Html文件,也可以把它转换为底层用来描述doc文档的xml文件,还可以把它转换为底层用来描述doc文档的xml格式的text文件。这些格式转换都是通过AbstractWordConverter特定的子类来完成的。

1       转换为Html文件

将doc文档转换为对应的Html文档是通过WordToHtmlConverter类进行的。它会尽量的利用Html的方式来呈现原文档的样式。示例代码:

  1. /**
  2. * Word转换为Html
  3. * @throws Exception
  4. */
  5. @Test
  6. public void testWordToHtml() throws Exception {
  7. InputStream is = new FileInputStream("D:\\test.doc");
  8. HWPFDocument wordDocument = new HWPFDocument(is);
  9. WordToHtmlConverter converter = new WordToHtmlConverter(DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument());
  10. //对HWPFDocument进行转换
  11. converter.processDocument(wordDocument);
  12. Writer writer = new FileWriter(new File("D:\\converter.html"));
  13. Transformer transformer = TransformerFactory.newInstance().newTransformer();
  14. transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
  15. //是否添加空格
  16. transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
  17. transformer.setOutputProperty( OutputKeys.METHOD, "html" );
  18. transformer.transform(
  19. new DOMSource(converter.getDocument() ),
  20. new StreamResult( writer ) );
  21. }

2       转换为Xml文件

将doc文档转换为对应的Xml文件是通过WordToFoConverter类进行的。它可以把doc文档转换为底层用来描述doc文档的Xml文档。示例代码:

  1. /**
  2. * Word转Fo
  3. * @throws Exception
  4. */
  5. @Test
  6. public void testWordToFo() throws Exception {
  7. InputStream is = new FileInputStream("D:\\test.doc");
  8. HWPFDocument wordDocument = new HWPFDocument(is);
  9. WordToFoConverter converter = new WordToFoConverter(DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument());
  10. //对HWPFDocument进行转换
  11. converter.processDocument(wordDocument);
  12. Writer writer = new FileWriter(new File("D:\\converter.xml"));
  13. Transformer transformer = TransformerFactory.newInstance().newTransformer();
  14. transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
  15. //是否添加空格
  16. transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
  17. //     transformer.setOutputProperty( OutputKeys.METHOD, "html" );
  18. transformer.transform(
  19. new DOMSource(converter.getDocument() ),
  20. new StreamResult( writer ) );
  21. }

3       转换为Text文件

将doc文档转换为text文档是通过WordToTextConverter来进行的。它可以把doc文档转换为底层用于描述doc文档的Xml格式的text文档。示例代码:

  1. /**
  2. * Word转换为Text
  3. * @throws Exception
  4. */
  5. @Test
  6. public void testWordToText() throws Exception {
  7. InputStream is = new FileInputStream("D:\\test.doc");
  8. HWPFDocument wordDocument = new HWPFDocument(is);
  9. WordToTextConverter converter = new WordToTextConverter(DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument());
  10. //对HWPFDocument进行转换
  11. converter.processDocument(wordDocument);
  12. Writer writer = new FileWriter(new File("D:\\converter.txt"));
  13. Transformer transformer = TransformerFactory.newInstance().newTransformer();
  14. transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
  15. //是否添加空格
  16. transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
  17. transformer.setOutputProperty( OutputKeys.METHOD, "text" );
  18. transformer.transform(
  19. new DOMSource(converter.getDocument() ),
  20. new StreamResult( writer ) );
  21. }

(注:本文是基于poi3.9所写)

使用POI转换word doc文件的更多相关文章

  1. POI转换word doc文件为(html,xml,txt)

    在POI中还存在有针对于word doc文件进行格式转换的功能.我们可以将word的内容转换为对应的Html文件,也可以把它转换为底层用来描述doc文档的xml文件,还可以把它转换为底层用来描述doc ...

  2. 使用POI读写Word doc文件

    使用POI读写word doc文件 目录 1     读word doc文件 1.1     通过WordExtractor读文件 1.2     通过HWPFDocument读文件 2     写w ...

  3. android使用POI读写word doc文件

    目录 1     读word doc文件 1.1     通过WordExtractor读文件 1.2     通过HWPFDocument读文件 2     写word doc文件 Apache p ...

  4. 解决 apache poi 转换 word(docx) 文件到 html 文件表格没边框的问题

    一.起因 这几天在做电子签章问题,要通过替换docx文件中的占位符生成包含业务数据的合同数据,再转换成html文件,转换成pdf文件.遇到的问题是:通过apache poi转换docx到html时,原 ...

  5. POI读word doc 03 文件的两种方法

    Apache poi的hwpf模块是专门用来对word doc文件进行读写操作的.在hwpf里面我们使用HWPFDocument来表示一个word doc文档.在HWPFDocument里面有这么几个 ...

  6. POI写入word doc 03 模板的实例

    在使用POI写word doc文件的时候我们必须要先有一个doc文件才行,因为我们在写doc文件的时候是通过HWPFDocument来写的,而HWPFDocument是要依附于一个doc文件的.所以通 ...

  7. POI读写Word docx文件

    使用POI读写word docx文件 目录 1     读docx文件 1.1     通过XWPFWordExtractor读 1.2     通过XWPFDocument读 2     写docx ...

  8. VBA/VBScript提取Word(*.doc)文件中包含的图片(照片)

    VBA/VBScript提取Word(*.doc)文件中包含的图片(照片)   要处理的人事简历表是典型的Word文档,其中一人一份doc,里面包含有个人的照片,如果要把里面的照片复制出来就比较麻烦了 ...

  9. 15个最好的PDF转word的在线转换器,将PDF文件转换成doc文件

    PDF是一种文件格式,包含文本,图像,数据等,这是独立于操作系统的文件类型.它是一个开放的标准,压缩,另一方面DOC文件和矢量图形是由微软文字处理文件.该文件格式将纯文本格式转换为格式化文档.它支持几 ...

随机推荐

  1. DNS Wildcard(DNS泛域名)

    在DNS中,泛域名(wildcard Resource Record)可以被认为是一种合成RR的机制,借助于它,DNS服务器可以响应本来不存在的域名的请求,它的设计初衷是用来把所有邮件都转发到一个邮件 ...

  2. SpringBoot---基本配置

    1.首先在pom.xml添加对HTML的相关依赖 /** * pom.xml文件 */ <dependencies> <dependency> <groupId>o ...

  3. php 常用$_SERVER变量列表

    $_SERVER['HTTP_ACCEPT_LANGUAGE'] //浏览器语言 $_SERVER['REMOTE_ADDR'] //当前用户 IP . $_SERVER['REMOTE_HOST'] ...

  4. JavaWeb学习 (十九)————JavaBean

    一.什么是JavaBean JavaBean是一个遵循特定写法的Java类,它通常具有如下特点: 这个Java类必须具有一个无参的构造函数 属性必须私有化. 私有化的属性必须通过public类型的方法 ...

  5. [design-patterns]设计模式之一策略模式

    设计模式 从今天开始开启设计模式专栏,我会系统的分析和总结每一个设计模式以及应用场景.那么首先,什么是设计模式呢,作为一个软件开发人员,程序人人都会写,但是写出一款逻辑清晰,扩展性强,可维护的程序就不 ...

  6. 移动端地区选择控件mobile-select-area

    由于之前的[js开源组件开发]js手机联动选择地区仿ios 开源git 很受欢迎,于是我又对其进行了一些优化,包括可选的范围变大了,添加了默认空首地址的功能,也添加了更多api参数,首先我们先来看下这 ...

  7. 非常完善的Log4net详细说明(转)

    最可能来源:https://blog.csdn.net/ydm19891101/article/details/50561638 其它转载者:http://www.cnblogs.com/zhangc ...

  8. 【JVM】6、聊聊JVM常用参数设置

    整体考虑堆大小 -Xms3550m, 初始化堆大小.通常情况和-Xmx大小设置一样,避免虚拟机频繁自动计算后调整堆大小. -Xmx3550m,最大堆大小. 考虑分代设置堆大小 首先通过jstat等工具 ...

  9. JavaScript一团乱,这是好事

    译者按: JavaScript从简单变复杂了,作者从另一个角度看待这个问题. 原文: JavaScript’s a mess – and that’s a good thing 译者: Fundebu ...

  10. JQuery基本知识汇总;JQuery常用方法;浅入了解JQuery

    一.jQuery对象与JavaScript对象 ①JavaScript入口函数比jQuery入口函数执行的晚一些: JQuery的入口函数会等页面加载完成才执行,但是不会等待图片的加载: JavaSc ...