Apache poi的hwpf模块是专门用来对word doc文件进行读写操作的。在hwpf里面我们使用HWPFDocument来表示一个word doc文档。在HWPFDocument里面有这么几个概念：

Range：它表示一个范围，这个范围可以是整个文档，也可以是里面的某一小节（Section），也可以是某一个段落（Paragraph），还可以是拥有共同属性的一段文本（CharacterRun）。

Section：word文档的一个小节，一个word文档可以由多个小节构成。

Paragraph：word文档的一个段落，一个小节可以由多个段落构成。

CharacterRun：具有相同属性的一段文本，一个段落可以由多个CharacterRun组成。

Table：一个表格。

TableRow：表格对应的行。

TableCell：表格对应的单元格。

Section、Paragraph、CharacterRun和Table都继承自Range。

1 读word doc文件

在日常应用中，我们从word文件里面读取信息的情况非常少见，更多的还是把内容写入到word文件中。使用POI从word doc文件读取数据时主要有两种方式：通过WordExtractor读和通过HWPFDocument读。在WordExtractor内部进行信息读取时还是通过HWPFDocument来获取的。

1.1通过WordExtractor读文件

在使用WordExtractor读文件时我们只能读到文件的文本内容和基于文档的一些属性，至于文档内容的属性等是无法读到的。如果要读到文档内容的属性则需要使用HWPFDocument来读取了。下面是使用WordExtractor读取文件的一个示例：

public class Test11 {

    public static void main(String[] args)  throws Exception {

          InputStream is = new FileInputStream("F:\\test.doc");

          WordExtractor extractor = new WordExtractor(is);

          //输出word文档所有的文本

          System.out.println(extractor.getText());

          System.out.println(extractor.getTextFromPieces());

          //输出页眉的内容

          System.out.println("页眉：" + extractor.getHeaderText());

          //输出页脚的内容

          System.out.println("页脚：" + extractor.getFooterText());

          //输出当前word文档的元数据信息，包括作者、文档的修改时间等。

          System.out.println(extractor.getMetadataTextExtractor().getText());

          //获取各个段落的文本

          String paraTexts[] = extractor.getParagraphText();

          for (int i=0; i<paraTexts.length; i++) {

             System.out.println("Paragraph " + (i+1) + " : " + paraTexts[i]);

          }

          //输出当前word的一些信息

          printInfo(extractor.getSummaryInformation());

          //输出当前word的一些信息

          printInfo2(extractor.getDocSummaryInformation());

          closeStream(is);

       }

       /**

        * 输出SummaryInfomation

        * @param info

        */

       private void printInfo(SummaryInformation info) {

          //作者

          System.out.println(info.getAuthor());

          //字符统计

          System.out.println(info.getCharCount());

          //页数

          System.out.println(info.getPageCount());

          //标题

          System.out.println(info.getTitle());

          //主题

          System.out.println(info.getSubject());

       }

       /**

        * 输出DocumentSummaryInfomation

        * @param info

        */

       private void printInfo2(DocumentSummaryInformation info) {

          //分类

          System.out.println(info.getCategory());

          //公司

          System.out.println(info.getCompany());

       }

       /**

        * 关闭输入流

        * @param is

        */

       private static void closeStream(InputStream is) {

          if (is != null) {

             try {

                is.close();

             } catch (IOException e) {

                e.printStackTrace();

             }

          }

       }         
}

1.2 通过HWPFDocument读文件

HWPFDocument是当前Word文档的代表，它的功能比WordExtractor要强。通过它我们可以读取文档中的表格、列表等，还可以对文档的内容进行新增、修改和删除操作。只是在进行完这些新增、修改和删除后相关信息是保存在HWPFDocument中的，也就是说我们改变的是HWPFDocument，而不是磁盘上的文件。如果要使这些修改生效的话，我们可以调用HWPFDocument的write方法把修改后的HWPFDocument输出到指定的输出流中。这可以是原文件的输出流，也可以是新文件的输出流（相当于另存为）或其它输出流。下面是一个通过HWPFDocument读文件的示例：

public class HwpfTest {

   @Test

   public void testReadByDoc() throws Exception {

      InputStream is = new FileInputStream("D:\\test.doc");

      HWPFDocument doc = new HWPFDocument(is);

      //输出书签信息

      this.printInfo(doc.getBookmarks());

      //输出文本

      System.out.println(doc.getDocumentText());

      Range range = doc.getRange();

//    this.insertInfo(range);

      this.printInfo(range);

      //读表格

      this.readTable(range);

      //读列表

      this.readList(range);

      //删除range

      Range r = new Range(2, 5, doc);

      r.delete();//在内存中进行删除，如果需要保存到文件中需要再把它写回文件

      //把当前HWPFDocument写到输出流中

      doc.write(new FileOutputStream("D:\\test.doc"));

      this.closeStream(is);

   }

   /**

    * 关闭输入流

    * @param is

    */

   private void closeStream(InputStream is) {

      if (is != null) {

         try {

            is.close();

         } catch (IOException e) {

            e.printStackTrace();

         }

      }

   }

   /**

    * 输出书签信息

    * @param bookmarks

    */

   private void printInfo(Bookmarks bookmarks) {

      int count = bookmarks.getBookmarksCount();

      System.out.println("书签数量：" + count);

      Bookmark bookmark;

      for (int i=0; i<count; i++) {

         bookmark = bookmarks.getBookmark(i);

         System.out.println("书签" + (i+1) + "的名称是：" + bookmark.getName());

         System.out.println("开始位置：" + bookmark.getStart());

         System.out.println("结束位置：" + bookmark.getEnd());

      }

   }

   /**

    * 读表格

    * 每一个回车符代表一个段落，所以对于表格而言，每一个单元格至少包含一个段落，每行结束都是一个段落。

    * @param range

    */

   private void readTable(Range range) {

      //遍历range范围内的table。

      TableIterator tableIter = new TableIterator(range);

      Table table;

      TableRow row;

      TableCell cell;

      while (tableIter.hasNext()) {

         table = tableIter.next();

         int rowNum = table.numRows();

         for (int j=0; j<rowNum; j++) {

            row = table.getRow(j);

            int cellNum = row.numCells();

            for (int k=0; k<cellNum; k++) {

                cell = row.getCell(k);

                //输出单元格的文本

                System.out.println(cell.text().trim());

            }

         }

      }

   }

   /**

    * 读列表

    * @param range

    */

   private void readList(Range range) {

      int num = range.numParagraphs();

      Paragraph para;

      for (int i=0; i<num; i++) {

         para = range.getParagraph(i);

         if (para.isInList()) {

            System.out.println("list: " + para.text());

         }

      }

   }

   /**

    * 输出Range

    * @param range

    */

   private void printInfo(Range range) {

      //获取段落数

      int paraNum = range.numParagraphs();

      System.out.println(paraNum);

      for (int i=0; i<paraNum; i++) {

//       this.insertInfo(range.getParagraph(i));

         System.out.println("段落" + (i+1) + "：" + range.getParagraph(i).text());

         if (i == (paraNum-1)) {

            this.insertInfo(range.getParagraph(i));

         }

      }

      int secNum = range.numSections();

      System.out.println(secNum);

      Section section;

      for (int i=0; i<secNum; i++) {

         section = range.getSection(i);

         System.out.println(section.getMarginLeft());

         System.out.println(section.getMarginRight());

         System.out.println(section.getMarginTop());

         System.out.println(section.getMarginBottom());

         System.out.println(section.getPageHeight());

         System.out.println(section.text());

      }

   }

   /**

    * 插入内容到Range，这里只会写到内存中

    * @param range

    */

   private void insertInfo(Range range) {

      range.insertAfter("Hello");

   }

}

（注：本文是基于poi3.9所写）

POI读word doc 03 文件的两种方法的更多相关文章

POI读word docx 07 文件的两种方法
POI在读写word docx文件时是通过xwpf模块来进行的,其核心是XWPFDocument.一个XWPFDocument代表一个docx文档,其可以用来读docx文档,也可以用来写docx文档. ...
[转载]C#读写txt文件的两种方法介绍
C#读写txt文件的两种方法介绍 by 大龙哥 1.添加命名空间 System.IO; System.Text; 2.文件的读取 (1).使用FileStream类进行文件的读取,并将它转换成char ...
.net中创建xml文件的两种方法
.net中创建xml文件的两种方法方法1:根据xml结构一步一步构建xml文档,保存文件(动态方式) 方法2:直接加载xml结构,保存文件(固定方式) 方法1:动态创建xml文档根据传递的值,构建 ...
MySQL命令执行sql文件的两种方法
MySQL命令执行sql文件的两种方法摘要:和其他数据库一样,MySQL也提供了命令执行sql脚本文件,方便地进行数据库.表以及数据等各种操作.下面笔者讲解MySQL执行sql文件命令的两种方法,希 ...
C#读写txt文件的两种方法介绍
C#读写txt文件的两种方法介绍 1.添加命名空间 System.IO; System.Text; 2.文件的读取 (1).使用FileStream类进行文件的读取,并将它转换成char数组,然后输出 ...
spring 配置文件引入外部的property文件的两种方法
spring 的配置文件引入外部的property文件的两种方法  <bean id="propertyConfig ...
合并BIN文件的两种方法(转)
源:http://blog.chinaunix.net/uid-20745340-id-1878803.html 合并BIN文件的两种方法在单片机的开发过程中,经常需要将两个单独的BIN文件合并成一 ...
Linux下查看alert日志文件的两种方法
--linux下查看alert日志文件的两种方法: --方法1: SQL> show parameter background_dump_dest; NAME TYPE VALUE ------ ...
elf格式转换为hex格式文件的两种方法
这周工作终于不太忙了,可以写点笔记总结一下了. 之前的文章如何在Keil-MDK开发环境生成Bin格式文件,介绍了如何在Keil开发环境使用fromelf软件,将生成的axf文件转换为bin文件,这次 ...

随机推荐

html实现点击图片放大功能
话不多说,直接上代码 <html> <head> <style> .over {position: fixed; left:0; top:0; width:100% ...
[Swift]快速反向平方根 | Fast inverse square root
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(shanqingyongzhi)➤博客园地址:山青咏芝(https://www.cnblogs. ...
自然语言处理（三）——PTB数据的batching方法
参考书 <TensorFlow:实战Google深度学习框架>(第2版) 从文本文件中读取数据,并按照下面介绍的方案将数据整理成batch. 方法是:先将整个文档切分成若干连续段落,再让b ...
WKWebView简单使用
#import <WebKit/WebKit.h> @interface SchoolOverviewsViewController ()<WKUIDelegate,WKNaviga ...
DRF教程6-分页
rest框架提供自定义分页样式,让你修改再每个页面上显示多少条数据, pagination API 可以: 分页链接作为响应内容的一部分分页链接包含在响应头里,比如Content-Range or ...
jquery select 列表 ajax 动态获取数据模糊查询分页
最近需要一个这样的select 在网上找的多是数据一次性获取到再通过前端模糊查询匹配的这样在数据量比较大的情况下不适合 ,所以参考http://www.jq22.com/jquery-info145 ...
如何在spring环境中做单元测试
在测试类的上方加入以下注解 @RunWith(SpringJUnit4ClassRunner.class)@ContextConfiguration("classpath:spring.xm ...
Spring-打印机案例
1.导包 <dependency> <groupId>org.springframework</groupId> <art ...
五、UML类图和六大原则-----《大话设计模式》
一.单一职责原则就一个类而言,应该仅有一个引起它变化的原因. 如果一个类承担的职责过多,就等于把这些职责耦合在一起,一个职责的变化可能会削弱或者抑制这个类完成其他职责的能力.这种耦合 ...
MongoDB自动递增序列
MongoDB没有像SQL数据库外开箱即用自动递增功能.默认情况下,它采用了12字节的ObjectId为_id字段作为主键来唯一地标识文档.然而,可能存在的情况,我们可能希望_id字段有一些其它的自动 ...

POI读word doc 03 文件的两种方法

1 读word doc文件

1.1通过WordExtractor读文件

1.2 通过HWPFDocument读文件

POI读word doc 03 文件的两种方法的更多相关文章

随机推荐

热门专题