利用poi操作word文档

关键字：POI JAVA 批注总页数总字符数
一：认识POI
Apache POI是一个开源的利用Java读写Excel、WORD等微软OLE2组件文档的项目。最新的3.5版本有很多改进，加入了对采用OOXML格式的Office 2007支持，如xlsx、docx、pptx文档。
POI主页：poi.apache.org/

二：POI3.5相关下载
3.5Jar包下载地址
3.5源码下载地址

三：POI组成部分概览
以下是POI的几个重要组成部分，以及各组件的功能概述。

POIFS
POIFS是该项目的最古老，最稳定的一部分。.这是格式化OLE 2复合文档为纯Java的接口。它同时支持读写功能。所有的组件，最终都依赖于它的定义
HSSF 和 XSSF
HSSF: MS－Excel 97-2003（.xls），基于BIFF8格式的JAVA接口。
XSSF：MS－Excel 2007+(.xlsx),基于OOXML格式的JAVA接口。
HWPF 和XWPF
HWPF: MS－Word 97-2003(.doc)，基于BIFF8格式的JAVA接口。只支持.doc文件简单的操作，读写能力有限。本API为POI项目早期开发，很不幸的是主要负责HWPF模块开发的工程师-“Ryan Ackley”已经离开Apache组织，现在该模块没有人维护、更新、完善。
XWPF：MS－Word 2007+(.docx),基于OOXML格式的JAVA接口。较HWPF功能完善。

四：利用POI提取Word文本内容及批注
97-2003:

import org.apache.poi.POITextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
//得到.doc文件提取器
org.apache.poi.hwpf.extractor.WordExtractor doc = new WordExtractor(new FileInputStream(filePath));
//提取.doc正文文本
String text = doc.getText();
//提取.doc批注
String[] comments = doc. getCommentsText();

2007

import org.apache.poi.POITextExtractor;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFComment;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
//得到.docx文件提取器
org.apache.poi.xwpf.extractor.XWPFWordExtractor docx = new XWPFWordExtractor(POIXMLDocument.openPackage(filePath));
//提取.docx正文文本
String text = docx.getText();
//提取.docx批注
org.apache.poi.xwpf.usermodel.XWPFComment[] comments = docx.getDocument()).getComments();
for(XWPFComment comment:comments){
comment.getId();//提取批注Id
comment.getAuthor();//提取批注修改人
comment.getText();//提取批注内容
}
五：利用POI提取Word总页数、总字符数...
97-2003
WordExtractor doc = new WordExtractor(new FileInputStream(filePath));//.doc格式Word文件提取器
int pages = doc.getSummaryInformation().getPageCount();//总页数
int wordCount = doc.getSummaryInformation().getWordCount();//总字符数
2007:

XWPFDocument docx = nnew XWPFDocument(POIXMLDocument.openPackage(filePath));

int pages = docx.getProperties().getExtendedProperties().getUnderlyingProperties().getPages();//总页数
int characters = docx.getProperties().getExtendedProperties().getUnderlyingProperties().getCharacters();// 忽略空格的总字符数另外还有getCharactersWithSpaces()方法获取带空格的总字数。

小技巧：
2007采用了全新的OFFICE OPEN XML格式来存储，跟以前二进制文件格式的office 97-2003（.doc、.xls...）不同，所以可以直接重命名xx.docx的文件为xx.zip,用WinRar打开可以看到office2007的存储文件，其中word/document.xml里面保存了最重要的正文内容，word/comments.xml保存的是批注内容，可以多研究一下这些文件，有助于开发~

Office Open XML 文件格式简介 www.microsoft.com/china/msdn/library/office/office/OfficeOpenXMLFormats.mspx
随着20世纪90年代XML的出现，企业计算客户开始逐渐认识到，在他们所依赖的计算机产品和应用中采用开放的格式和标准所带来的商业价值。IT专业人员将从通用的数据格式中受益匪浅，这种格式可能是XML，因为它拥有被应用程序、平台和Internet浏览器读取的能力。

同样，随着在Microsoft Office 2000中对于XML格式的支持与采用，开发人员开始认识到，他们需要将以前的Microsoft Office版本中的二进制文件格式转换为XML格式。二进制文件（.doc，.dot，.xls，以及.ppt文件）在过去几年中一直肩负着存储和转换数据的重任，而现在它们无法满足新的市场需求的挑战，其中包括轻松地在异构应用之间传递数据，以及允许用户从这些数据中搜集商业信息。

2007 Microsoft Office system为Microsoft Office Excel 2007，Microsoft Office Word 2007，和Microsoft Office PowerPoint 2007采用了基于XML的文件格式，从而延续了这种转移。新的文件格式，称为Office Open XML格式，解决了上述市场需求的问题，同时改变了您基于Microsoft Office文档建立解决方案的方式

利用poi操作word文档的更多相关文章

利用Python操作Word文档【图片】
利用Python操作Word文档
poi操作word文档文件操作
import org.apache.poi.POITextExtractor; import org.apache.poi.hwpf.extractor.WordExtractor; //得到.doc ...
利用POI读取word文档实例
package read.document; import java.io.FileInputStream; import java.io.FileNotFoundException; import ...
POI生成word文档完整案例及讲解
一,网上的API讲解其实POI的生成Word文档的规则就是先把获取到的数据转成xml格式的数据,然后通过xpath解析表单式的应用取值,判断等等,然后在把取到的值放到word文档中,最后在输出来. ...
iText操作word文档总结
操作word文档的工具有很多,除了iText之外还有POI,但是POI擅长的功能是操作excel,虽然也可以操作word,但是能力有限,而且还有很多的bug,技术并不成熟,下面就重点介绍一种操作wor ...
Java文件操作系列[3]——使用jacob操作word文档
Java对word文档的操作需要通过第三方组件实现,例如jacob.iText.POI和java2word等.jacob组件的功能最强大,可以操作word,Excel等格式的文件.该组件调用的的是操作 ...
POI生成WORD文档
h2:first-child, body>h1:first-child, body>h1:first-child+h2, body>h3:first-child, body>h ...
C#操作Word文档（加密、解密、对应书签插入分页符）
原文:C#操作Word文档(加密.解密.对应书签插入分页符) 最近做一个项目,客户要求对已经生成好的RTF文件中的内容进行分页显示,由于之前对这方面没有什么了解,后来在网上也找了相关的资料,并结合自己 ...
Poi之Word文档结构介绍
1.poi之word文档结构介绍之正文段落一个文档包含多个段落,一个段落包含多个Runs,一个Runs包含多个Run,Run是文档的最小单元获取所有段落:List<XWPFParagraph ...

随机推荐

Day06:抽象类、接口和内部类(上)
JVAV中的常量什么是常量? 常量就是不会变化的数值为什么需要常量? 方便使用(调用)不会变化的数值特性不能修改所有对象共享常量一定是成员定义 public static final 类 ...
Day04:继承的意义(下)
对象转型向上造型什么是向上造型? 子类对象赋给父类引用. 父类引用指向子类对象. 子类转成父类默认进行(父类引用指向子类对象). 为什么需要向上造型? 子类对象可以放入父类类型的数组中. 父类数 ...
java驼峰法和下划线法字符串的相互转换
java驼峰法和下划线法字符串的相互转换 1 import java.util.regex.Matcher; import java.util.regex.Pattern; public class ...
mariadb数据库增删改查
1.常用数据类型 1)整数:int, bit 2)小数:decimal #decimal(5,2)表示共有五位数,保留两位小数 3)字符串:varchar, char 4)日期时间:date, ...
C++ 优先队列 priority_queue
平时定义的时候,直接上就完事了: priority_queue<int>Q; 默认大根堆. 之前很菜的时候不知道小根堆怎么写,还在考场上干过加个负号甩到大根堆里面去的蠢事. 它的完整形式呢 ...
【神经网络与深度学习】【CUDA开发】【VS开发】Microsoft官方移植了Caffe配置过程说明
想在Windows平台使用Caffe,吭哧吭哧下载了半天第三方库,后来忽然发现Microsoft官方移植了Caffe,配置起来简直太省心了- 1. 从Microsoft官方Github上下载Caffe ...
linux whoami 显示当前用户的用户名
[root@MongoDB ~]# whoami root
python 并发编程多进程生产者消费者模型总结
生产者消费者模型总结生产者消费者模型什么时候用? 1.程序中有两类角色一类负责生产数据(生产者) 一类负责处理数据(消费者) 2.引入生产者消费者模型为了解决的问题是平衡生产者与消费者之间的速度 ...
ERROR 1709 (HY000): Index column size too large. The maximum column size is 767 bytes.
MySQL版本5.6.35 在一个长度为512字符的字段上创建unique key报错 CREATE DATABASE dpcs_metadata DEFAULT CHARACTER SET utf8 ...
you_are_the_one(区间dp)
You Are the One Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)T ...

利用poi操作word文档

利用poi操作word文档的更多相关文章

随机推荐

热门专题