Java阅读word程序说明文件
完成office文件操作可以帮助apache.poi包(我用poi-3.10-FINAL),导入对应的jar包(最好所有导入)
以下的程序演示了一些操作word的过程,具体的函数功能能够查看此包的官方API
import java.io.*;
import org.apache.poi.POIXMLDocument;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.*;
import org.apache.poi.hwpf.usermodel.Range;
//xwpf专门加强处理Word2007 .docx 格式
import org.apache.poi.xwpf.usermodel.XWPFDocument; public class WordReader { WordExtractor wordExtractor; public static void main(String[] args) {
System.out.println("该word文档(docx格式)总页数例如以下:");
new WordReader().getPageCount("F:\\数据挖掘及其应用论文格式.docx"); System.out.println("\n获取整个word文本内容:");
System.out.println(new WordReader().getTextFromWord("F:\\word2003.doc")); System.out.println("按段获取文本内容:");
System.out.println(new WordReader().getTextByParagraph("F:\\word2003.doc"));
} // 统计word文件总页数(仅docx格式的有效!) doc格式也有对应的方法,可是因为doc本身的问题,导致获取的页数总是错误的。
public void getPageCount(String filePath) {
XWPFDocument docx;
try {
docx = new XWPFDocument(POIXMLDocument.openPackage(filePath));
int pages = docx.getProperties().getExtendedProperties()
.getUnderlyingProperties().getPages();// 总页数
int wordCount = docx.getProperties().getExtendedProperties()
.getUnderlyingProperties().getCharacters();// 忽略空格的总字符数
// 另外还有getCharactersWithSpaces()方法获取带空格的总字数。
System.out.println("Total pages=" + pages +"页; "+ " Total wordCount=" + wordCount);
} catch (IOException e) {
e.printStackTrace();
}
} // 获取word文档中全部文本的方法(仅对doc文件有效)
public String getTextFromWord(String filePath) {
String res = null;
File file = new File(filePath);
try {
FileInputStream fis = new FileInputStream(file);
wordExtractor = new WordExtractor(fis);
// 获取全部文本
res = wordExtractor.getText();
fis.close();
} catch (IOException e) {
e.printStackTrace();
}
return res;
} // 按段获取文本(仅对doc文件有效)
public String getTextByParagraph(String filePath) {
String res = null;
FileInputStream fis;
try {
fis = new FileInputStream(filePath);
wordExtractor = new WordExtractor(fis);
// 获取段文本
String[] strArray = wordExtractor.getParagraphText();
for (int i = 0; i < strArray.length; i++) {
System.out.println("第 " + (i+1)+" 段\n"+strArray[i]);
} // 这个构造函数从InputStream中载入Word文档
HWPFDocument doc = new HWPFDocument(
(InputStream) new FileInputStream(filePath));
// 这个类为HWPF对象模型,对文档范围段操作
Range range = doc.getRange();
int num = range.numParagraphs();
System.out.println("该文档共" + num + "段");//空行也算一段
System.out.println("获取第"+num+"段内容例如以下:\n"+range.getParagraph(num-1).text());
fis.close(); } catch (IOException e) {
e.printStackTrace();
}
return res;
}
}
版权声明:本文博客原创文章,博客,未经同意,不得转载。
Java阅读word程序说明文件的更多相关文章
- 利用aspose-words 实现 java中word转pdf文件
利用aspose-words 实现 java中word转pdf文件 首先下载aspose-words-15.8.0-jdk16.jar包 引入jar包,编写Java代码 package test; ...
- 实现在线阅读WORD,PDF等文件,JAVA,PHP都可以
1 <?php 2 //header("Content-type:text/html;charset=utf-8"); 3 //word转html 展示 4 $lj=$_GE ...
- java 调用本地应用程序 Java打开(.word,.txt,.pdf)文件
https://blog.csdn.net/lebron3v/article/details/80741000
- java实现word转pdf文件(高效不失真)
import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import org.aspectj ...
- [Java] Java读取Word文档
前言 最近需要做一些NLP 方面的工作,使用的是Java,在此总结一下使用Java读取Word(.doc)格式文件的方法. Apache基金会非常厉害,开源工具包POI就可以处理微软家的文档,甚至包括 ...
- java操作office和pdf文件java读取word,excel和pdf文档内容
在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应 ...
- java使用poi读取ppt文件和poi读取excel、word示例
java使用poi读取ppt文件和poi读取excel.word示例 http://www.jb51.net/article/48092.htm
- java导出word文件
java导出word文件 test5.ftl文件生存方法, 第一步:用word新建test5.doc,填写完整模板,将需导出数据用${}代替 第二步:将test5.doc另存为test5.xml 第三 ...
- JAVA 基础编程练习题50 【程序 50 文件 IO】
50 [程序 50 文件 IO] 题目:有五个学生,每个学生有 3 门课的成绩,从键盘输入以上数据(包括学生号,姓名,三门课成绩), 计算出平均成绩,将原有的数据和计算出的平均分数存放在磁盘文件&qu ...
随机推荐
- 【转】Android内存机制分析1——了解Android堆和栈
昨天用Gallery做了一个图片浏览选择开机画面的功能,当我加载的图片多了就出现OOM问题.以前也出现过这个问题,那时候并没有深究.这次打算好好分析一下Android的内存机制. 因为我以前是做VC+ ...
- 【剑指offer】打印1到最大的n数字
转载请注明出处:http://blog.csdn.net/ns_code/article/details/25562105 剑指offer第12题.九度OJ測试通过. 题目描写叙述: 给定一个数字N, ...
- 定向爬虫之爬一爬各个学校新闻的认识(【1】对Url的认识)
昨天早上,我习惯性的打开博客园,看一看别人的写的博客.突然想起,自己好像没有写过什么博客,所以就心血来潮,把我现在做得事情写出来, 这也是对我目前的学习的一种总结.望大神指点.... 对于一间学校的新 ...
- Java多播通讯框架 JGroups(转)
JGroups是一个可靠的群组通讯Java工具包.它基于IP组播(IP multicast),但在可靠性,组成员管理上对它作了扩展. JGroups的可靠性体现在: 1,对所有接收者的消息的无丢失传输 ...
- Cocos2d-X中实现批处理精灵
使用普通方法实现批处理精灵 在Sprite.h中加入以下的代码 #ifndef __Sprite_SCENE_H__ #define __Sprite_SCENE_H__ #include " ...
- 使用cocoapods install友盟时报错Error installing UMengAnalytics
报错: [!] /usr/bin/unzip /Users/soindy/Documents/SmartThermo/ios/SmartThermo/Pods/UMengAnalytics/file. ...
- android可扩展自己的定义,运动图像裁剪框
在实际项目中,常常要制作一个简易的图像裁剪功能,即获取一张图片.并用一个遮罩层选择目标范围并截取保存的功能.例如以下图所看到的: 在此分享下该自己定义视图的制作过程. 需求说明 整一个视图包括一个透明 ...
- 【玩转微信公众平台六】 构建新浪SAEserver
连接急于继续发言. ------本文主要介绍介绍如何设置 新浪SAEserver.猛戳 http://sae.sina.com.cn/1.先自己注冊一个账号,假设有新浪的账号,微博之类的都能够直接拿来 ...
- 学习笔记 broswerify + watchify + beefy
broswerify “Browserify lets you require('modules') in the browser by bundling up all of your depende ...
- springMvc的注解注入方式
springMvc的注解注入方式 最近在看springMvc的源码,看到了该框架的注入注解的部分觉的有点吃力,可能还是对注解的方面的知识还认识的不够深刻,所以特意去学习注解方面的知识.由于本人也是抱着 ...