Java读取word文件,字体,颜色
在Android读取Word文件时,在网上查看时可以用tm-extractors,但好像没有提到怎么读取Word文档中字体的颜色,字体,上下标等相关的属性。但由于需要,要把doc文档中的内容(字体,下划线,颜色等)读取应用到android中(不包括图片和图表)。
后面采用的是poi三方jar包(原包太大,可以从源代码里自己抽取有用的一些代码减少包的大小)。
我的想法是:把doc中的内容解析出来后,加上html对应的标签,在android中通过Html.fromHtml在TextView中进行显示,或者通过WebView.loadData进行加载显示
但测试后,发现如果加载太多内容的话,在Android中效率不行。
效果(该图的效果是在TextView中的效果,在WebView中效果会更好些):
doc图:

android图:

做法1:(解析为span样式的,这种做法只能用WebView方式加载,Html.fromHtml无效)
- /**Span样式
- * 通过字体的样式进行加载
- * @param inputStream
- * @return
- */
- public static String readDocToSpanByRun(InputStream inputStream) {
- HWPFDocument hwpfDocument = null;
- if(inputStream == null)
- throw new RuntimeException("inputStream is null ...");
- try{
- hwpfDocument = new HWPFDocument(inputStream);
- }catch(Exception e) {
- throw new RuntimeException("HWPFDocment Exception", e);
- }
- Range allRange = hwpfDocument.getRange();
- int length = allRange.numCharacterRuns();
- StringBuffer sb = new StringBuffer();
- CharacterRun cur;
- String text = "";
- for (int i = 0; i < length; i++) {
- cur = allRange.getCharacterRun(i);
- sb.append(CharacterRunUtils.toSpanType(cur));
- text = CharacterRunUtils.getSpicalSysbomByRun(cur.text());
- if(cur.getSubSuperScriptIndex() == 1)
- sb.append("<sup>").append(text).append("</sup>");
- else if(cur.getSubSuperScriptIndex() == 2)
- sb.append("<sub>").append(text).append("</sub>");
- else
- sb.append(text);
- sb.append("</span>");
- }
- return sb.toString();
- }
做法2:(解析为font样式的,Html.fromHtml有效,但对应size的设置无效果)
- /**
- * Html样式
- * 通过字体样式解析
- * @param inputStream
- * @return
- */
- public static String readDocToHtml(InputStream inputStream) {
- HWPFDocument hwpfDocument = null;
- if(inputStream == null)
- throw new RuntimeException("inputStream is null ...");
- try{
- hwpfDocument = new HWPFDocument(inputStream);
- }catch(Exception e) {
- throw new RuntimeException("HWPFDocment Exception", e);
- }
- CharacterRun cur = null;
- StringBuffer sb = new StringBuffer();
- StringBuffer charStr = new StringBuffer();
- Range allRange = hwpfDocument.getRange();
- for(int i = 0; i < allRange.numCharacterRuns(); i++) {
- cur = allRange.getCharacterRun(i);
- sb.append(CharacterRunUtils.fontFaceColorSizeToHtml(cur));
- charStr.append(CharacterRunUtils.toSupOrSub(cur, CharacterRunUtils.getSpicalSysbomByRun(cur.text())));
- if(cur.isBold()) {
- charStr.insert(0, "<b>");
- charStr.insert(charStr.length(), "</b>");
- }
- if(cur.getUnderlineCode() != 0) {
- charStr.insert(0, "<u>");
- charStr.insert(charStr.length(), "</u>");
- }
- if(cur.isItalic()) {
- charStr.insert(0, "<i>");
- charStr.insert(charStr.length(), "</i>");
- }
- if(cur.isStrikeThrough()) {
- charStr.insert(0, "<s>");
- charStr.insert(charStr.length(), "</s>");
- }
- sb.append(charStr).append("</font>");
- charStr.setLength(0);
- }
- hwpfDocument = null;
- return sb.toString();
- }
以下是会用到的方法:
- /**
- *处理字体相关的属性
- */
- public class CharacterRunUtils {
- private static final short ENTER_ASCII = 13;
- private static final short SPACE_ASCII = 32;
- private static final short TABULATION_ASCII = 9;
- /**
- * 比对字体是否相同
- * 可以继续加其它属性
- * @param cr1
- * @param cr2
- * @return
- */
- public static boolean compareCharStyleForSpan(CharacterRun cr1,
- CharacterRun cr2) {
- return cr1.isBold() == cr2.isBold()
- && cr1.getFontName().equals(cr2.getFontName())
- && cr1.getFontSize() == cr2.getFontSize()
- && cr1.isItalic() == cr2.isItalic()
- && cr1.getColor() == cr2.getColor()
- && cr1.getUnderlineCode() == cr2.getUnderlineCode()
- && cr1.isStrikeThrough() == cr2.isStrikeThrough()
- && cr1.getColor() == cr2.getColor();
- }
- public static boolean compareCharColor(CharacterRun cr1, CharacterRun cr2) {
- return cr1.getFontName().equals(cr2.getFontName())
- && cr1.getFontSize() == cr2.getFontSize()
- && cr1.getColor() == cr2.getColor();
- }
- public static String getSpicalSysbom(char currentChar) {
- String tempStr = "";
- if (currentChar == ENTER_ASCII) {
- tempStr += "<br/>";
- } else if (currentChar == SPACE_ASCII) {
- tempStr += " ";
- } else if (currentChar == TABULATION_ASCII) {
- tempStr += " ";
- } else {
- tempStr += currentChar;
- }
- return tempStr;
- }
- public static String getSpicalSysbomSpan(char currentChar) {
- String tempStr = "";
- if (currentChar == ENTER_ASCII) {
- tempStr += "<br/>";
- } else if (currentChar == SPACE_ASCII) {
- tempStr += " ";
- } else if (currentChar == TABULATION_ASCII) {
- tempStr += " ";
- }
- return tempStr;
- }
- /**
- * 特殊字符的取代
- * @param currentChar
- * @return
- */
- public static String getSpicalSysbomByRun(String currentChar) {
- StringBuffer tempStr = new StringBuffer();
- int length = currentChar.length();
- for (int i = 0; i < length; i++) {
- tempStr.append(getSpicalSysbom(currentChar.charAt(i)));
- }
- return tempStr.toString();
- }
- /**
- * span方式前缀
- * @param cr
- * @return
- */
- public static String toSpanType(CharacterRun cr) {
- StringBuffer spanStyle = new StringBuffer("<span style='font-family:");
- spanStyle.append(cr.getFontName()).append("; font-size:")
- .append(cr.getFontSize() / 2).append("pt;");
- if (cr.isBold())
- spanStyle.append("font-weight:bold;");
- if (cr.isItalic())
- spanStyle.append("font-style:italic;");
- if (cr.isStrikeThrough())
- spanStyle.append("text-decoration:line-through;");
- if (cr.getUnderlineCode() != 0)
- spanStyle.append("text-decoration:underline;");
- spanStyle.append("color:")
- .append(ColorUtils.getHexColor(cr.getIco24())).append(";")
- .append("'>");
- return spanStyle.toString();
- }
- /**
- * 为font方式提供<font前缀
- * @param cr
- * @return
- */
- public static String fontFaceColorSizeToHtml(CharacterRun cr) {
- StringBuffer htmlType = new StringBuffer("<font ");
- htmlType.append("size='").append(cr.getFontSize() / 2).append("' ")
- .append("face='").append(cr.getFontName()).append("' ")
- .append("color='")
- .append(ColorUtils.getHexColor(cr.getIco24())).append("'>");
- return htmlType.toString();
- }
- /**
- * 处理上下标
- * @param cr
- * @param currentChar
- * @return
- */
- public static String toSupOrSub(CharacterRun cr, String currentChar) {
- int sub = cr.getSubSuperScriptIndex();
- if (sub != 0) {
- if (sub == 1)
- // 上标
- return "<sup>" + currentChar + "</sup>";
- else
- // 下标
- return "<sub>" + currentChar + "</sub>";
- } else
- return currentChar;
- }
- public static String toSupOrSub(CharacterRun cr, char currentChar) {
- return toSupOrSub(cr, new String(new char[]{currentChar}));
- }
- }
用到的颜色的转换(进行简单的颜色转换)
- public class ColorUtils {
- public static int red(int c) {
- return c & 0XFF;
- }
- public static int green(int c) {
- return (c >> 8) & 0XFF;
- }
- public static int blue(int c) {
- return (c >> 16) & 0XFF;
- }
- public static int rgb(int c) {
- return (red(c) << 16) | (green(c) <<8) | blue(c);
- }
- public static String rgbToSix(String rgb) {
- int length = 6 - rgb.length();
- String str = "";
- while(length > 0){
- str += "0";
- length--;
- }
- return str + rgb;
- }
- public static String getHexColor(int color) {
- color = color == -1 ? 0 : color;
- int rgb = rgb(color);
- return "#" + rgbToSix(Integer.toHexString(rgb));
- }
- }
Java读取word文件,字体,颜色的更多相关文章
- java操作office和pdf文件java读取word,excel和pdf文档内容
在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应 ...
- Java POI 读取word文件
Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能. 1.读取word 2003及word 2007需要 ...
- [Java] Java读取Word文档
前言 最近需要做一些NLP 方面的工作,使用的是Java,在此总结一下使用Java读取Word(.doc)格式文件的方法. Apache基金会非常厉害,开源工具包POI就可以处理微软家的文档,甚至包括 ...
- java 读取word
读取word文件 import java.io.File; import java.io.FileInputStream; import java.io.InputStream; import org ...
- java分享第十六天( java读取properties文件的几种方法&java配置文件持久化:static块的作用)
java读取properties文件的几种方法一.项目中经常会需要读取配置文件(properties文件),因此读取方法总结如下: 1.通过java.util.Properties读取Propert ...
- Java读取Excel文件的几种方法
Java读取 Excel 文件的常用开源免费方法有以下几种: 1. JDBC-ODBC Excel Driver 2. jxl.jar 3. jcom.jar 4. poi.jar 简单介绍: 百度文 ...
- Java读取txt文件
package com.loongtao.general.crawler.slave.utils; import java.io.BufferedReader; import java.io.File ...
- java 读取XML文件作为配置文件
首先,贴上自己的实例: XML文件:NewFile.xml(该文件与src目录同级) <?xml version="1.0" encoding="UTF-8&quo ...
- java 读取TXT文件的方法
java读取txt文件内容.可以作如下理解: 首先获得一个文件句柄.File file = new File(); file即为文件句柄.两人之间连通电话网络了.接下来可以开始打电话了. 通过这条线路 ...
随机推荐
- EF里的继承映射关系TPH、TPT和TPC的讲解以及一些具体的例子
本章节讲解EF里的继承映射关系,分为TPH.TPT.TPC.具体: 1.TPH:Table Per Hierarchy 这是EF的默认的继承映射关系:一张表存放基类和子类的所有列,自动生成的discr ...
- Docker实践--部署Nodejs应用
这个例子的目标是为了向大家展示如何在Docker的container里运行Node.js程序.我会先创建一个简单的Node.js web app,来构建一个镜像.然后基于这个Image运行一个cont ...
- .NET WebAPI 实现图片上传(包括附带参数上传图片)
博主的项目,客户端是APP,考虑到以后也可能会应用到微信端.网站等,图片上传方法就需要兼容多端,并且以目前的设计,不允许非登录用户上传图片,就得在上传时解决附带参数上传图片的问题. 先来看看后台方法( ...
- 一次kibana服务失败的排查过程
公司在kubernetes集群上稳定运行数月的kibana服务于昨天下午突然无法正常提供服务,访问kibana地址后提示如下信息: 排查过程: 看到提示后,第一反应肯定是检查elasticsearch ...
- php stdclass转数组
打印输出是这样 object(stdClass)[11] //object public 'xx' => string 'xxxxxx' (length=21)可用函数处理 get_object ...
- css-css权威指南学习笔记6
第八章 padding/border/margin 1.对于只包含文本的行,能改变行间距里的属性只有line-height/font-size/vertical-align. 2.对行内非替换元素应用 ...
- bash的管道符与重定向
管道符"|"可以用来将前面的程序的标准输出stdout(=1)重定向到后一个程序的stdin(=0),但是忽略了stderr. 在bash中使用2>&1 可以表示将s ...
- redis并发问题
redis中的并发问题 使用redis作为缓存已经很久了,redis是以单进程的形式运行的,命令是一个接着一个执行的,一直以为不会存在并发的问题,直到今天看到相关的资料,才恍然大悟~~ 具体问题实例 ...
- TypeScript 素描 - 函数
/* 函数和javaScript并没有太大差别,只是增加了额外的功能,使函数有 更为强大的功能而且更易用使用 */ //现在支持函数的参数指定类型,在前面的博文中大家应该已经看到 //还可以指定函数的 ...
- canvas流星月亮星星银河
这是页面的特效,首先月亮直接出现,然后星星和银河渐渐的出现(一闪一闪),最后流星划过,留下完美的句点. 所有的动画都是通过帧来实现的. 星星的代码分为2部分,首先是随机生成星星,然后是绘制星星,最后是 ...