word和.txt文件转html 及pdf文件，使用poi jsoup itext心得

                         word和.txt文件转html 及pdf文件， 使用poi jsoup  itext心得
本人第一次写博客，有上面不足的或者需要改正的希望大家指出来，一起学习交流讨论。
由于在项目中遇到了这一个问题，在网上也找了很多方法，感觉千篇一律，总有一些问题，因此总结出word转html和pdf文件使用方法。
虽然poi功能不是很强大，但毕竟不依靠本地office软件，同样还有一种方式使用jacob也可以将word转html，不过这个方式要依靠本地office，而且只能在windows平台下，不支持unix系统。
jacob使用起来还是比较简单的，如果大家需要jacob的使用方法，我会分享给大家。
关于.txt文件转html，就是使用io操作将.txt文件读取出来然后写入到html中，也不需要额外的jar包。

注意：使用poi需要注意以下几项，由于我在做这个功能的时候没有注意这个问题的存在，一直找不出原因，还请有关大牛门指正一下为什么？

    1.使用office的文档.doc和.docx格式的都没有问题，但使用wps生成的word文档时，只能转.doc格式的文件，对.docx的文档转出后没有图片，得不到img属性。
    2.在使用word文档转pdf格式的文件时，生成的pdf没有中文，对中文显示不是很支持。
    3.在将word转成pdf时，需要把生成的html文件转化成标准的html文件，不然解析后会出现<meta>或者<img>标签不闭合的情况。
    4.使用的jar包如下，都可以在maven中央仓库下载得到。

下面就直接附上代码了，希望大家有什么问题在下面评论互相交流和学习，
使用时直接调用方法即可。如果大家觉得可以请点一个赞，谢谢大家。
package com.kqco.tools;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.converter.PicturesManager;

import org.apache.poi.hwpf.converter.WordToHtmlConverter;

import org.apache.poi.hwpf.usermodel.PictureType;

import org.apache.poi.xwpf.converter.core.BasicURIResolver;

import org.apache.poi.xwpf.converter.core.FileImageExtractor;

import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter;

import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions;

import org.apache.poi.xwpf.usermodel.XWPFDocument;

import org.jsoup.Jsoup;

import org.w3c.dom.Document;

import org.w3c.tidy.Tidy;

import org.xhtmlrenderer.pdf.ITextFontResolver;

import org.xhtmlrenderer.pdf.ITextRenderer;

import com.lowagie.text.pdf.BaseFont;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.transform.OutputKeys;

import javax.xml.transform.Transformer;

import javax.xml.transform.TransformerFactory;

import javax.xml.transform.dom.DOMSource;

import javax.xml.transform.stream.StreamResult;

import java.io.BufferedInputStream;

import java.io.BufferedOutputStream;

import java.io.BufferedReader;

import java.io.BufferedWriter;

import java.io.ByteArrayInputStream;

import java.io.ByteArrayOutputStream;

import java.io.DataOutputStream;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.io.OutputStream;

import java.io.OutputStreamWriter;

import java.io.PrintWriter;

import java.nio.file.Path;

import java.nio.file.Paths;

public class FileConverter {

	/*

	 * word文件转成html文件

	 * sourceFilePath:源word文件路径

	 * targetFilePosition:转化后生成的html文件路径

	 */

	public void wordToHtml(String sourceFilePath, String targetFilePosition) throws Exception {

		if (".docx".equals(sourceFilePath.substring(sourceFilePath.lastIndexOf(".", sourceFilePath.length())))) {

			docxToHtml(sourceFilePath, targetFilePosition);

		} else if (".doc".equals(sourceFilePath.substring(sourceFilePath.lastIndexOf(".", sourceFilePath.length())))) {

			docToHtml(sourceFilePath, targetFilePosition);

		} else {

			throw new RuntimeException("文件格式不正确");

		}

	}

	/*

	 * doc转换为html

	 * sourceFilePath:源word文件路径

	 * targetFilePosition:生成的html文件路径

	 */

	private void docToHtml(String sourceFilePath, String targetFilePosition) throws Exception {

		final Path imagePath = Paths.get(targetFilePosition).getParent().resolve("image");

		HWPFDocument wordDocument = new HWPFDocument(new FileInputStream(sourceFilePath));

		Document document = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();

		WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(document);

		// 保存图片，并返回图片的相对路径

		wordToHtmlConverter.setPicturesManager(new PicturesManager() {

			@Override

			public String savePicture(byte[] content, PictureType pictureType, String name, float width, float height) {

				try (FileOutputStream out = new FileOutputStream(imagePath.resolve(name).toString())) {

					out.write(content);

				} catch (Exception e) {

					e.printStackTrace();

				}

				return "../tmp/image/" + name;

			}

		});

		wordToHtmlConverter.processDocument(wordDocument);

		Document htmlDocument = wordToHtmlConverter.getDocument();

		DOMSource domSource = new DOMSource(htmlDocument);

		StreamResult streamResult = new StreamResult(new File(targetFilePosition));

		TransformerFactory tf = TransformerFactory.newInstance();

		Transformer serializer = tf.newTransformer();

		serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");

		serializer.setOutputProperty(OutputKeys.INDENT, "yes");

		serializer.setOutputProperty(OutputKeys.METHOD, "html");

		serializer.transform(domSource, streamResult);

	}

	/*

	 * docx转换为html

	 * sourceFilePath:源word文件路径

	 * targetFileName:生成的html文件路径

	 */

	private void docxToHtml(String sourceFilePath, String targetFileName) throws Exception {

		String imagePathStr = Paths.get(targetFileName).getParent().resolve("../tmp/image/word/media").toString();

		OutputStreamWriter outputStreamWriter = null;

		try {

			XWPFDocument document = new XWPFDocument(new FileInputStream(sourceFilePath));

			XHTMLOptions options = XHTMLOptions.create();

			// 存放图片的文件夹

			options.setExtractor(new FileImageExtractor(new File(imagePathStr)));

			// html中图片的路径

			options.URIResolver(new BasicURIResolver("../tmp/image/word/media"));

			outputStreamWriter = new OutputStreamWriter(new FileOutputStream(targetFileName), "UTF-8");

			XHTMLConverter xhtmlConverter = (XHTMLConverter) XHTMLConverter.getInstance();

			xhtmlConverter.convert(document, outputStreamWriter, options);

		} finally {

			if (outputStreamWriter != null) {

				outputStreamWriter.close();

			}

		}

	}

	/*

	 * txt文档转html

	   filePath:txt原文件路径

	   htmlPosition:转化后生成的html路径

	*/

	public void txtToHtml(String filePath, String htmlPosition) {

		try {

			String encoding = "GBK";

			File file = new File(filePath);

			if (file.isFile() && file.exists()) { // 判断文件是否存在

				InputStreamReader read = new InputStreamReader(new FileInputStream(file), encoding);

				// 考虑到编码格式

				BufferedReader bufferedReader = new BufferedReader(read);

				// 写文件

				FileOutputStream fos = new FileOutputStream(new File(htmlPosition));

				OutputStreamWriter osw = new OutputStreamWriter(fos, "UTF-8");

				BufferedWriter bw = new BufferedWriter(osw);

				String lineTxt = null;

				while ((lineTxt = bufferedReader.readLine()) != null) {

					bw.write(lineTxt + "</br>");

				}

				bw.close();

				osw.close();

				fos.close();

				read.close();

			} else {

				System.out.println("找不到指定的文件");

			}

		} catch (Exception e) {

			System.out.println("读取文件内容出错");

			e.printStackTrace();

		}

	}

	/*

	移动图片到指定路径

	sourceFilePath:原始路径

	targetFilePosition:移动后存放的路径

	*/

	 public  void changeImageUrl(String sourceFilePath,String targetFilePosition) throws IOException {

	        FileInputStream fis = new FileInputStream(sourceFilePath);

	        BufferedInputStream bufis = new BufferedInputStream(fis);

	        FileOutputStream fos = new FileOutputStream(targetFilePosition);

	        BufferedOutputStream bufos = new BufferedOutputStream(fos);

	        int len = 0;

	        while ((len = bufis.read()) != -1) {

	            bufos.write(len);

	        }

	        bufis.close();

	        bufos.close();

	    }

	/*

	 * html文件解析成xhtml，变成标准的html文件

	 * f_in:源html文件路径

	 * outfile: 输出后xhtml的文件路径

	 */

	private boolean parseToXhtml(String f_in, String outfile) {

		boolean bo = false;

		ByteArrayOutputStream tidyOutStream = null; // 输出流

		FileInputStream fis = null;

		ByteArrayOutputStream bos = null;

		ByteArrayInputStream stream = null;

		DataOutputStream to = null;

		try {

			// Reader reader;

			fis = new FileInputStream(f_in);

			bos = new ByteArrayOutputStream();

			int ch;

			while ((ch = fis.read()) != -1) {

				bos.write(ch);

			}

			byte[] bs = bos.toByteArray();

			bos.close();

			String hope_gb2312 = new String(bs, "gb2312");// 注意，默认是GB2312，所以这里先转化成GB2312然后再转化成其他的。

			byte[] hope_b = hope_gb2312.getBytes();

			String basil = new String(hope_b, "gb2312");// 将GB2312转化成 UTF-8

			stream = new ByteArrayInputStream(basil.getBytes());

			tidyOutStream = new ByteArrayOutputStream();

			Tidy tidy = new Tidy();

			tidy.setInputEncoding("gb2312");

			tidy.setQuiet(true);

			tidy.setOutputEncoding("UTF-8");

			tidy.setShowWarnings(true); // 不显示警告信息

			tidy.setIndentContent(true);//

			tidy.setSmartIndent(true);

			tidy.setIndentAttributes(false);

			tidy.setWraplen(1024); // 多长换行

			// 输出为xhtml

			tidy.setXHTML(true);

			tidy.setErrout(new PrintWriter(System.out));

			tidy.parse(stream, tidyOutStream);

			to = new DataOutputStream(new FileOutputStream(outfile));// 将生成的xhtml写入

			tidyOutStream.writeTo(to);

			bo = true;

		} catch (Exception ex) {

			System.out.println(ex.toString());

			ex.printStackTrace();

			return bo;

		} finally {

			try {

				if (to != null) {

					to.close();

				}

				if (stream != null) {

					stream.close();

				}

				if (fis != null) {

					fis.close();

				}

				if (bos != null) {

					bos.close();

				}

				if (tidyOutStream != null) {

					tidyOutStream.close();

				}

			} catch (IOException e) {

				e.printStackTrace();

			}

			System.gc();

		}

		return bo;

	}

	/*

	 * xhtml文件转pdf文件

	 * inputFile:xhtml源文件路径

	 * outputFile:输出的pdf文件路径

	 * imagePath:图片的存放路径   例如(file:/D:/test)

	 */

	private boolean convertHtmlToPdf(String inputFile, String outputFile) throws Exception {

		OutputStream os = new FileOutputStream(outputFile);

		ITextRenderer renderer = new ITextRenderer();

		String url = new File(inputFile).toURI().toURL().toString();

		renderer.setDocument(url);

		// 解决中文支持问题

		ITextFontResolver fontResolver = renderer.getFontResolver();

		fontResolver.addFont("C:/Windows/Fonts/simsun.ttc", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);

		// 解决图片的相对路径问题

		renderer.getSharedContext().setBaseURL("imagePath");

		renderer.layout();

		renderer.createPDF(os);

		os.flush();

		os.close();

		return true;

	}

	/*

	 * xhtml转成标准html文件

	 * targetHtml:要处理的html文件路径

	 */

	private static void standardHTML(String targetHtml) throws IOException {

		File f = new File(targetHtml);

		org.jsoup.nodes.Document doc = Jsoup.parse(f, "UTF-8");

		doc.select("meta").removeAttr("name");

		doc.select("meta").attr("content", "text/html; charset=UTF-8");

		doc.select("meta").attr("http-equiv", "Content-Type");

		doc.select("meta").html("&nbsp");

		doc.select("img").html("&nbsp");

		doc.select("style").attr("mce_bogus", "1");

		doc.select("body").attr("font-family", "SimSun");

		doc.select("html").before("<?xml version='1.0' encoding='UTF-8'>");

		/*

		 * Jsoup只是解析，不能保存修改，所以要在这里保存修改。

		 */

		FileOutputStream fos = new FileOutputStream(f, false);

		OutputStreamWriter osw = new OutputStreamWriter(fos, "UTF-8");

		osw.write(doc.html());

		System.out.println(doc.html());

		osw.close();

	}

}

word和.txt文件转html 及pdf文件，使用poi jsoup itext心得的更多相关文章

PDF文件怎么修改，PDF文件编辑方法
PDF文件是一种独特的文件,在日常办公中已经成为我们使用最广泛的电子文档格式.在使用PDF文件中会遇到PDF文件有错区的时候,再从新制作一个PDF文件会比较麻烦,只能通过工具来对PDF文件进行修改,这 ...
轻松将CAD文件转为加密的PDF文件
对于从事设计相关工作的朋友来说,CAD肯定再熟悉不过了.一些有特殊要求的CAD文件,需要将其转换成为PDF文件以方便保存.传输.打印,同时还得保证设计图稿的安全性,所以将CAD文件直接转为加密的PDF ...
C#将制定文件夹下的PDF文件合并成一个并输出至指定路径
/// <summary> /// 将源路径下的PDF合并至目标路径下 /// </summary> /// <param name="SourcePath&q ...
【文件】java生成PDF文件
package test; import java.awt.Color; import java.io.FileOutputStream; import org.junit.Test; import ...
递归找到多级文件夹中所有pdf文件的py程序
因个人需要,写了一个可以递归找到多级文件夹中所有pdf的小程序,发布出来供有需要的人参考或使用. import os import re import shutil from os.path impo ...
利用pdfJS实现以读取文件流方式在线展示pdf文件
第一步:下载源码https://github.com/mozilla/pdf.js 第二步:构建PDF.js 第三步:修改viewer.js var DEFAULT_URL = 'compressed ...
批量转换word文档到pdf文件
最近在整理每周的工作记录.因为每周的工作记录大都是单独的word文件,有时候忘记了也不容易找出来,一个个打开查找太费劲,因此想着把这些文件通过word2016的另存为功能转换为pdf,然后永Acrob ...
C# 将多个office文件转换及合并为一个PDF文件
PDF文件介绍 PDF(Portable Document Format )文件源于20世纪90年代初期,如今早已成为了一种最流行的的文件格式之一.因为PDF文件有很多优点: 支持跨平台和跨设备共享 ...
Pdf File Writer 中文应用（PDF文件编写器C＃类库）
该文由小居工作室(QQ:2482052910) 翻译并提供解答支持,原文地址:Pdf File Writer 中文应用(PDF文件编写器C#类库):http://www.cnblogs.com/ ...

随机推荐

关于BSTR和SysStringLen方法的简单研究
英文的我编不下去了,所以还是先写个中文的吧, 之前遇到了SysStringLen求Bstr长度不正确的问题,试验了几次都不行的情况下我觉得可能是这个方法的bug,所以就没管. 大概的情况是这样: in ...
MySQL开发总结(有点长..耐心看)
一.理解MySQL基本概念 1.MySQL软件:MySQL实际上就是一软件,是一工具,是关系型数据库管理系统软件 2.MySQL数据库:就是按照数据结构来组织.存储和管理数据的仓库 3.MySQL数据 ...
LNMP源码编译安装
思路:根据Linux系统以及公司网站系统的信息,选择合适的安装包进行安装一.查看系统信息 # uname -a # 查看内核/操作系统/CPU信息 # ...
【python的基本数据类型及进制扫盲】
一.进制 1.进制简介进制就是进位制,是人们规定的一种进位方法.计算机底层的数据运算和存储都是二进制数据.计算机语言就是二进制,计算机能直接识别二进制数据,其它数据都不能直接识别. 2.常用进制对 ...
OpenStack Newton版本Ceph集成部署记录
2017年2月,OpenStack Ocata版本正式release,就此记录上一版本 Newton 结合Ceph Jewel版的部署实践.宿主机操作系统为CentOS 7.2 . 初级版: 192. ...
基于Spring的Appium配置应用
本文主要是讲述,使用Spring框架,优化Appium的Driver调用,并将写在代码里的大量配置参数定义到配置文件当中,还可灵活的控制调用AndroidDriver还是IOSDriver. Spri ...
使用DBCP连接池对连接进行管理
//需要引用的jar包有4个,分别是commons-pool2-2.4.2.jar.commons-dbcp2-2.1.1.jar.mysql-connector-java-5.1.42-bin.ja ...
006开源O/R映射框架内容回顾
Hibernate是一个O/R映射框架(也称为ORM) 从ORM词来看,O---Object(对象模型):R--- Relational(关联模型),可以做对象和关联的一种映射,当然这只是部分功能,一 ...
2.solr学习速成之安装
1.下载解压solr-5.3.1.tgz [root@205 opt]# tar -zxf solr-5.3.1.tgz -C /opt/module/ 2.将solr-5.3.1/server/so ...
浅析Web缓存
在前端开发中,性能一直都是被大家所重视的一点,然而判断一个网站的性能最直观的就是看网页打开的速度.其中提高网页反应速度的一个方式就是使用缓存.一个优秀的缓存策略可以缩短网页请求资源的距离,减少延迟,并 ...

word和.txt文件转html 及pdf文件， 使用poi jsoup itext心得

word和.txt文件转html 及pdf文件， 使用poi jsoup itext心得的更多相关文章

随机推荐

热门专题

word和.txt文件转html 及pdf文件，使用poi jsoup itext心得

word和.txt文件转html 及pdf文件，使用poi jsoup itext心得的更多相关文章