前言：

在工作当中，遇到了需要把HTML页面转化为PDF文档，有很多中实现，如下进行一个对比，大家个借鉴去进行使用

各实现对比表

于Windows平台进行测试：

此博客仅基于IText和基于WKHtmlToPdf来介绍并使用，均为博主亲测

其他两个可自行研究哈

1、基于IText（推荐）

iText 是业界使用最为广泛的创建 PDF 的框架，从 iText 5 升级到 iText 7 后，功能模块的划分更加清晰，两者在使用上，有较为明显的区别。

此处就不进行区别的赘述了，直接上代码，本次使用的是iText7

1.1、引入依赖

注意两个依赖的版本对应，进入html2pdf的pom文件就能看到itext的版本，font-asian的版本最低也要是html2pdf中itext7的版本。

<!-- itext7html转pdf  -->

<dependency>

    <groupId>com.itextpdf</groupId>

    <artifactId>html2pdf</artifactId>

    <version>3.0.2</version>

</dependency>

<!-- 中文字体支持 -->

<dependency>

    <groupId>com.itextpdf</groupId>

    <artifactId>font-asian</artifactId>

    <version>7.1.13</version>

</dependency>

1.2、水印和页码

导出pdf一般是需要水印和页码的，我们只要实现com.itextpdf.kernel.events.IEventHandler接口就可以了

水印

水印代码

/**

 * 水印

 */

public class WaterMarkEventHandler implements IEventHandler {

    /**

     * 水印内容

     */

    private String waterMarkContent;

    /**

     * 一页中有几列水印

     */

    private int waterMarkX;

    /**

     * 一页中每列有多少水印

     */

    private int waterMarkY;

    public WaterMarkEventHandler(String waterMarkContent) {

        this(waterMarkContent, 5, 5);

    }

    public WaterMarkEventHandler(String waterMarkContent, int waterMarkX, int waterMarkY) {

        this.waterMarkContent = waterMarkContent;

        this.waterMarkX = waterMarkX;

        this.waterMarkY = waterMarkY;

    }

    @Override

    public void handleEvent(Event event) {

        PdfDocumentEvent documentEvent = (PdfDocumentEvent) event;

        PdfDocument document = documentEvent.getDocument();

        PdfPage page = documentEvent.getPage();

        Rectangle pageSize = page.getPageSize();

        PdfFont pdfFont = null;

        try {

            pdfFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);

        } catch (IOException e) {

            e.printStackTrace();

        }

        PdfCanvas pdfCanvas = new PdfCanvas(page.newContentStreamAfter(), page.getResources(), document);

        Paragraph waterMark = new Paragraph(waterMarkContent).setOpacity(0.5f);

        Canvas canvas = new Canvas(pdfCanvas, pageSize)

            .setFontColor(WebColors.getRGBColor("lightgray"))

            .setFontSize(16)

            .setFont(pdfFont);

        for (int i = 0; i < waterMarkX; i++) {

            for (int j = 0; j < waterMarkY; j++) {

                canvas.showTextAligned(waterMark, (150 + i * 300), (160 + j * 150), document.getNumberOfPages(), TextAlignment.CENTER, VerticalAlignment.BOTTOM, 120);

            }

        }

        canvas.close();

    }

}

页码

页码代码

/**

 * 页码

 */

public class PageEventHandler implements IEventHandler {

    @Override

    public void handleEvent(Event event) {

        PdfDocumentEvent documentEvent = (PdfDocumentEvent) event;

        PdfDocument document = documentEvent.getDocument();

        PdfPage page = documentEvent.getPage();

        Rectangle pageSize = page.getPageSize();

        PdfFont pdfFont = null;

        try {

            pdfFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);

        } catch (IOException e) {

            e.printStackTrace();

        }

        PdfCanvas pdfCanvas = new PdfCanvas(page.getLastContentStream(), page.getResources(), document);

        Canvas canvas = new Canvas(pdfCanvas, pageSize);

        float  x = (pageSize.getLeft() + pageSize.getRight()) / 2;

        float  y = pageSize.getBottom() + 15;

        Paragraph paragraph = new Paragraph("第" + document.getPageNumber(page) + "页/共" + document.getNumberOfPages() + "页")

            .setFontSize(10)

            .setFont(pdfFont);

        canvas.showTextAligned(paragraph, x, y, TextAlignment.CENTER);

        canvas.close();

    }

}

1.3、转换工具类

转换工具类

/**

 * Itext7转换工具类

 */

@Slf4j

public class HtmlToPdfUtils {

    /**

     * html转pdf

     *

     * @param inputStream  输入流

     * @param waterMark    水印

     * @param fontPath     字体路径，ttc后缀的字体需要添加<b>,0<b/>

     * @param outputStream 输出流

     * @date : 2021/1/15 14:07

     */

    public static void convertToPdf(InputStream inputStream, String waterMark, String fontPath, OutputStream outputStream) throws IOException {

        PdfWriter pdfWriter = new PdfWriter(outputStream);

        PdfDocument pdfDocument = new PdfDocument(pdfWriter);

        //设置为A4大小

        pdfDocument.setDefaultPageSize(PageSize.A4);

        //添加水印

        pdfDocument.addEventHandler(PdfDocumentEvent.END_PAGE, new WaterMarkEventHandler(waterMark));

        //添加中文字体支持

        ConverterProperties properties = new ConverterProperties();

        FontProvider fontProvider = new FontProvider();

        //        设置字体

        /*PdfFont sysFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);

        fontProvider.addFont(sysFont.getFontProgram(), "UniGB-UCS2-H");*/

        //添加自定义字体，例如微软雅黑

        if (StringUtils.isNotBlank(fontPath)) {

            PdfFont microsoft = PdfFontFactory.createFont(fontPath, PdfEncodings.IDENTITY_H, false);

            fontProvider.addFont(microsoft.getFontProgram(), PdfEncodings.IDENTITY_H);

        }

        properties.setFontProvider(fontProvider);

        //        读取Html文件流，查找出当中的&nbsp;或出现类似的符号空格字符

        inputStream = readInputStrem(inputStream);

        if (inputStream != null) {

            //        生成pdf文档

            HtmlConverter.convertToPdf(inputStream, pdfDocument, properties);

            pdfWriter.close();

            pdfDocument.close();

            return;

        } else {

            log.error("转换失败！");

        }

    }

    /**

     * 读取HTML 流文件，并查询当中的&nbsp;或类似符号直接替换为空格

     *

     * @param inputStream

     * @return

     */

    private static InputStream readInputStrem(InputStream inputStream) {

        // 定义一些特殊字符的正则表达式 如：

        String regEx_special = "\\&[a-zA-Z]{1,10};";

        try {

            //<1>创建字节数组输出流，用来输出读取到的内容

            ByteArrayOutputStream baos = new ByteArrayOutputStream();

            //<2>创建缓存大小

            byte[] buffer = new byte[1024]; // 1KB

            //每次读取到内容的长度

            int len = -1;

            //<3>开始读取输入流中的内容

            while ((len = inputStream.read(buffer)) != -1) { //当等于-1说明没有数据可以读取了

                baos.write(buffer, 0, len);   //把读取到的内容写到输出流中

            }

            //<4> 把字节数组转换为字符串

            String content = baos.toString();

            //<5>关闭输入流和输出流

            //            inputStream.close();

            baos.close();

            //            log.info("读取的内容：{}", content);

            //            判断HTML内容是否具有HTML的特殊字符标记

            Pattern compile = Pattern.compile(regEx_special, Pattern.CASE_INSENSITIVE);

            Matcher matcher = compile.matcher(content);

            String replaceAll = matcher.replaceAll("");

            //            log.info("替换后的内容：{}", replaceAll);

            //            将字符串转化为输入流返回

            InputStream stringStream = getStringStream(replaceAll);

            //<6>返回结果

            return stringStream;

        } catch (Exception e) {

            e.printStackTrace();

            log.error("错误信息：{}", e.getMessage());

            return null;

        }

    }

    /**

     * 将一个字符串转化为输入流

     * @param sInputString 字符串

     * @return

     */

    public static InputStream getStringStream(String sInputString) {

        if (sInputString != null && !sInputString.trim().equals("")) {

            try {

                ByteArrayInputStream tInputStringStream = new ByteArrayInputStream(sInputString.getBytes());

                return tInputStringStream;

            } catch (Exception e) {

                e.printStackTrace();

            }

        }

        return null;

    }

}

1.4、测试类

测试代码

@Slf4j

public class Test {

    public static void main(String[] args) throws IOException {

        long startTime = System.currentTimeMillis();

        //       html文件所在相对路径

        String htmlFile = "src/main/resources/html/index2.html";

        //       pdf文件存储相对路径

        String pdfFile = "src/main/resources/x6.pdf";

        //        自定义水印

        String waterMarkText =  "";

        InputStream inputStream = new FileInputStream(htmlFile);

        OutputStream outputStream = new FileOutputStream(pdfFile);

        //微软雅黑在windows系统里的位置如下，linux系统直接拷贝该文件放在linux目录下即可

        //        String fontPath = "src/main/resources/font/STHeiti Light.ttc,0";

        String fontPath = "src/main/resources/font/simsun.ttc,0";

        HtmlToPdfUtils.convertToPdf(inputStream, waterMarkText, fontPath, outputStream);

        log.info("转换结束，耗时：{}ms",System.currentTimeMillis()-startTime);

    }

}

1.5、注意事项

页面中不能出现html的特殊字符标记，如 等（代码中已经处理，所有都替换为空）可忽略
页面中的图片路径，必须是在项目根路径后面的所有地址（相对路径）例如：
页面中的标签要符合规范，必须都具有结束标签等

展示：

HTML

PDF

2、基于WKHtmlToPdf

wkhtmltopdf是一个用webkit网页渲染引擎开发的用来将html转成 pdf的工具，可跟多种脚本语言进行集成来转换文档，有windows、linux等平台版本。

Wkhtmltopdf可直接把浏览器中浏览的网页转换成一个pdf，他是一个把html页面转换成pdf的软件（需要安装在服务器上）。使用时可通过java代码调用cmd指令完成网页转换为pdf的功能。

下载wkhtmltopdf官网地址：https://wkhtmltopdf.org/downloads.html

蓝奏云地址：https://aerfazhe.lanzouw.com/b01pc4uib
密码：h01i

2.1、安装

2.1.1、Windows

功能测试：

在安装目录 bin 执行如下命令生成 PDF

wkhtmltopdf.exe https://www.baidu.com/ C:\Users\wk\Desktop\1\1.pdf

效果图：

为了方便使用：可自行配置全局环境变量哈

注意事项：

如果是转换本地HTML页面，可能会出现图片禁止访问类型的错误，可加上以下命令进行转换，这是因为wkhtmltopdf升级版本之后默认禁止了访问

# 允许访问

--enable-local-file-access

整合后命令：

wkhtmltopdf.exe --enable-local-file-access D:\1.html C:\Users\wk\Desktop\1\1.pdf

2.1.2、Linux

安装

#  -ivh 安装

rpm -ivh wkhtmltox-0.12.6-1.centos7.x86_64.rpm

配置环境变量

vim /etc/profile

在最后一行加 export PATH=$DIR/wkhtmltox/bin:$PATH 保存退出、

# 刷新环境

source /etc/profile

功能测试

运行 wkhtmltopdf

报：以下错误

报wkhtmltopdf: error while loading shared libraries: libXrender.so.1: cannot open shared object file: No such file or directory这个错，请运行 apt-get/yum install libXrender*

运行 wkhtmltopdf 报wkhtmltopdf: error while loading shared libraries: libfontconfig.so.1: cannot open shared object file: No such file or directory这个错，请运行apt-get/yum install libfontconfig*

运行 wkhtmltopdf 报wkhtmltopdf: error while loading shared libraries: libXext.so.6: cannot open shared object file: No such file or directory这个错，请运行 apt-get/yum install libXext*

总的来说就是缺少依赖,下载安装依赖

yum install xorg-x11-fonts-75dpi.noarch -g

yum install xorg-x11-fonts-Type1.noarch -g

yum install icu.x86_64 -g

yum install libjpeg -g

yum install libpng -g

优点：

支持中文、图片、CSS等

缺点：

有时对于html文件的转化可能比较慢，对于url的转化速度较快。存在失真情况

2.2、代码实现

2.2.1、wkhtmltopdf工具安装bin地址

wkhtmltopdf工具安装bin地址

public class Consts {

    /**

     * 0.12.6版本默认禁用本地文件访问（图片等）

     * cmd 命令 加上以下命令参数即可

     * 表示启动本地文件访问

     */

    private final static String PARAMETER = "--enable-local-file-access";

    /**

     * 允许本地文件访问

     */

    private final static String ALLOW = "--allow";

    /**

     * wkhtmltopdf在系统中的路径(全路径)

     */

    public final static String CONVERSION_PLUGSTOOL_PATH_WINDOW = "D:/Software/Software-1/JAVA/wkhtmltopdf/bin/wkhtmltopdf.exe "+PARAMETER;

    /**

     * wkhtmltopdf在Linux系统中的路径

     */

    public final static String CONVERSION_PLUGSTOOL_PATH_LINUX = " "+PARAMETER;

}

2.2.2、转换工具类

转换工具类

/**

 * wkhtmltopdf 转换工具类

 */

@Slf4j

public class HtmlToPdfUtil {

    /**

     * wkhtmltopdf在系统中的路径

     */

    private static String toPdfTool = Consts.CONVERSION_PLUGSTOOL_PATH_WINDOW;

    /**

     * html转pdf

     *

     * @param srcPath  html路径，可以是硬盘上的路径，也可以是网络路径

     * @param destPath pdf保存路径

     * @return 转换成功返回true

     */

    public static boolean convert(String srcPath, String destPath) {

        log.info("convert.req srcPath={} ,destPath={}",srcPath,destPath);

        File file = new File(destPath);

        File parent = file.getParentFile();

        // 如果pdf保存路径不存在，则创建路径

        if (!parent.exists()) {

            parent.mkdirs();

        }

        StringBuilder cmd = new StringBuilder();

        String property = System.getProperty("os.name");

        log.info("当前运行系统：{}",property);

        if (property.indexOf("Windows") == -1) {

            // 非windows 系统

            toPdfTool = Consts.CONVERSION_PLUGSTOOL_PATH_LINUX;

        }

        cmd.append(toPdfTool);

        cmd.append(" ");

        cmd.append(" \"");

        cmd.append(srcPath);

        cmd.append("\" ");

        cmd.append(" ");

        cmd.append(destPath);

        System.out.println(cmd.toString());

        boolean result = true;

        try {

            //            打开系统命令

            Process proc = Runtime.getRuntime().exec(cmd.toString());

            HtmlToPdfInterceptor error = new HtmlToPdfInterceptor(proc.getErrorStream());

            HtmlToPdfInterceptor output = new HtmlToPdfInterceptor(proc.getInputStream());

            error.start();

            output.start();

            proc.waitFor();

        } catch (Exception e) {

            result = false;

            e.printStackTrace();

        }

        return result;

    }

    public static void main(String[] args) {

        long startTime = System.currentTimeMillis();

        log.info("generate pdf start ... ");

        // 源HTML页面地址或路径

        String srcPath = "src/main/resources/html/index2.html";

        // pdf文档存储路径

        String destPath = "src/main/resources/x5.pdf";

        HtmlToPdfUtil.convert(srcPath, destPath);

        log.info("Time-consuming to generate pdf time(ms)={}",System.currentTimeMillis()-startTime);

    }

}

2.2.3、开启线程执行

线程执行类

/**

 * 线程执行

 */

public class HtmlToPdfInterceptor extends Thread {

    private InputStream is;

    protected HtmlToPdfInterceptor(InputStream is){

        this.is = is;

    }

    @Override

    public void run(){

        try{

            InputStreamReader isr = new InputStreamReader(is, StandardCharsets.UTF_8);

            BufferedReader br = new BufferedReader(isr);

            String line ;

            while ((line = br.readLine()) != null) {

                System.out.println(line); //输出内容

            }

        }catch (IOException e){

            e.printStackTrace();

        }

    }

}

3、Spire.Doc系列（扩展）

将文档从一种格式转换为另一种格式是Spire.Doc的主要功能之一。这种转换只不过是加载和保存操作的组合。因此，使用Spire.DOC可以将文档从任何受支持的加载格式转换为任何受支持的保存格式。

注意：spire.doc分为商业版和免费版，免费版只支持转换前3页，本次示例采用免费版演示

3.1、pom.xml引入Maven仓库路径和依赖

Maven仓库路径

<repositories>

    <repository>

        <id>com.e-iceblue</id>

        <url>http://repo.e-iceblue.cn/repository/maven-public/</url>

    </repository>

</repositories>

引入依赖

<!--    免费版，只支持前三页转化 -->

<dependency>

    <groupId>e-iceblue</groupId>

    <artifactId>spire.doc.free</artifactId>

    <version>3.9.0</version>

</dependency>

3.2、转换工具类

spire转换工具类

/**

 * @Author：wk

 * @Create：2022/4/19/18:04

 * @Description：html转换pdf

 * @Version：1.0

 */

public class Html3Pdf {

    public static void main(String[] args) throws IOException {

    }

    /**

     * 免费版，只支持前三页转换

     * @param inputHtml HTML地址

     * @param pdfName pdf保存地址

     * @throws IOException

     */

    public void  spireDoc(String inputHtml,String pdfName) throws IOException {

        inputHtml = "src/main/resources/html/index2.html";

        //新建Document对象

        Document doc = new Document();

        //添加section

        Section sec = doc.addSection();

//        将html转化为流字符串

        String htmlText = readTextFromFile(inputHtml);

        //添加段落并写入HTML文本

        sec.addParagraph().appendHTML(htmlText);

        pdfName = "src/main/resources/x4.pdf";

        //将文档另存为PDF

        doc.saveToFile(pdfName, FileFormat.PDF);

        doc.dispose();

    }

    /**

     * 将该路径的HTML页面转化为流字符串

     * @param fileName 文件地址

     * @return

     * @throws IOException

     */

    public static String readTextFromFile(String fileName) throws IOException {

        StringBuffer sb = new StringBuffer();

        BufferedReader br = new BufferedReader(new FileReader(fileName));

        String content;

        while ((content = br.readLine()) != null) {

            sb.append(content);

        }

        return sb.toString();

    }

}

至此就完结啦，可自行根据需求进行选择哦，测试效果和上面截图一样，此处就不进行展示啦

Html转换PDF（Java实用版）的更多相关文章

openoffice excel word 转换pdf 支持本地调用和远程调用
OpenOffice.org 是一套跨平台的办公室软件套件,能在Windows.Linux.MacOS X (X11)和 Solaris 等操作系统上执行.它与各个主要的办公室软件套件兼容.OpenO ...
文件在线预览doc，docx转换pdf（一）
文件在线预览doc,docx转换pdf(一) 1. 前言文档转换是一个是一块硬骨头,但是也是必不可少的,我们正好做的知识库产品中,也面临着同样的问题,文档转换,精准的全文搜索,知识的转换率,是知识库 ...
【docx4j】docx4j操作docx，实现替换内容、转换pdf、html等操作
主要是想要用此功插件操作docx,主要的操作就是操作段落等信息,另外,也想实现替换docx的内容,实现根据模板动态生成内容的效果,也想用此插件实现docx转换pdf. word的格式其实可以用xml来 ...
SharePoint 2013 Word 转换PDF服务介绍及示例
前言:在SharePoint使用过程中,经常会发现将文档进行格式转换的需求,之前,看到SharePoint 2013有将PPT转换PDF文档的服务,后来,才发现SharePoint 2010开始,就有 ...
SharePoint Word 转换PDF服务介绍及示例
前言:在SharePoint使用过程中,经常会发现将文档进行格式转换的需求,之前,看到SharePoint 2013有将PPT转换PDF文档的服务,后来,才发现SharePoint 2010开始,就有 ...
python3图片裁剪+转换pdf+压缩
本地大量长图,要发送给别人,所以要对图片进行裁剪+转换pdf+压缩 import zipfile import os from concurrent.futures import ThreadPool ...
Gson把json串转换成java实体对象
Gson把json串转换成java实体对象的方法如下: 1.首先导入Gson的jar包,网上可以下载. java实体对象如下: public class Model { private double ...
将页面内容转换Pdf\Word\Excel格式
项目中用到了将邮件内容转换为Pdf.Word.Excel格式,做为邮件附件发送. 查了一些解决方案,走了一些弯路.以此代码记录下. 转换PDF需要下载NReco.PdfGenerator.dll 以下 ...
mac 环境下 Quantlib 使用Swig 转换到java
一.Mac安装boost方法:http://blog.csdn.net/xujiezhige/article/details/8230493 二.Swig,这里使用sudo install swig ...
json字符串转json对象，json对象转换成java对象
@RequestMapping(value = "updateInvestorApplyAccountNo", method = RequestMethod.POST) @Resp ...

随机推荐

Qt+MySql开发笔记：Qt5.9.3的msvc2017x64版本编译MySql8.0.16版本驱动并Demo连接数据库测试
前言 mysql驱动版本msvc2015x32版本调好, mysql的mingw32版本的驱动上一个版本编译并测试好,有些三方库最低支持vs2017,所以只能使用msvc2017x64,基于Qt5 ...
Python 使用列表一部分（切片）
使用列表的一部分(切片) 处理列表的部分元素切片指定第一个元素的索引和最后一个元素索引加1 列表名[索引:索引+1] 索引加1:列表中第索引个元素 (左包括右不包括) 未指定索引列表名[:] 提 ...
Win Pycharm + Appium + 真机实现APP自动化
前言: 测试的APP:亿通行手机型号:OPPO 系统:安卓10 一.安装Python3.x 1.直接登录Python官网https://www.python.org/,下载最新版本即可 2.安装Py ...
「学习笔记」AC 自动机
「学习笔记」AC 自动机点击查看目录目录「学习笔记」AC 自动机算法问题思路代码例题 Keywords Search 玄武密码单词病毒最短母串文本生成器背单词密码禁忌前 ...
OCR 文字检测（Differentiable Binarization --- DB）
文本检测基于分割的做法(如蓝色箭头所示): 传统的pipeline使用固定的阈值对于分割后的热力图进行二值化处理首先,它们设置了固定的阈值,用于将分割网络生成的概率图转换为二进制图像然后,用一些 ...
ersync 实时同步
ersync 实时同步目录 ersync 实时同步实时同步概述结合sersync+rsync实时同步实战环境准备部署sersync(客户端) 实时同步概述什么是实时同步实时同步是一种只要 ...
2021-03-12：go中，如何确定有没有内存泄露，系统里怎么去监控整体的运行情况，日志是怎么处理的？
2021-03-12:go中,如何确定有没有内存泄露,系统里怎么去监控整体的运行情况,日志是怎么处理的? 福哥答案2021-03-12: runtime/pprof:采集程序(非 Server)的运行 ...
Shiro 授权绕过（CVE-2022-32532）
Shiro 授权绕过 (CVE-2022-32532) 一.产品简介 Apache Shiro是一个强大且易用的Java安全框架,执行身份验证.授权.密码和会话管理. 1.9.1 之前的 Apache ...
AcWing901. 滑雪（python）
题目详情知识点记忆化DP 思路自己的思路(仅参考):一开始想的是找最大值,然后从最大值开始向下滑,但是我们是要求最长路径,不一定是从最高的点滑下去的,也不一定是滑到最低点,而且会存在最大值不止一 ...
GPUImage框架使用
GPUImage框架简介 GPUImage框架是一个基于OpenGL ES 2.0的iOS图像和视频处理框架.它充分利用GPU并行计算能力可以实时处理图像和视频,可以让开发者轻松地实现各种滤镜效果. ...

Html转换PDF（Java实用版）

前言：