itextpdf 解析带中文的html问题

官网连接官网上有很多DEMO，下面就说几个我碰到的问题！

Question:

1. 中文不显示或者是乱码（本打算用Apache pdfbox来实现业务，但是折腾了一个上午也没解决中午乱码问题，就找到itextpdf 替换，如果有人知道怎么解决pdfbox 乱码，请告知，毕竟开源的不要钱！）

2. 页面纸张大小设置

3. 解析带html标签的时候不能解析中文问题

Answer:

1. 对于中文乱码，itextpdf 可以通过读取字体文件解决，STFANGSO.TTF 是我本机上的仿宋的字体文件，通过如下方式获取字体对象。只能读取.TTF格式文件，其他格式的字体文件会报错，这点要注意。然后再每个new Paragraph(arg1,arg2)的时候，arg1是一个要显示的对象，arg2就是你获得的中文字体。

BaseFont bfChinese =BaseFont.createFont("C:\\Windows\\Fonts\\STFANGSO.TTF", BaseFont.IDENTITY_H, BaseFont.EMBEDDED);

Font fontChinese = new Font(bfChinese, 12, Font.NORMAL);

datatable.addCell(new Paragraph(tableHeader[i], fontChinese));

这样中文问题就解决了。

2. 对于纸张大小设置，参见官方的API

new Document();有三种方式，无参构造，带一个参数的构造和带五个参数的构造。

无参构造自不用解释、

带一个参数的构造，是一个com.itextpdf.text.Rectangle 对象可以通过com.itextpdf.text.PageSize 点出很多常用的文件大小、

带五个参数的构造，就是可以自定义一张大小的画布了。

3. 由于业务需要将带html标签的文本解析为PDF，但是发现无论解析出来的中文全丢失了，itext自身提供解析html的工具类，但是很多人说需要修改源码，但是我试过也不行。偶然发现一篇使用itext解析html片段，而且解决中文显示问题的博客http://www.cnblogs.com/mvilplss/p/5646675.html，便尝试了一下，居然可以显示中文了（毕竟，完整的html也是多个html片段组成的吗）

自定义一个解析html文本的标签类，可以设定字体大小

public class MyXMLWorkerHelper {

    public static class MyFontsProvider extends XMLWorkerFontProvider {

        public MyFontsProvider() {

            super(null, null);

        }

        @Override

        public Font getFont(final String fontname, String encoding, float size, final int style) {

            size=9.0f;//可以指定字体大小，不设置默认为12pt

            String fntname = fontname;

            if (fntname == null) {

                fntname = "宋体";

            }

            return super.getFont(fntname, encoding, size, style);

        }

    }

    public static ElementList parseToElementList(String html, String css) throws IOException {

        // CSS

        CSSResolver cssResolver = new StyleAttrCSSResolver();

        if (css != null) {

            CssFile cssFile = XMLWorkerHelper.getCSS(new ByteArrayInputStream(css.getBytes()));

            cssResolver.addCss(cssFile);

        }

        // HTML

        MyFontsProvider fontProvider = new MyFontsProvider();

        CssAppliers cssAppliers = new CssAppliersImpl(fontProvider);

        HtmlPipelineContext htmlContext = new HtmlPipelineContext(cssAppliers);

        htmlContext.setTagFactory(Tags.getHtmlTagProcessorFactory());

        htmlContext.autoBookmark(false);

        // Pipelines

        ElementList elements = new ElementList();

        ElementHandlerPipeline end = new ElementHandlerPipeline(elements, null);

        HtmlPipeline htmlPipeline = new HtmlPipeline(htmlContext, end);

        CssResolverPipeline cssPipeline = new CssResolverPipeline(cssResolver, htmlPipeline);

        // XML Worker

        XMLWorker worker = new XMLWorker(cssPipeline, true);

        XMLParser p = new XMLParser(worker);

        html = html.replace("<br>", "").replace("<hr>", "").replace("<img>", "").replace("<param>", "")

                .replace("<link>", "");

        p.parse(new ByteArrayInputStream(html.getBytes()));

        return elements;

    }

}

用例Demo 注意字体必须是ttf格式的，我试了用ttc的会报错。

private static void itextPdf() throws Exception {

Document document = null;

BaseFont bf = null;

Font fontChinese = null;

bf = BaseFont.createFont("D:\\simsun.ttf", BaseFont.IDENTITY_H,BaseFont.NOT_EMBEDDED);

String dest = "D:\\itextout.pdf";

String inFile = "d:\\in.html";

File file = new File(inFile);

StringBuffer sBuffer = new StringBuffer();

BufferedReader reader = null;

reader = new BufferedReader(new FileReader(inFile));

String tempString = null;

int line = 1;

// 一次读入一行，直到读入null为文件结束

while ((tempString = reader.readLine()) != null) {

// 显示行号

System.out.println("line " + line + ": " + tempString);

line++;

sBuffer.append(tempString);

}

reader.close(); 

OutputStream outputStream = new FileOutputStream(new File(dest));

try {

/** create the right font for chinese **/

bf = BaseFont.createFont("D:\\simsun.ttf", BaseFont.IDENTITY_H,BaseFont.NOT_EMBEDDED);

fontChinese = new Font(bf, 10);

document = new Document(PageSize.A4);

/** get the html content from javabean and convert to string **/

PdfWriter pdfWriter = PdfWriter.getInstance(document, outputStream);

document.open();

/** add the head of the pdf **/

Paragraph head = new Paragraph("确认函", new Font(bf, 11));

head.setAlignment(1); // 0 align to the left , 1 align to the center

document.add(head);

/** add the content of the pdf **/

Paragraph context = new Paragraph();

ElementList elementList =MyXMLWorkerHelper.parseToElementList(sBuffer.toString(), null);

for (Element element : elementList) {

context.add(element);

}

document.add(context);

document.add(new Paragraph(" "));

document.add(new Paragraph(

"亲笔签名/公司公章： _______________________________", fontChinese));

document.add(new Paragraph("日期： ", fontChinese));

document.close();

} catch (Exception e) {

e.printStackTrace();

}

}

itextpdf 解析带中文的html问题的更多相关文章

nginx解析带中文的url重定向之后404问题
首先,有这样一个需求:一个系统的图片存储是放在upyun上的,现在有个客户需要本地化部署,所以需要将图片进行本地存储.为了兼容,图片存储的路径格式保持和在upyun上的存储路径一致.在upyun上的存 ...
带中文索引的ListView 仿微信联系人列表
因为各种原因,项目经理和产品经理把我做的东西给否定了,所以决定分享出去. 主要功能: 1 .带中文索引的ListView 2.自己定义顶部搜索视图,能够对返回button,搜索button加入事件监听 ...
1.6 使用电脑测试MC20的读取带中文短信功能
需要准备的硬件 MC20开发板 1个 https://item.taobao.com/item.htm?id=562661881042 GSM/GPRS天线 1根 https://item.taoba ...
plsql查找不到带中文的纪录
今天在另外的电脑用plsql查询不到带中文的记录 select * from test where name like '%测试%' 然后发现是系统的环境变量还没设置好所造成的.在系统变量加入如下变量 ...
带中文的路径导致NSURL初始化一直为null的问题
一.问题描述在学习Ojective-C过程中,需要读取文件中的内容,但发现指针变量url的值一直为nil. 代码如下: NSString *strUrl=@"file:///Users/f ...
制作、解析带logo的二维码
用DecoderQRCode来解析带logo的二维码,发现报错,解析不了,于是便又查资料,找到了更强大的制作二维码工具:GooleZXing 首先下GooleZXing的jar包. -------- ...
PHP - 传入WebService服务端带中文字符的序列化字串不能反序列化的解决方法
因工作需要,用了web服务,通过远程调用的方式来检索雅虎拍卖数据.前几天遇到一个问题,现在记录一下客户端: $res = $this->client->call('Get_YahooDa ...
iOS Get方式带中文不能请求网络
今天发现一个蛋疼的问题,使用ASIHTTPRequest Get方式请求数据时候带中文,iOS客户端不能正确进行网络请求. NSURL *url = [NSURL URLWithString:@htt ...
IE浏览器url中带中文报错的问题；以及各种兼容以及浏览器问题总结
1.解决IE浏览器url带中文报错 /* encodeURI()解决IE浏览器请求url中带中文报错的问题 */ URL = encodeURI("<%=basePath%>ve ...

随机推荐

使用burpsuite进行重放攻击
原创博客,转载请注出处! 我的公众号,正在建设中,欢迎关注: 1.安装好burpsuite后打开程序,切换至proxy->intercipt,因为是重放攻击不用拦截数据包所以关闭intercep ...
Spring Boot：使用Rabbit MQ消息队列
综合概述消息队列消息队列就是一个消息的链表,可以把消息看作一个记录,具有特定的格式以及特定的优先级.对消息队列有写权限的进程可以向消息队列中按照一定的规则添加新消息,对消息队列有读权限的进程则可以 ...
Spark学习之路（十）—— Spark SQL 外部数据源
一.简介 1.1 多数据源支持 Spark支持以下六个核心数据源,同时Spark社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景. CSV JSON Parquet ORC JDBC/ ...
简易数据分析 04 | Web Scraper 初尝--抓取豆瓣高分电影
这是简易数据分析系列的第 4 篇文章. 今天我们开始数据抓取的第一课,完成我们的第一个爬虫.因为是刚刚开始,操作我会讲的非常详细,可能会有些啰嗦,希望各位不要嫌弃啊:) 有人之前可能学过一些爬虫知识, ...
yii后台模板标签
yii模板中的label标签 <?php echo $form->labelEx($model,'name'); ?> 编译后: <label for="Projec ...
Linux下多网卡绑定bond及模式介绍
[介绍] 网卡bond一般主要用于网络吞吐量很大,以及对于网络稳定性要求较高的场景. 主要是通过将多个物理网卡绑定到一个逻辑网卡上,实现了本地网卡的冗余,带宽扩容以及负载均衡. Linux下一共有七种 ...
kubernetes实战篇之helm填坑与基本命令
系列目录其实前面安装部分我们已经分享一些互联网上其它网友分享的一些坑,本篇介绍helm的基本使用以及在使用过程中碰到的一些坑. 客户端版本和服务端版本不一致问题有些朋友可能在使用helm init ...
visudo 与 /etc/sudoers
增加多个用户免密码登录 User_Alias USER_OPS = zouyi,hanerhui,shibeibei,gaoxudong,xiaoyuelin,wangsongfeng,sunjian ...
python初识(2)
1 字符串格式占位符 1.1%s %d %% 占位符预留字符串整型 (转义) name = input('name:') print ('你的名字是:%s'%(name)) 1.2 f" ...
scrapy基础知识之将item 通过pipeline保存数据到mysql mongoDB：
pipelines.py class xxPipeline(object): def process_item(self, item, spider): con=pymysql.connect(hos ...

itextpdf 解析带中文的html问题

itextpdf 解析带中文的html问题的更多相关文章

随机推荐

热门专题