操作PDF文档功能的相关开源项目探索—

　很久没自己写写心得日志与大家分享了，一方面是自己有点忙，一方面是自己有点懒，没有及时总结。因为实践是经验的来源，总结是提升的基础，所以无论怎样，自己都该反省一下。今天我主要是研究学习了两个PDF文档的相关类，iTextSharp 和PDFBox。我研究出发点是实现PDF文档的检索，需要提取PDF文档中的文字内容，然后通过正则匹配实现搜索。

　　《类似Windows Search的文件搜索系统》中介绍的文件检索方法是很不错的，但它里面对PDF中的中文检索不支持，因为里面调用的iTextSharp不能很好地支持英文，PdfReader类的GetPageContent()方法无法正常返回中文字符，经我测试，并非简单的编码问题。所以，急需能够从PDF中提取text功能。

我首先学习iTextSharp.dll 下载：http://sourceforge.net/projects/itextsharp/ 这里面有很多输出PDF文档的简单例子（下载iTextSharp例子），在学习中发现，不支持中文内容输出。在网上搜索相关内容发现，原来是缺少字体库。有两种方法解决：

　　1.自己指定系统的字体库，创建PDF中使用的字体。参见：http://unruledboy.cnblogs.com/Skins/ChinaHeart/Controls/archive/2005/08/30/225984.html

Document document = new Document(PageSize.A4,50, 50, 50, 50);
            try
            {
                PdfWriter writer = PdfWriter.GetInstance(document, new FileStream("Chap11.pdf", FileMode.Create));

　　　　　　//下面是创建PDF文档加密的
//writer.SetEncryption(PdfWriter.STRENGTH40BITS,"654321", "654321", PdfWriter.AllowCopy);
document.Open();

　　　　　　//指定字体库，并创建字体
                BaseFont baseFont = BaseFont.CreateFont(
                    "C:\\WINDOWS\\FONTS\\SIMHEI.TTF",
                    BaseFont.IDENTITY_H,
                    BaseFont.NOT_EMBEDDED);
                iTextSharp.text.Font font = new iTextSharp.text.Font(baseFont, 9);

//指定输出内容的字体

　　　　　 document.Add(new Paragraph(" This document is Top Secret! ", font));
                document.Close();
            }
            catch (Exception de)
            {
                Console.WriteLine(de.StackTrace);
            }

2.从http://sourceforge.net/projects/itextsharp/ 下载扩展字体库iTextAsianCmaps.dll 和iTextAsian.dll，支持亚洲字体。

　　　　下载界面如下：

/// <summary>
        /// 创建中文字体(实现中文)
        /// </summary>
        /// <returns></returns>
        public static iTextSharp.text.Font CreateChineseFont()
        {
            BaseFont.AddToResourceSearch("iTextAsian.dll");
            BaseFont.AddToResourceSearch("iTextAsianCmaps.dll"); //"STSong-Light", "UniGB-UCS2-H",
            BaseFont baseFT=BaseFont.CreateFont("STSong-Light", "UniGB-UCS2-H", BaseFont.EMBEDDED);

iTextSharp.text.Font font = new iTextSharp.text.Font(baseFT);
return font;
}

　　"UniGB-UCS2-H" "UniGB-UCS2-V"是简体中文。 "STSong-Light"是字体名称。BaseFont.EMBEDDED是将字体嵌入文档内。

　　其次，我接下来尝试在使用iTextSharp读对象类时，指定字体库，可是很遗憾没有相应方法。请参照：http://www.cnblogs.com/diction/articles/1120984.html （提取文本不支持中文）而且，即使有也很不灵活，因为你不可能预知PDF文档中使用的字体，PDF文档中可能有多种字体。后来，搜索网页相关信息发现：原来iTextSharp的操作PDF文档优势是PDF文档的创建。

　　需求是学习和工作的动力

我的原始目标是找到PDF文档内容提取为文本的方法，我转向《How to parse PDF files》该文章完整讲述了PDF文档提取文本的方法和整个解决过程思路，我会单独转载该文章，希望不能访问国外网的网友也能看到。PDFBox的下载http://sourceforge.net/projects/pdfbox/files/ 下载解压后里面内容很丰富，

所有需要的dll都包含在Bin文件夹里面

　　"PDFBox is a Java PDF Library. This project will allow access to all of the components in a PDF document. More PDF manipulation features will be added as the project matures. This ships with a utility to take a PDF document and output a text file. "

　　PDFBox是个JAVA开源项目，里面使用IKVM.NET开源项目http://www.ikvm.net/ 支持JAVA类库在.NET中调用。

　　IKVM.NET is an implementation of Java for Mono and the Microsoft .NET Framework. It includes the following components:

A Java Virtual Machine implemented in .NET
A .NET implementation of the Java class libraries
Tools that enable Java and .NET interoperability

　　对IKVM.NET的学习，对以后在.NET下使用JAVA类库很有帮助，其实IKVM.Runtime.dll 就是封装了JAVA类库的运行环境。

需要添加的DLL有：FontBox-0.1.0-dev.dll、IKVM.GNU.Classpath.dll、IKVM.Runtime.dll、PDFBox-0.7.3.dll

PDFBox使用实例代码如下：请参照：http://www.cnblogs.com/wuhenke/archive/2010/04/16/1713949.html

private static string parseUsingPDFBox(string filename)
{
PDDocument doc = PDDocument.load(filename);

PDFTextStripper stripper = new PDFTextStripper();

            return stripper.getText(doc);
        }

PDFBox功能很强大，有时间值得好好学习一下。

参考:

http://www.codeproject.com/kb/cpp/ExtractPDFText.aspx?df=100&forumid=47947

http://www.codeproject.com/KB/string/pdf2text.aspx

http://www.cnblogs.com/hardrock/

http://www.ikvm.net/

操作PDF文档功能的相关开源项目探索——iTextSharp 和PDFBox的更多相关文章

java实现在线浏览PDF文档功能
实现在线浏览pdf文档功能(本代码适用于项目服务中固定的并且少量的pdf浏览,比如注册时的注册条款在线浏览等): //设置响应内容类型为PDF类型 response.setContentType(&q ...
【转载】 C#工具类：使用iTextSharp操作PDF文档
iTextSharp是一个用于操作PDF文件的组件DLL程序,在C#程序中可以引用iTextSharp组件,用于开发与PDF文件相关的报表等功能,利用iTextSharp组件提供出来的方法接口,我们可 ...
.NET 操作PDF文档以及PDF文件打印摸索总结
关于生成 PDF 的操作,相信大家的在实际的工作过程中难免会碰到.以前我们通过生成 word 文档来进行文件的打印,但是由于太过依赖 office 软件,因此尝试能不能使用 PDF 进行文件打印. 在 ...
ABBYY FineReader 14创建PDF文档功能解析
使用ABBYY FineReader,您可以轻松查看和编辑任何类型的 PDF,真的是一款实至名归的PDF编辑转换器,您知道的,它能够保护.签署和编辑PDF文档,甚至还可以创建PDF文档,本文和小编一起 ...
python 操作pdf文档
简介在实际项目中,我们有可能需要提取当中的部分内容并导出,给PDF文件添加水印,合并多份PDF文件等等,而本文会着重用到PyPDF2模块来玩转PDF文档,以及tabula模块来对PDF文档中的表格数 ...
ABBYY FineReader 15 PDF文档查看功能
PDF文档查看功能是ABBYY FineReader 15(Windows系统)OCR文字识别软件中PDF编辑器的一项基础功能,可供用户查看,搜索PDF文档,无需进入编辑模式,也可复制其中的文本,图片 ...
opencart 3添加pdf文档下载功能
opencart 3适合做外贸商城,如果能在产品页那边添加pdf文档功能是最好的,符合国外用户的使用习惯,增加客户的黏性.其实opencart已经有一个downloadable product可下载产 ...
常用PDF文档开发库
C++库: 1,PDF类库 PoDoFo http://podofo.sourceforge.net/ PoDoFo 是一个用来操作 PDF 文件格式的 C++ 类库.它还包含一些小工具用来解析 ...
Apache PDFbox开发指南之PDF文档读取
转载请注明来源:http://blog.csdn.net/loongshawn/article/details/51542309 相关文章: <Apache PDFbox开发指南之PDF文本内容 ...

随机推荐

NSData 数据转换
NSData,数据,当我们需要把一些信息写入到文件里或发送到网络上,我们需要把这些数据转换下,变成纯粹的0.1字符流数组转 NSData NSData *GLYtime = [NSKeyedArch ...
HTML5的本地存储功能，值得研究
https://developer.chrome.com/apps/offline_storage 搜索“chrome html5 本地缓存”,一大堆文章,比如: http://www.cnblogs ...
VC++非MFC项目中如何使用TRACE宏
记得原来尝试学MFC的时候觉得有一个TRACE可以在Debug时向VS的调试输出窗口输出字串符,用来调试时跟踪变量很方便. 然则如果不是MFC项目或者ATL的项目的话是不能使用这个宏的.这时有一个没有 ...
Ubuntu 13.04 安装使用clang
其实很简单,就是用命令即可: apt-get install clang-3.2 clang-3.2-doc 主要说明一点,/usr/bin/c++链接原来指向g++,现在被改变了. $ ls /us ...
Codeforces 455B A Lot of Games(字典树+博弈)
题目连接: Codeforces 455B A Lot of Games 题目大意:给定n.表示字符串集合. 给定k,表示进行了k次游戏,然后是n个字符串.每局開始.字符串为空串,然后两人轮流在末尾追 ...
BZOJ 2809: [Apio2012]dispatching( 平衡树 + 启发式合并 )
枚举树上的每个结点做管理者, 贪心地取其子树中薪水较低的, 算出这个结点为管理者的满意度, 更新答案. 用平衡树+启发式合并, 时间复杂度为O(N log²N) ------------------- ...
iframe框架子页面与父页面间的通信
需要注意的问题:页面最好放在服务器上测试避免跨域问题. 具体参考:http://www.cnblogs.com/ljhero/archive/2011/07/09/2101540.html
2014年百度之星程序设计大赛资格赛第一题（longlong）
解题思路: 只要看(A-V)*K 这个公式的更新值是否大于等于A ,大于的话继续循环,否则报错注意一点,数据会爆int WA代码: #include<stdio.h> int main( ...
分享，iOS国家手机区号代码.plist
APP注册需要手机号码的时候,如果有在其他国家的时候需要填写手机区号一份有国家名字和区号的plist 参照微信注册的时候格式是 <Array> <Array> <Ar ...
springMVC用法以及一个简单的基于springMVC hibernate spring的配置
替代struts 1 web.xml中配置springmvc中央控制器 <?xml version="1.0" encoding="UTF-8"?> ...

操作PDF文档功能的相关开源项目探索——iTextSharp 和PDFBox

操作PDF文档功能的相关开源项目探索——iTextSharp 和PDFBox的更多相关文章

随机推荐

热门专题