这篇文章最初只描述使用 PDFBox 来解析PDF文件。现在它已经被扩展到包括使用 IFilter 和 iTextSharp 的例程了。
   这篇文章和对应的Visual Studio项目已经更新到目前最新的 PDFBox 版本(1.8.4)。可以下载包含所有依赖内容的完整项目(要消除依赖关系有点棘手)。
   如何解析 PDF 文件
   在。NET中从PDF文件里提取文本的几种主要方法有:
   Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 实现;
   iTextSharp;
   PDFBox.
   不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。
   Adobe PDF IFilter
   为了使用 IFilter 接口来解析 PDF 文件,你需要:
   Windows 2000 或者后续版本
   Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe PDF IFilter [adobe.com])
   IFilter COM 封装类 [dotlucene.net]
   样例代码:
   using IFilter;
   // …
   public static string ExtractTextFromPdf(string path) {
   return DefaultParser.Extract(path);
   }
   缺点:
   使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。
   需要在目标系统上单独安装 Adobe IFilter.如果你需要对其它人发布可索引的解决方案,会很痛苦。
   iTextSharp www.yztrans.com
   iTextSharp是一个 Java 的PDF 操作库iText的。NET输出。它主要着眼于编辑PDF而不是阅读,但它当然也支持从PDF中提取文本(尽管有点大材小用)。
   例程:
   using iTextSharp.text.pdf;
   using iTextSharp.text.pdf.parser;
   // …
   public static string ExtractTextFromPdf(string path)
   {
   using (PdfReader reader = new PdfReader(path))
   {
   StringBuilder text = new StringBuilder();
   for (int i = 1; i <= reader.NumberOfPages; i++)
   {
   text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
   }
   return text.ToString();
   }
   }
   信用证: 成员号 10364982
   缺点:
   需要许可证(如果你不喜欢 AGPL许可证 的话)
   PDFBox www.tygj123.com
   PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用(参见LucenePDFDocument)。
   幸运的是,PDFBox有一个使用IKVM.NET开发的。NET版本 (只需访问PDFBox下载页)。
   在。NET中使用PDFBox需要引用:
   IKVM.OpenJDK.Core.dll
   IKVM.OpenJDK.SwingAWT.dll
   pdfbox-1.8.4.dll
   并将下列文件复制到bin文件夹下:
   commons-logging.dll
   fontbox-1.8.4.dll
   IKVM.OpenJDK.Util.dll
   IKVM.Runtime.dll
   使用PDFBox解析PDF十分简单:
   using org.apache.pdfbox.pdmodel;
   using org.apache.pdfbox.util;
   // …
   private static string ExtractTextFromPdf(string path)
   {
   PDDocument doc = null;
   try {
   doc = PDDocument.load(path)
   PDFTextStripper stripper = new PDFTextStripper();
   return stripper.getText(doc);
   }
   finally {
   if (doc != null) {
   doc.close();
   }
   }
   }
   编译后的大小加起来差不多有18MB:
   IKVM.OpenJDK.Core.dll (4 MB)
   IKVM.OpenJDK.SwingAWT.dll (6 MB)
   pdfbox-1.8.4.dll (4 MB)
   commons-logging.dll (82 kB)
   fontbox-1.8.4.dll (180 kB)
   IKVM.OpenJDK.Util.dll (2 MB)
   IKVM.Runtime.dll (1 MB)
   速度还可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。
   感谢bobrien100提供的改进建议。
   缺点:
   IKVM.NET依赖 (18 MB)
   速度(尤其是IKVM.NET的启动时间)

C# 实现将PDF转文本的功能的更多相关文章

  1. C# 实现将 PDF 转文本的功能

    更新 2014年2月27日: 这篇文章最初只描述使用 PDFBox 来解析PDF文件.现在它已经被扩展到包括使用 IFilter 和 iTextSharp 的例程了. 这篇文章和对应的Visual S ...

  2. PDF编辑:pdfFactory文本备注功能详解

    除了word的doc文件外,PDF也是我们经常接触到的文件格式,经常需要在pdf文件上进行编辑与修改,或者给内容做提示和备注. 文件的文本备注功能可以用pdfFactory来进行,编辑打印PDF一条龙 ...

  3. 个人永久性免费-Excel催化剂功能第50波-批量打印、导出PDF、双面打印功能

    在倡导无纸化办公的今天,是否打印是一个碍眼的功能呢,某些时候的确是,但对于数据的留存,在现在鼓吹区块链技术的今天,仍然不失它的核心价值,数据报表.单据打印出来留存,仍然是一种不可或缺的数据存档和防篡改 ...

  4. ABBYY FineReader 15新增智能PDF文档转换功能

    ABBYY FineReader 15(Windows系统)新增智能PDF文档转换功能,可自动检测导入PDF数字文档的文本层质量,确保转变为可编辑格式后的准确结果:从表单字段和文本框中提取文本,准确保 ...

  5. ABBYY FineReader 15 PDF文档查看功能

    PDF文档查看功能是ABBYY FineReader 15(Windows系统)OCR文字识别软件中PDF编辑器的一项基础功能,可供用户查看,搜索PDF文档,无需进入编辑模式,也可复制其中的文本,图片 ...

  6. ABBYY FineReader 15 PDF文档编辑功能详解

    ABBYY FineReader 15(Windows系统)OCR文字识别软件作为一款通用 PDF 工具,能轻松有效地对各种 PDF文档和纸质文档,进行数字化.检索.编辑.转换.包含.分享和合作,而其 ...

  7. 设置Adobe Reader打开PDF文件保持记忆功能

    设置Adobe Reader打开PDF文件保持记忆功能 打开菜单“编辑”->“首选项”. 选择种类中的“文档”,在“打开设置”区域勾上“重新打开文档时恢复上次视图设置(R)”,确定之后就可以在下 ...

  8. 个人永久性免费-Excel催化剂功能第25波-小白适用的文本处理功能

    翻看各大插件,都不约而同地出现系列文本处理的功能,自己在使用Excel过程中,在临时性的需求时,也会用上这几种文本处理,但仅适用于小范围的使用,使用这些功能不是数据处理的正确的之道,数据处理的核心需求 ...

  9. java -PDF添加文本水印与图片水印

    java pdf添加水印文本及图片文本 PDF文件添加文本水印: private static int interval = 30; public static void waterMark(Stri ...

随机推荐

  1. LD1-B(最短路径-SPFA)

    题目链接 /* *题目大意: *给定v个点的重量,并给定e条边,每条边具有一个权值; *在e条边中选v-1条边使这v个点成为一棵树; *定义这棵树的代价为(每棵子树节点重量和其子树根到父节点的边的权值 ...

  2. -_-#【JS】HTML5 API

    <JavaScript高级程序设计(第3版)> <!DOCTYPE html> <html> <head> <meta charset=" ...

  3. EDM(邮件营销)

    官冲拉手网CTO举了个EDM(邮件营销)的例子: 在做大数据分析应用之前,通过EDM带来的订单转化率很低.在采用大数据解决方案后,可以根据用户之前的浏览习惯猜测他的喜好和购买习惯,从而针对性的推送个性 ...

  4. Ubuntu中Samba的安装配置和使用[图文]

    Samba服务在Ubuntu服务器版本中默认并没有安装. 1. Samba软件包的安装 使用源安装,在终端中输入如下命令: #sudo apt-get install samba#sudo apt-g ...

  5. JS调试工具

    IE http://msdn.microsoft.com/zh-cn/library/ie/dn255003(v=vs.85).aspx FF http://www.wumii.com/item/1g ...

  6. 如何获取jqGrid中选择的行的数据

    原文地址:http://hi.baidu.com/feifan3211/item/c5831f44158761a5df2a9fc1 如何获取jqGrid中选择的行的数据? 下面可以获取选择一行的id, ...

  7. Selenium webdriver 高级应用

    对于这一段还蛮有感慨的,只想说,代码还是需要自己去敲的. 1. 改变用户代理 import org.junit.AfterClass; import org.junit.BeforeClass; im ...

  8. GC与显式内存管理

    C++复兴的话题至今已被鼓吹两年有余,Herb Sutter和Bjarne Stroustrup等大牛们也为C++带来了大步伐的革新.然而,从这两年的效果而言,C++的复兴并没有发生.一方面随着世界经 ...

  9. Android常用ProgressDialog设置

    public static ProgressDialog initDialog(Context context) { ProgressDialog progressDialog = new Progr ...

  10. 2013级C++第15周(春)项目——输入输出流及文件文件操作

    课程首页在:http://blog.csdn.net/sxhelijian/article/details/11890759.内有完整教学方案及资源链接 本周程序阅读及程序调试中须要的文件,请到htt ...