这篇文章最初只描述使用 PDFBox 来解析PDF文件。现在它已经被扩展到包括使用 IFilter 和 iTextSharp 的例程了。
   这篇文章和对应的Visual Studio项目已经更新到目前最新的 PDFBox 版本(1.8.4)。可以下载包含所有依赖内容的完整项目(要消除依赖关系有点棘手)。
   如何解析 PDF 文件
   在。NET中从PDF文件里提取文本的几种主要方法有:
   Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 实现;
   iTextSharp;
   PDFBox.
   不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。
   Adobe PDF IFilter
   为了使用 IFilter 接口来解析 PDF 文件,你需要:
   Windows 2000 或者后续版本
   Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe PDF IFilter [adobe.com])
   IFilter COM 封装类 [dotlucene.net]
   样例代码:
   using IFilter;
   // …
   public static string ExtractTextFromPdf(string path) {
   return DefaultParser.Extract(path);
   }
   缺点:
   使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。
   需要在目标系统上单独安装 Adobe IFilter.如果你需要对其它人发布可索引的解决方案,会很痛苦。
   iTextSharp www.yztrans.com
   iTextSharp是一个 Java 的PDF 操作库iText的。NET输出。它主要着眼于编辑PDF而不是阅读,但它当然也支持从PDF中提取文本(尽管有点大材小用)。
   例程:
   using iTextSharp.text.pdf;
   using iTextSharp.text.pdf.parser;
   // …
   public static string ExtractTextFromPdf(string path)
   {
   using (PdfReader reader = new PdfReader(path))
   {
   StringBuilder text = new StringBuilder();
   for (int i = 1; i <= reader.NumberOfPages; i++)
   {
   text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
   }
   return text.ToString();
   }
   }
   信用证: 成员号 10364982
   缺点:
   需要许可证(如果你不喜欢 AGPL许可证 的话)
   PDFBox www.tygj123.com
   PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用(参见LucenePDFDocument)。
   幸运的是,PDFBox有一个使用IKVM.NET开发的。NET版本 (只需访问PDFBox下载页)。
   在。NET中使用PDFBox需要引用:
   IKVM.OpenJDK.Core.dll
   IKVM.OpenJDK.SwingAWT.dll
   pdfbox-1.8.4.dll
   并将下列文件复制到bin文件夹下:
   commons-logging.dll
   fontbox-1.8.4.dll
   IKVM.OpenJDK.Util.dll
   IKVM.Runtime.dll
   使用PDFBox解析PDF十分简单:
   using org.apache.pdfbox.pdmodel;
   using org.apache.pdfbox.util;
   // …
   private static string ExtractTextFromPdf(string path)
   {
   PDDocument doc = null;
   try {
   doc = PDDocument.load(path)
   PDFTextStripper stripper = new PDFTextStripper();
   return stripper.getText(doc);
   }
   finally {
   if (doc != null) {
   doc.close();
   }
   }
   }
   编译后的大小加起来差不多有18MB:
   IKVM.OpenJDK.Core.dll (4 MB)
   IKVM.OpenJDK.SwingAWT.dll (6 MB)
   pdfbox-1.8.4.dll (4 MB)
   commons-logging.dll (82 kB)
   fontbox-1.8.4.dll (180 kB)
   IKVM.OpenJDK.Util.dll (2 MB)
   IKVM.Runtime.dll (1 MB)
   速度还可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。
   感谢bobrien100提供的改进建议。
   缺点:
   IKVM.NET依赖 (18 MB)
   速度(尤其是IKVM.NET的启动时间)

C# 实现将PDF转文本的功能的更多相关文章

  1. C# 实现将 PDF 转文本的功能

    更新 2014年2月27日: 这篇文章最初只描述使用 PDFBox 来解析PDF文件.现在它已经被扩展到包括使用 IFilter 和 iTextSharp 的例程了. 这篇文章和对应的Visual S ...

  2. PDF编辑:pdfFactory文本备注功能详解

    除了word的doc文件外,PDF也是我们经常接触到的文件格式,经常需要在pdf文件上进行编辑与修改,或者给内容做提示和备注. 文件的文本备注功能可以用pdfFactory来进行,编辑打印PDF一条龙 ...

  3. 个人永久性免费-Excel催化剂功能第50波-批量打印、导出PDF、双面打印功能

    在倡导无纸化办公的今天,是否打印是一个碍眼的功能呢,某些时候的确是,但对于数据的留存,在现在鼓吹区块链技术的今天,仍然不失它的核心价值,数据报表.单据打印出来留存,仍然是一种不可或缺的数据存档和防篡改 ...

  4. ABBYY FineReader 15新增智能PDF文档转换功能

    ABBYY FineReader 15(Windows系统)新增智能PDF文档转换功能,可自动检测导入PDF数字文档的文本层质量,确保转变为可编辑格式后的准确结果:从表单字段和文本框中提取文本,准确保 ...

  5. ABBYY FineReader 15 PDF文档查看功能

    PDF文档查看功能是ABBYY FineReader 15(Windows系统)OCR文字识别软件中PDF编辑器的一项基础功能,可供用户查看,搜索PDF文档,无需进入编辑模式,也可复制其中的文本,图片 ...

  6. ABBYY FineReader 15 PDF文档编辑功能详解

    ABBYY FineReader 15(Windows系统)OCR文字识别软件作为一款通用 PDF 工具,能轻松有效地对各种 PDF文档和纸质文档,进行数字化.检索.编辑.转换.包含.分享和合作,而其 ...

  7. 设置Adobe Reader打开PDF文件保持记忆功能

    设置Adobe Reader打开PDF文件保持记忆功能 打开菜单“编辑”->“首选项”. 选择种类中的“文档”,在“打开设置”区域勾上“重新打开文档时恢复上次视图设置(R)”,确定之后就可以在下 ...

  8. 个人永久性免费-Excel催化剂功能第25波-小白适用的文本处理功能

    翻看各大插件,都不约而同地出现系列文本处理的功能,自己在使用Excel过程中,在临时性的需求时,也会用上这几种文本处理,但仅适用于小范围的使用,使用这些功能不是数据处理的正确的之道,数据处理的核心需求 ...

  9. java -PDF添加文本水印与图片水印

    java pdf添加水印文本及图片文本 PDF文件添加文本水印: private static int interval = 30; public static void waterMark(Stri ...

随机推荐

  1. -_-#【乱码】URL中文参数

    JavaScript利用URL向后台传入中文参数乱码问题解决之道! encodeURIComponent(encodeURIComponent('ya呀')) http://wap.baomihua. ...

  2. js脚本同步、异步与延迟

    一般,我们通过src引入js文件时建议在页面末尾引入,因为会阻塞页面的渲染.defer和async可以达到同样效果 当HTML解析器遇到<script>元素时,它必须先执行脚本,然后再恢复 ...

  3. 【搬运】一分钟快速入门OpenStack

      一.它是什么,能干什么   想认识一个事物,必须先弄明白它是什么,能干什么.   首先说一下,openstack是一个搭建云平台的一个解决方案,说他不是个软件,但是我觉得说是一个软件,能够让初学者 ...

  4. 聚类算法:K均值、凝聚层次聚类和DBSCAN

    聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...

  5. php显示日期(今天、昨天、本周、上周、本月、上月、)

    <?php //今天 $today = date("Y-m-d"); //昨天 $yesterday = date("Y-m-d", strtotime( ...

  6. homebrew介绍

    对于一个习惯了在 Ubuntu 的终端上通过 apt-get 来安装工具软件的我来说,也希望在Mac上找到类似的工具,能很方便的一条命令就能安装所需的软件,而不用手工的去查找下载编译,或者是折腾安装所 ...

  7. ScrollView与ListView合用(正确计算Listview的高度)的问题解决

    最近做项目中用到ScrollView和ListView一起使用的问题,显示的时候ListView不能完全正确的显示,查了好多资料终于成功解决:   首先,ListView不能直接用,要自定义一个,然后 ...

  8. sql为了实现转换的行列

    全名 学科 成绩 牛芬 语文 81 牛芬 数学 88 牛芬 英语 84 张三 语文 90 张三 数学 98 张三 英语 90 (表一) 现有一个表如(表一) 姓名 语文 数学 英语 牛芬 81 88 ...

  9. 安装apache重启的时候,报错端口被占用,错误1

    在cmd中执行以下命令来重新分配. netsh winsock reset. 还不行的话可以重启电脑,再不行就算apache配置文件错误.

  10. hdu3368之DFS

    Reversi Time Limit: 5000/2000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others) Total Su ...