PDF抽取文字 C# with Adobe API

前提是PDF里面是有文字的！

一次性取得所有页内容：

        /// <summary>

        /// 改进前取得所有页的所有word

        /// </summary>

        /// <param name="pdfFilePath"></param>

        /// <param name="txtDirectoryPath"></param>

        public static void ConvertPdfToTxt(string pdfFilePath, string txtDirectoryPath)

        {

            CAcroAVDoc avDoc = (Acrobat.CAcroAVDoc)Microsoft.VisualBasic.Interaction.CreateObject("AcroExch.AVDoc"); //set AVDoc object

            CAcroPDDoc pdDoc;

            //open the PDF

            if (avDoc.Open(pdfFilePath, ""))

            {

                pdDoc = (CAcroPDDoc)avDoc.GetPDDoc();

                Object jsAcroObj = pdDoc.GetJSObject();

                Type T = jsAcroObj.GetType();

                object[] saveAsParam = { txtDirectoryPath, "com.adobe.acrobat.accesstext" };

                T.InvokeMember("saveAs",

                  BindingFlags.InvokeMethod |

                  BindingFlags.Public |

                  BindingFlags.Instance,

                  null, jsAcroObj, saveAsParam);

                object[] closeDocParam = { true };

                T.InvokeMember("closeDoc",

                  BindingFlags.InvokeMethod |

                  BindingFlags.Public |

                  BindingFlags.Instance,

                  null, jsAcroObj, closeDocParam);

                if (!avDoc.Close()) avDoc.Close();

            }

        }

逐页取出：

        /// <summary>

        /// 改进后取得每一页的所有word

        /// </summary>

        /// <param name="pdDoc"></param>

        /// <returns></returns>

        public static List<KeyValuePair<String, String>> PdDocGetText(AcroPDDoc pdDoc)

        {

            List<KeyValuePair<String, String>> txt = new List<KeyValuePair<string, string>>();

            AcroPDPage page;

            int pages = pdDoc.GetNumPages();

            string pageText = "";

            for (int i = ; i < pages; i++)

            {

                page = (AcroPDPage)pdDoc.AcquirePage(i);

                object jso, jsNumWords, jsWord;

                List<string> words = new List<string>();

                try

                {

                    jso = pdDoc.GetJSObject();

                    if (jso != null)

                    {

                        object[] args = new object[] { i };

                        jsNumWords = jso.GetType().InvokeMember("getPageNumWords", System.Reflection.BindingFlags.InvokeMethod, null, jso, args, null);

                        int numWords = Int32.Parse(jsNumWords.ToString());

                        for (int j = ; j <= numWords; j++)

                        {

                            object[] argsj = new object[] { i, j, false };

                            jsWord = jso.GetType().InvokeMember("getPageNthWord", System.Reflection.BindingFlags.InvokeMethod, null, jso, argsj, null);

                            words.Add((string)jsWord);

                        }

                    }

                    foreach (string word in words)

                    {

                        //取得当前page内容

                        pageText += word;

                    }

                }

                catch

                {

                }

                //当前页内容加入list

                txt.Add(new KeyValuePair<string, string>((i + ).ToString(), pageText));

                pageText = "";

                jso = null;

            }

            return txt;

        }

在这个基础之上我们再写一些比如搜索PDF内容的功能就容易多了吧。

补充：这里有一个问题，当遇到PDF排版是纵向的时候，读出来的是乱码，因为行是横向的。这个困扰我很久了，大家如果有思路的话可以说出来交流一下。

PDF抽取文字 C# with Adobe API的更多相关文章

PDF转图片 C# with Adobe API
PDF转图片大概有十几种方式,褒贬不一,我就详细给大家说一下我认为效率最高的方式,使用Adobe官方的SDK 安装acrobat reader 9.0以上即可,勾选如下组件.
自动生成pdf书签（仅适用于Adobe Acrobat on windows ）
必备软件 1.Adobe Acrobat. 2.AutoBookmark 为adobe acrobat的自动生成书签的插件(我用的这个:AutoBookmark Standard Plug-in),下 ...
C# 使用itextsharp 读取pdf中文字坐标
程序调用: using iTextSharp.text.pdf; using System; using System.Collections.Generic; using System.Linq ...
使用PDFminer3k解析pdf为文字遇到：WARING：root:GBK-EUC-H
最近需要把PDF解析为文字,查了查python的模块,发现PDFminer3k能满足需求.我使用的是 windows平台下的python3.6,python2的则下载pdfminer. 首先下载:直接 ...
c# iText 生成PDF 有文字，图片，表格，文字样式，对齐方式，页眉页脚，等等等，
#region 下载说明书PDF protected void lbtnDownPDF_Click(object sender, EventArgs e) { int pid = ConvertHel ...
开发笔记：PDF生成文字和图片水印
背景团队手里在做的一个项目,其中一个小功能是用户需要上传PDF文件到文件服务器上,都是一些合同或者技术评估文档,鉴于知识版权和防伪的目的,需要在上传的PDF文件打上水印, 这时候我们需要提供能力给客 ...
Ubuntu下安装PDF 文档阅读器Adobe Reader 9.5.5
由于没有PPA所以我们必须在Adobe的官方FTP上下载安装,下面的方法同时适用于32位和64位系统: wget ftp://ftp.adobe.com/pub/adobe/reader/unix/9 ...
Java编辑PDF写入文字插入图片
package com.test; import com.itextpdf.text.BaseColor; import com.itextpdf.text.Font; import com.itex ...
凸优化 Convex Optimization PDF 扫描文字识别版
凸优化理论 Convex Optimization 清华大学出版社王书宁许窒黄晓霖译 Stephen Boyd Lieven Vandenbergt原著 2013 年l 月第1 版下载链接链接: ...

随机推荐

SQLite 入门教程（四）增删改查，有讲究（转）
转于: SQLite 入门教程(四)增删改查,有讲究一.插入数据 INSERT INTO 表(列...) VALUES(值...) 根据前面几篇的内容,我们可以很轻送的创建一个数据表,并向其中插入一 ...
Java分布式优秀资源集合
这里充分尊重原作者的版本,学习了知识要感激原博主 Runnable.Callable.Executor.Future.FutureTask关系解读 http://blog.csdn.net/zhang ...
angularjs ngrepeat filter
angularjs ng-repeat filter演示样例地址
Sae 上传文件到Storage
首先说一下几个地方: 1.上传使用ss.upload("domin域名","源地址","目标地址,也就是storage的地址");假设要上传 ...
Velocity源码分析
velocity模板渲染的步骤: 1) 首先初始化启动Velocity引擎,可以通过Velocity.init()或者新建VelocityEngine类,并调用其中的init()方法: 2) 创建一个 ...
微信支付 V3版
本人小菜鸟一仅仅.为了自我学习和交流PHP(jquery,linux,lamp,shell,javascript,server)等一系列的知识,小菜鸟创建了一个群.希望光临本博客的人能够进来交流. 寻 ...
[Labview资料] labview事件结构学习
编程的主要目的是为了实现用户的某种功能,用户通过用鼠标.键盘.程序内部等触发某种程序动作,从而达到某种结果,这些操作都被称作为事件,LabVIEW中相应这些事件最常用的结构就是“事件结构”.事件结 ...
Oracle11g新特性导致空表不能导出问题
ORACLE 11G在用EXP导出时,发现空表(没有数据或者没有用过的表)不能导出了. 查了一下资料,说是Oracle 11G中有个新特性,当表无数据时,不分配segment,以节省空 ...
Pivotal Cloud Foundry学习笔记（1）
PCF是一个PAAS平台注册PCF账号 https://account.run.pivotal.io/sign-up 安装cf CLI 访问 https://console.run.pivotal. ...
Spring Mvc和Mybatis的多数据库访问配置过程
Spring Mvc 加Mybatis的多数据库访问源配置访问过程如下: 在applicationContext.xml进行配置 <?xml version="1.0" en ...

PDF抽取文字 C# with Adobe API

PDF抽取文字 C# with Adobe API的更多相关文章

随机推荐

热门专题