c#抽取pdf文档标题（2）

  public class IETitle

     {

         public static List<WordInfo> WordsInfo = new List<WordInfo>();

         private static string pdfcontent;

         public static HandleResult GetTitle(string path, string realtitle)

         {

             WordsInfo.Clear();

             string content = string.Empty;

             try

             {

                 content = ITextSharpLib.ExtractTextFromPdf(path);

             }

             catch

             {

                 try

                 {

                     content = PDFBoxLib.Pdf2txt(path);

                 }

                 catch (Exception ex)

                 {

                 }

             }

             pdfcontent = content;

             PDFBoxLib.HandleContent(path);

             //处理字符

             Word w = new Word();

             w.MakeWord(WordsInfo);

             Line line = new Line();

             line.MakeLine(w);

             //处理行

             Block block = new Block();

             block.MakeBlock(line);

             //获取全部的文本

             string text = string.Empty;

             try

             {

                 text = ITextSharpLib.ExtractTextFromPdf(path, );

             }

             catch (Exception ex)

             {

                 text = content;

             }

             HandleResult title = new HandleResult() { Title = "" };

             try

             {

                 var sentences = text.Split('\n');

                 InfoExtract ie = new InfoExtract(sentences, text);

                 title = ie.ExtractTitle(block, realtitle);

             }

             catch (Exception ex)

             {

                 Logger.Debug(ex.Message);

             }

             return title;

         }

     }

上面就是获取标题的整体逻辑代码。29行，是调用pdfboxLib，读取pdf第一页内容：

  public static string HandleContent(string fileName, int pageIndex = )

         {

             try

             {

                 PDDocument document = null;

                 try

                 {

                     document = PDDocument.load(fileName);

                     List allPages = document.getDocumentCatalog().getAllPages();

                     int size = pageIndex ==  ? allPages.size() : ;

                     for (int i = ; i < size; i++)

                     {

                         var page = (PDPage)allPages.get(i);

                         var contents = page.getContents();

                         PrintTextLocatins2 printer = new PrintTextLocatins2();

                         if (contents != null)

                         {

                             printer.processStream(page, page.findResources(), page.getContents().getStream());

                         }

                     }

                 }

                 catch (Exception ex)

                 {

                 }

                 finally

                 {

                     if (document != null)

                     {

                         document.close();

                     }

                 }

             }

             catch (Exception ex)

             {

             }

             return "";

         }

第23行 printer.processStream方法，会触发自定义类PrintTextLocation2类中的字符处理方法 processTextPosition：

  public class PrintTextLocatins2 : PDFTextStripper

     {

         private static int BOLD_F_NUM = ;

         private static String[] BOLD_FLAGS = { "Bold", "CAJ FNT04" };

         private static int ITALIC_F_NUM = ;

         private static String[] ITALIC_FLAGS = { "Italic", "CAJ FNT03" };

         private static bool IsBold(String font)

         {

             int i;

             for (i = ; i < BOLD_F_NUM; i++)

                 if (font.Contains(BOLD_FLAGS[i]))

                     return true;

             return false;

         }

         private static bool IsItalic(String font)

         {

             int i;

             for (i = ; i < ITALIC_F_NUM; i++)

                 if (font.Contains(ITALIC_FLAGS[i]))

                     return true;

             return false;

         }

         public PrintTextLocatins2()

         {

             base.setSortByPosition(false);

         }

         protected override void processTextPosition(TextPosition text)

         {

             WordInfo info = new WordInfo()

             {

                 X = text.getX(),

                 Y = text.getY(),

                 XDirAdj = text.getXDirAdj(),

                 YDirAdj = text.getYDirAdj(),

                 FontSize = text.getFontSize(),

                 Xscale = text.getXScale(),

                 Yscale = text.getYScale(),

                 Height = text.getHeight(),

                 Space = text.getWidthOfSpace(),

                 Width = text.getWidth(),

                 Subfont = text.getFont().getSubType(),

                 Basefont = text.getFont().getBaseFont(),

                 IsBold = IsBold(text.getFont().getBaseFont()),

                 IsItalic = IsItalic(text.getFont().getBaseFont()),

                 XSize = (int)(text.getFontSize() * text.getXScale()),

                 YSize = (int)(text.getFontSize() * text.getYScale()),

                 Word = text.getCharacter()

             };

             if (info.Space.ToString() == "非数字")

             {

                 info.Space = ;

             }

             IETitle.WordsInfo.Add(info);

         }

     }

这样我们就利用pdfbox收集了pdf文档的字符信息。

c#抽取pdf文档标题（2）的更多相关文章

c#抽取pdf文档标题——前言
由于工作的需要,研究c#抽取pdf文档标题有3个月了.这项工作是一项"伟大而艰巨"的任务.应该是我目前研究工作中最长的一次.我觉得在长时间忙碌后,应该找些时间,把自己的心路历程归纳 ...
c#抽取pdf文档标题（1）
首先看看我的项目结构: 从上面的结果图中,我们可以看出,主要用了两个库:itextsharp.dll 和 pdfbox-1.8.9.dll,dll文件夹存放引用的库,handles文件夹存放抽取的处理 ...
c#抽取pdf文档标题（3）
上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合.这篇着重介绍下,过滤规则,毕竟我们是使用规则过滤,最后得到标题的. 首先看归一化处理,什么是归一化呢?就是使结果始终处于0-1之间(包括0,1 ...
c#抽取pdf文档标题（4）——机器学习以及决策树
我的一位同事告诉我,pdf抽取标题,用机器学习可以完美解决问题,抽取的准确率比较高.于是,我看了一些资料,就动起手来,实践了下. 我主要是根据以往历史块的特征生成一个决策树,然后利用这棵决策树,去判断 ...
Python处理Excel和PDF文档
一.使用Python操作Excel Python来操作Excel文档以及如何利用Python语言的函数和表达式操纵Excel文档中的数据. 虽然微软公司本身提供了一些函数,我们可以使用这些函数操作Ex ...
C#给PDF文档添加文本和图片页眉
页眉常用于显示文档的附加信息,我们可以在页眉中插入文本或者图形,例如,页码.日期.公司徽标.文档标题.文件名或作者名等等.那么我们如何以编程的方式添加页眉呢?今天,这篇文章向大家分享如何使用了免费组件 ...
将w3cplus网站中的文章页面提取并导出为pdf文档
最近在看一些关于CSS3方面的知识,主要是平时看到网页中有很多用CSS3实现的很炫的效果,所以就打算系统的学习一下.在网上找到很多的文章,但都没有一个好的整理性,比较凌乱.昨天看到w3cplus网站中 ...
PDF2SWF转换只有一页的PDF文档，在FlexPaper不显示解决方法
问题:PDF2SWF转换只有一页的PDF文档,在FlexPaper不显示! FlexPaper 与 PDF2SWF 结合是解决在线阅读PDF格式文件的问题的,多页的PDF文件转换可以正常显示,只有一页 ...
【PDF】java使用Itext生成pdf文档--详解
[API接口] 一.Itext简介 API地址:javadoc/index.html:如 D:/MyJAR/原JAR包/PDF/itext-5.5.3/itextpdf-5.5.3-javadoc/ ...

随机推荐

CentOS 设置网络（修改IP&修改网关&修改DNS）
CentOS修改IP地址 # ifconfig eth0 192.168.1.80 这样就把IP地址修改为192.168.1.80(如果发现上不了网了,那么你可能需要把网关和DNS也改一下,后面会提到 ...
Asp.Net Core 基于QuartzNet任务管理系统
之前一直想搞个后台任务管理系统,零零散散的搞到现在,也算完成了. 这里发布出来,请园里的dalao批评指导! 废话不多说,进入正题. github地址:https://github.com/YANGK ...
利用FileReader实现上传图片前本地预览
引子平时做图片上传预览时如果没有特殊的要求就直接先把图片传到后台去,成功之后拿到URL再渲染到页面上,这样做在图片比较小的时候没什么问题,大一点的话就会比较慢才能看到预览了,而且还产生了垃圾文件,所 ...
java复习笔记
本笔记(无异常处理与网络编程部分)整理自<java程序设计>-黄岚王岩王康平编著 java数据 UI I/O java线程数据库操作 Java数 ...
硬件能力与智能AI-Zoomla!逐浪CMS2 x3.9.2正式发布
北京时间2017年9月10日,领先的CMS网站内容管理系统与生产力软件研发厂商-Zoomla!逐浪CMS团队发布其年度重要产品:Zoomla!逐浪CMS2 x3.9.2,引领国内门户.移动.微商以及生 ...
oracle报表功能
需求是将指定的批量sql语句执行的结果通过脚本导出成txt或者能用excel打开的文件. oracle导出文件可以通过spool命令实现,通过bat脚本登录sqlplus,然后引入sql文件即可,源码 ...
安装linux环境及相关包方法
安装linux系统: 先下载 iso镜像文件,在windows系统下,插入u盘,下载 Ultraiso软件,安装好后,根据 http://jingyan.baidu.com/article/a378c ...
Win10电脑经常自动掉线、自动断网的解决方法
近期一客户称自己使用电脑上网的时候,过一段时间莫名其妙的出现自动掉线.自动断网的情况,那么遇到这个问题该怎么办?下面装机之家分享一下Win10电脑经常自动掉线.自动断网的解决方法,以Win7系统为例. ...
trigger click 和 click 的区别？？
trigger click 和 user click 有什么区别吗? 好像没有的.直到发现了这样一段代码. <button class="btn1">Button< ...
R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例（二,情感标注）
要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec ...

c#抽取pdf文档标题（2）

c#抽取pdf文档标题（2）的更多相关文章

随机推荐

热门专题