c#抽取pdf文档标题（3）

上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合。这篇着重介绍下，过滤规则，毕竟我们是使用规则过滤，最后得到标题的。

首先看归一化处理，什么是归一化呢？就是使结果始终处于0-1之间(包括0,1）。

 private static double GetMark(BlockInfo block, double maxHeight, double maxWidth, double maxYSize, double maxXSize, double maxSpace)

         {

             double result = ;

             if (maxYSize > )

                 result += 0.4 * ((double)block.CharAveYSize / maxYSize);

             if (maxXSize > )

                 result += 0.3 * ((double)block.CharAveXSize / maxXSize);

             if (maxSpace > )

                 result += (block.CharAveSpace / maxSpace) * 0.1;

             if (maxHeight > )

                 result += (block.CharAveHeight / maxHeight) * 0.1;

             if (maxWidth > )

                 result += (block.CharAveWidth / maxWidth) * 0.1;

             if (block.RepresentativeChar.IsBold) result += 0.1;

             return result;

         }

这段代码，就是给块打分的一个方法。它包含了投票思想以及归一处理问题的思想。对于一个块，我们从不同的角度，也就是不同方面的特征值给分，每个特征所占的权重是不同的。YSize权重：0.4，XSize权重：0.3，它们的分值是这样计算的：

权重*（块的平均特征值 / 文档中最大特征值），拿YSize来说，假如块的CharAveYSize=40，maxYSize=60，那么结果：0.4*（40/60）= 0.267。

在这里，我想说的是，特征一定要选正确，还有特征的权重也要相对正确，否则会影响到结果的匹配率。记得之前是以Space特征为主选取的，那时候还没有采用评分系统，经测试，提取标题的准确率在30%左右，后来，看了那个同事以前的代码，发现人家的代码写的如此简单，据说准确率在60%，“大道至简”，我就又重新找到核心属性，于是经过摸索，YSize这个属性相当重要，于是准确度到了70%左右。到最后，采用了评分机制，准确度到了85%左右，再经过努力，不断完善代码，准确度提升到了92%左右。有截图为证：

针对完全图片类型的pdf文档，我们现阶段不予处理。那么除了规则外，还有没有其它途径，来筛选标题呢？答案是肯定的，机器学习是当下一个热门领域，好了，我们下一篇就讨论这方面的话题。

c#抽取pdf文档标题（3）的更多相关文章

c#抽取pdf文档标题——前言
由于工作的需要,研究c#抽取pdf文档标题有3个月了.这项工作是一项"伟大而艰巨"的任务.应该是我目前研究工作中最长的一次.我觉得在长时间忙碌后,应该找些时间,把自己的心路历程归纳 ...
c#抽取pdf文档标题（1）
首先看看我的项目结构: 从上面的结果图中,我们可以看出,主要用了两个库:itextsharp.dll 和 pdfbox-1.8.9.dll,dll文件夹存放引用的库,handles文件夹存放抽取的处理 ...
c#抽取pdf文档标题（2）
public class IETitle { public static List<WordInfo> WordsInfo = new List<WordInfo>(); pr ...
c#抽取pdf文档标题（4）——机器学习以及决策树
我的一位同事告诉我,pdf抽取标题,用机器学习可以完美解决问题,抽取的准确率比较高.于是,我看了一些资料,就动起手来,实践了下. 我主要是根据以往历史块的特征生成一个决策树,然后利用这棵决策树,去判断 ...
Python处理Excel和PDF文档
一.使用Python操作Excel Python来操作Excel文档以及如何利用Python语言的函数和表达式操纵Excel文档中的数据. 虽然微软公司本身提供了一些函数,我们可以使用这些函数操作Ex ...
C#给PDF文档添加文本和图片页眉
页眉常用于显示文档的附加信息,我们可以在页眉中插入文本或者图形,例如,页码.日期.公司徽标.文档标题.文件名或作者名等等.那么我们如何以编程的方式添加页眉呢?今天,这篇文章向大家分享如何使用了免费组件 ...
将w3cplus网站中的文章页面提取并导出为pdf文档
最近在看一些关于CSS3方面的知识,主要是平时看到网页中有很多用CSS3实现的很炫的效果,所以就打算系统的学习一下.在网上找到很多的文章,但都没有一个好的整理性,比较凌乱.昨天看到w3cplus网站中 ...
PDF2SWF转换只有一页的PDF文档，在FlexPaper不显示解决方法
问题:PDF2SWF转换只有一页的PDF文档,在FlexPaper不显示! FlexPaper 与 PDF2SWF 结合是解决在线阅读PDF格式文件的问题的,多页的PDF文件转换可以正常显示,只有一页 ...
【PDF】java使用Itext生成pdf文档--详解
[API接口] 一.Itext简介 API地址:javadoc/index.html:如 D:/MyJAR/原JAR包/PDF/itext-5.5.3/itextpdf-5.5.3-javadoc/ ...

随机推荐

奥酷流媒体服务系统AMS5.0
2016年6月29日,北极星通对外发布AMS5.0版本,AMS是北极星通公司独立研发的高性能流媒体服务系统软件,可广泛应用于视频直播,视频点播,视频转码,视频录播等场合. AMS5.0增加功能: ...
python使用
1. ipython 打印所有的输出变量 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast ...
RGB与HSV之间的转换公式及颜色表
RGB & HSV 英文全称 RGB - Red, Green, Blue HSV - Hue, Saturation, Value HSV --> RGB 转换公式 HSV --> ...
《设计模式之禅》--备忘录扩展：clone方式的备忘录
接上篇<设计模式之禅>--策略扩展:策略枚举需求:使用clone方式实现备忘录模式发起人角色 public class Originator implements Cloneable ...
spring cloud熔断监控Hystrix Dashboard和Turbine
参考: http://blog.csdn.net/ityouknow/article/details/72625646 完整pom <?xml version="1.0" e ...
Fabric单节点安装备忘
安装文档:http://www.cnblogs.com/studyzy/p/7437157.html 安装上面的文档安装成功,但是过程中遇到一些问题. 一.go的源码包可能下载不下来,因为被墙,go官 ...
react按需加载(getComponent优美写法),并指定输出模块名称解决缓存(getComponent与chunkFilename)
react配合webpack进行按需加载的方法很简单,Route的component改为getComponent,组件用require.ensure的方式获取,并在webpack中配置chunkFil ...
CSS盒模型的深度思考及BFC
本文最初发表于博客园,并在GitHub上持续更新前端的系列文章.欢迎在GitHub上关注我,一起入门和进阶前端. 以下是正文. 题目:谈一谈你对CSS盒模型的认识专业的面试,一定会问 CSS 盒模型 ...
redis在windows下的安装
redis服务器端程序:https://github.com/dmajkic/redis/downloads 根据自己的操作系统,选择32位和64位的解压后文件目录如下 redis-server.e ...
java.sql.SQLException之数组越界
java.sql.SQLException之数组越界 1.具体错误如下: (1)java.sql.SQLException:Parameter index out of range(0<1) ( ...

c#抽取pdf文档标题（3）

c#抽取pdf文档标题（3）的更多相关文章

随机推荐

热门专题