由于工作的需要,研究c#抽取pdf文档标题有3个月了。这项工作是一项”伟大而艰巨”的任务。应该是我目前研究工作中最长的一次。我觉得在长时间忙碌后,应该找些时间,把自己的心路历程归纳整理,倾诉给读者,使自己的心回归,重新回归自然、平静的状态。每一次的研究工作,说实话,都很累,犹如爬山。在到达山顶的那一刹那,也许你很快乐,也许你即将面临征服另一座山,问题是,我们知道自己迟早是要回归大地的。人生不是也是如此吗?我可以肯定地说,我们来源于宇宙,终将归于宇宙,至于我们从宇宙的何处而来,我不知道,我们终将去哪儿,我不知道。人生道路崎岖坎坷,也会存在诸多上坡路和下坡路,走完所有的路,终将回归。

感慨了这么多,该是回来的时候了。

刚开始接到任务时,首先是从网上搜集各种资料,有一些发表的论文,上面有获取pdf标题的一些流程及注意事项。然后看有没有C#开源的一些库,借助于一些库,我们就可以省很多pdf底层的研究。最后,一个同事,他是找的c++开源库实现了pdf抽取标题,给了我源码,我研究了下。主要是借鉴别人的思路。

要做一件事情,”天时,地利,人和”,这个很重要。我认为,天时就说时机,比如说,我们正要雄心勃勃地做某件事情,突然感冒生病了,这个就是天时吧。”上天安排的最大”,我们只能择机而动,外出旅游,还选个晴天,搬家婚娶还挑个吉祥的日子,就是这个道理。那什么是地利呢?地利,我认为是我们能预估的外界条件。比如,我要创业,我没有资金,没有好的项目,那么创业有可能面临失败;我要骑小黄去上班,路不平则罢了,而且小黄质量有问题,这时候,你应该想到有可能会迟到。人和,就好理解了,你和上司关系不佳,将直接影响你的工作开展。

这次任务,从整体上来看,这三者都具备。唯一让人遗憾的是老板把我叫到办公室说,pdf抽取标题比较简单,他拿起一个打印的pdf文档说,这标题很明显嘛,怎么需要这么长时间而且准确率还没有达到90%多以上。接着在会上,让我说下目前工作的进展,从事情的总体上来看,当时才刚刚开始,说实话,当初还处于探索问路阶段,前面是迷雾,我不知道路有多远,现在走了多少,根本不知道啊。在会上,我语言表达欠佳,遭到老板的粗鲁打断,他简单了说了下。

幸运的是,我的女领导,直接上司,比较支持我,在我的努力下,还有她的支持下,工作才开展了下去,直到完成。

c#抽取pdf文档标题——前言的更多相关文章

  1. c#抽取pdf文档标题(1)

    首先看看我的项目结构: 从上面的结果图中,我们可以看出,主要用了两个库:itextsharp.dll 和 pdfbox-1.8.9.dll,dll文件夹存放引用的库,handles文件夹存放抽取的处理 ...

  2. c#抽取pdf文档标题(3)

    上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合.这篇着重介绍下,过滤规则,毕竟我们是使用规则过滤,最后得到标题的. 首先看归一化处理,什么是归一化呢?就是使结果始终处于0-1之间(包括0,1 ...

  3. c#抽取pdf文档标题(2)

    public class IETitle { public static List<WordInfo> WordsInfo = new List<WordInfo>(); pr ...

  4. c#抽取pdf文档标题(4)——机器学习以及决策树

    我的一位同事告诉我,pdf抽取标题,用机器学习可以完美解决问题,抽取的准确率比较高.于是,我看了一些资料,就动起手来,实践了下. 我主要是根据以往历史块的特征生成一个决策树,然后利用这棵决策树,去判断 ...

  5. Python处理Excel和PDF文档

    一.使用Python操作Excel Python来操作Excel文档以及如何利用Python语言的函数和表达式操纵Excel文档中的数据. 虽然微软公司本身提供了一些函数,我们可以使用这些函数操作Ex ...

  6. 如何在ASP.NET Core 中快速构建PDF文档

    比如我们需要ASP.NET Core 中需要通过PDF来进行某些简单的报表开发,随着这并不难,但还是会手忙脚乱的去搜索一些资料,那么恭喜您,这篇帖子会帮助到您,我们就不会再去浪费一些宝贵的时间. 在本 ...

  7. C#给PDF文档添加文本和图片页眉

    页眉常用于显示文档的附加信息,我们可以在页眉中插入文本或者图形,例如,页码.日期.公司徽标.文档标题.文件名或作者名等等.那么我们如何以编程的方式添加页眉呢?今天,这篇文章向大家分享如何使用了免费组件 ...

  8. 将w3cplus网站中的文章页面提取并导出为pdf文档

    最近在看一些关于CSS3方面的知识,主要是平时看到网页中有很多用CSS3实现的很炫的效果,所以就打算系统的学习一下.在网上找到很多的文章,但都没有一个好的整理性,比较凌乱.昨天看到w3cplus网站中 ...

  9. PDF2SWF转换只有一页的PDF文档,在FlexPaper不显示解决方法

    问题:PDF2SWF转换只有一页的PDF文档,在FlexPaper不显示! FlexPaper 与 PDF2SWF 结合是解决在线阅读PDF格式文件的问题的,多页的PDF文件转换可以正常显示,只有一页 ...

随机推荐

  1. Python自动化--语言基础2--运算符、格式化输出、条件语句、循环语句、列表、元组

    运算符包括:算术运算符.比较运算符.赋值运算符.逻辑运算符.成员运算符.身份运算符 算术运算符 %   取模(余数) //  取相除的整数部分 /   (5/2=2.5) 比较运算符 ==  等于 ! ...

  2. springboot入门_helloworld

    开始学习springboot,在此做记录,有不正确之处,还望读者指正. springboot框架的设计目的是用来简化新Spring应用的初始环境搭建以及开发过程.主要体现有:1 xml配置文件,使用s ...

  3. 获取目录-Winform

    // 获取程序的基目录. System.AppDomain.CurrentDomain.BaseDirectory // 获取模块的完整路径. System.Diagnostics.Process.G ...

  4. SpringMVC+FreeMarker实现静态资源文件自动添加版本号(md5)

    近日切换java开发,开始学习springframework.在实现静态资源文件自动计算版本号的实例时,因为不熟悉框架,走了不少弯路,好在最终解决了问题.这里写篇文章记录一下实现,也希望对大家有些用处 ...

  5. 通过 Service 访问 Pod - 每天5分钟玩转 Docker 容器技术(136)

    本节开始学习 Service.我们不应该期望 Kubernetes Pod 是健壮的,而是要假设 Pod 中的容器很可能因为各种原因发生故障而死掉.Deployment 等 controller 会通 ...

  6. 沉淀,再出发——安装windows10和ubuntu kylin15.04双系统心得体会

    安装windows10和ubuntu kylin15.04双系统心得体会 一.安装次序      很简单,两种安装次序,"先安装windows后安装linux:先安装linux后安装wind ...

  7. PAT1078 Hashing 坑爹

    思路:用筛法给素数打表,二次探测法(只需要增加的)–如果的位置被占,那么就依次探测. 注意:如果输入的,这也不是素数:如果,你需要打表的范围就更大了,因为不是素数. AC代码 #include < ...

  8. nyoj1204 魔法少女 线性DP

    d[i][0]表示到达第i层,且在第i层没有使用魔法的最少时间 d[i][1]表示到达第i层,且在第i层使用魔法通过一层 d[i][2]表示到达第i层,且在第i层使用魔法通过两层 状态转移方程: d[ ...

  9. SpringBoot SpringSecurity4整合,灵活权限配置,弃用注解方式.

    SpringSecurity 可以使用注解对方法进行细颗粒权限控制,但是很不灵活,必须在编码期间,就已经写死权限 其实关于SpringSecurity,大部分类都不需要重写,需要的只是妥善的配置. 每 ...

  10. Shell——数学计算

    shell中的赋值和操作默认都是字符串处理,在此记下shell中进行数学运算的几个特殊方法,以后用到的时候可以来看,呵呵1.错误方法举例 a) var=1+1 echo $var 输出的结果是1+1, ...