PDF解析

解析如下图PDF文件

using System;

using System.Collections.Generic;

using System.Linq;

using System.Text;

using System.Threading.Tasks;

using Aspose.Pdf;

using Aspose.Pdf.Text;

using System.IO;

using System.Text.RegularExpressions;

namespace Test

{

    class Program

    {

        //2个空格以上，意味着匹配出现了问题，匹配后面的

        private static  Regex r = new Regex(@"\s+\S+\s+");

        //1个空格，且字数超过15，是有问题的

        private static Regex r1 = new Regex(@"^\S+\s+\S+$");

        static void Main(string[] args)

        {

            string file = Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "Files", "模板.pdf");

            Document doc = new Document(file);

            var absorber = new TextAbsorber();

            doc.Pages.Accept(absorber);

            string content = absorber.Text;//将PDF文件解析为一串字符串保存到content变量

            string age = GetContentStr(content, "年  龄:,\n");//age=44

        }

        //

        protected static string GetContentStr(string content, string search)

        {

            if (string.IsNullOrEmpty(search)) return null;

            var arrsearch = search.Split(new string[] { "||" }, StringSplitOptions.RemoveEmptyEntries);//TODO:这句代码干嘛用,这个方法的逻辑****************************************************/

            {

                for (int i = ; i < arrsearch.Length; i++)

                {

                    var ses = arrsearch[i].Split(new char[] { ',' }, StringSplitOptions.RemoveEmptyEntries);

                    if (ses.Length == )//默认值   为啥*****************************/

                    {

                        return ses[];

                    }

                    //如果有逗号隔开的，就用正则表达式进行搜索

                    var reg = new Regex(ses[]);

                    var m = reg.Match(content);

                    if (m.Success)

                    {

                        reg = new Regex(ses[]);

                        var index = m.Index + m.Length;

                        m = reg.Match(content, index);

                        if (m.Success)

                        {

                            var len = m.Index - index;

                            var re = content.Substring(index, len).Trim();

                            if (!string.IsNullOrEmpty(re) && !r.IsMatch(re) && !(r1.IsMatch(re) && re.Length >= ))//搜索成功之后，用什么标准认为结果是我们要的？

                            {

                                return re.Trim();

                            }

                        }

                    }

                }

            }

            return null;

        }

    }

}

PDF解析的更多相关文章

PDF解析记录——Pdfbox
此文仅作记录[嫌放电脑里碍事-_-],内容为以前收集的一小段代码. 下面为pdf获取文本的简要代码片段: private string GetPDFText(string filename) { ...
pdf解析与结构化提取
#PDF解析与结构化提取##PDF解析对于PDF文档,我们选择用PDFMiner对其进行解析,得到文本.###PDFMinerPDFMiner使用了一种称作lazy parsing的策略,只在需要的时 ...
PDF解析帮助类
public class ComPDFHepler { /// <summary> /// 正则获取字符串中两个字符串间的内容 /// </summary> /// <p ...
PDF解析。。。
解析出PDF中的文字.用项目名称作Key取对应的值.. 正则匹配 .....:..\n
AFL++初探-手把手Fuzz一个PDF解析器
CVE-2019-13288 目前漏洞在正式版本已经被修复,本文章仅供学习Fuzz过程,不存在漏洞利用的内容这是一个pdf查看器的漏洞,可能通过精心制作的文件导致无限递归,由于程序中每个被调用的函数 ...
Python使用PDFMiner解析PDF
近期在做爬虫时有时会遇到网站只提供pdf的情况,这样就不能使用scrapy直接抓取页面内容了,只能通过解析PDF的方式处理,目前的解决方案大致只有pyPDF和PDFMiner.因为据说PDFMiner ...
php抓取图片进行内容提取解析，文字性pdf进行内容文字提取解析
2018年7月7日18:52:17 php是用纯算法,自己是提取图片内容不是不行,可以但是优化起来很麻烦还得设计学习库,去矫正数据的正确率对于大多数项目来说,如果不是做ocr服务,就不必要做需求工具 ...
深入学习Python解析并解密PDF文件内容的方法
前面学习了解析PDF文档,并写入文档的知识,那篇文章的名字为深入学习Python解析并读取PDF文件内容的方法. 链接如下:https://www.cnblogs.com/wj-1314/p/9429 ...
深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

随机推荐

Talend 从Excel导入Saleforce数据(一) 直接从salesforce lookup 性能的噩梦
速度的瓶颈是在查询Sales force是否有该电话号码的联系人资料. TMap属性的 lookup Model, 如果用Load Once, 则会把SaleForce的contact全部load下来 ...
20145320《Java程序设计》第四次实验报告
20145320<Java程序设计>第四次实验报告北京电子科技学院(BESTI)实验报告课程:Java程序设计班级:1453 指导教师:娄嘉鹏实验日期:2016.04.26 15: ...
leetcode_199 Binary Tree Right Side View
题目: Given a binary tree, imagine yourself standing on the right side of it, return the values of the ...
Python 时间和日期模块的常用例子
获取当前时间的两种方法 import datetime,time now = time.strftime("%Y-%m-%d %H:%M:%S") print now now = ...
将数组里的元素拼接成sql里的in条件
/** * 将数组里的元素拼接成sql里的in条件,如'a1','a2','a3' * @param array * @returns */function makeSqlInStr(array){ ...
(1) 深入理解Java虚拟机到底是什么?
好文转载:http://blog.csdn.net/zhangjg_blog/article/details/20380971 什么是Java虚拟机作为一个Java程序员,我们每天都在写Java ...
Android study first ----------安卓项目目录结构及adb指令
#Android项目的目录结构 * Activity:应用被打开时显示的界面 * src:项目代码 * R.java:项目中所有资源文件的资源id * Android.jar:Android的jar包 ...
GZFramework代码生成器插件使用教程
代码生成器分两种 1.基于独立exe生成程序直接运行软件目录下GZFrameworkCodeGenerate.exe文件即可 2.基于VS插件生成目录中分为两部分:全局缓存和VS插件 1.添加全局 ...
Winform开发框架之单据窗体生成(主从表，流水单号)
源码地址:https://github.com/GarsonZhang/GZFramework.ShareDemo 前言 1.在开始本节前请先重置代码为 chapter-03-start 懒人地址:h ...
[转] 浅谈Linux系统的启动流程
原文:http://blog.csdn.net/justdb/article/details/9621271 版权声明:本文为博主原创文章. Linux系统的启动时通过读取不同的配置文件,执行相应的S ...

PDF解析

PDF解析的更多相关文章

随机推荐

热门专题