使用itextpdf提取pdf内容

 package test;

 import java.io.FileInputStream;

 import java.io.IOException;

 import java.util.ArrayList;

 import java.util.List;

 import java.util.regex.Pattern;

 import org.apache.pdfbox.cos.COSDocument;

 import org.apache.pdfbox.pdfparser.PDFParser;

 import org.apache.pdfbox.util.PDFTextStripper;

 import com.itextpdf.text.pdf.PdfReader;

 import com.itextpdf.text.pdf.parser.PdfTextExtractor;

 public class UploadUtils {

     private final static Pattern pattern = Pattern.compile("\\d+");

     private final static int stateParaOverFlag = 800;

     private final static int thankParaOverFlag = 800;

     /**

      * 读取pdf参考文献内容

      *

      * @param s

      * @return

      */

     public String readPdf(String filePath) {

         StringBuilder buffer = new StringBuilder();

         FileInputStream fis = null;

         PdfReader pdfReader = null;

         COSDocument cosDocument = null;

         String[] paragraphs = null;

         PDFParser p;

         boolean addBool = true;

         boolean judgeState = false;

         boolean judgeThank = false;

         StringBuilder tempSb = new StringBuilder();

         try {

             fis = new FileInputStream(filePath);

             p = new PDFParser(fis);

             p.parse();

             cosDocument = p.getDocument();

             // 加密文档判断

             if (cosDocument.isEncrypted()) {

                 StringBuilder tempContent = new StringBuilder();

                 pdfReader = new PdfReader(filePath);

                 int i = pdfReader.getNumberOfPages();

                 for (int j = 1; j <= i; j++) {

                     tempContent.append(PdfTextExtractor.getTextFromPage(pdfReader, j));

                 }

                 paragraphs = tempContent.toString().split("\n");

             } else {

                 PDFTextStripper ts = new PDFTextStripper();

                 paragraphs = ts.getText(p.getPDDocument()).split("\n");

             }

             boolean mark = false;

             List<Integer> errornum = new ArrayList<Integer>();

             int flag = 0;

             int endRange = paragraphs.length * 70 / 100;

             int rangeFlag = 0;

             for (String lineContent : paragraphs) {

                 if (judgeState) {

                     tempSb.append(lineContent);

                     if (tempSb.length() >= stateParaOverFlag) {

                         judgeState = false;

                         addBool = true;

                         tempSb.delete(0, tempSb.length() - 1);

                     }

                 }

                 if (judgeThank) {

                     tempSb.append(lineContent);

                     if (tempSb.length() >= thankParaOverFlag) {

                         judgeThank = false;

                         addBool = true;

                         tempSb.delete(0, tempSb.length() - 1);

                     }

                 }

                 if (addBool) {

                     buffer.append(lineContent);

                 }

                 if (mark && rangeFlag >= endRange) {

                     if (lineContent.length() < 5) {

                         errornum.add(++flag);

                         rangeFlag++;

                         continue;

                     }

                     if (pattern.matcher(lineContent.substring(0, 5)).find()) {

                         if (flag != 0) {

                             flag = 0;

                             errornum.clear();

                         }

                     } else {

                         errornum.add(++flag);

                     }

                     if (errornum.size() > 2) {

                         mark = false;

                     }

                 }

                 rangeFlag++;

             }

         } catch (Exception e) {

             e.printStackTrace();

         } finally {

             if (fis != null) {

                 try {

                     fis.close();

                 } catch (IOException e) {

                     e.printStackTrace();

                 } finally {

                     fis = null;

                 }

             }

             if (pdfReader != null) {

                 pdfReader.close();

             }

             if (cosDocument != null) {

                 try {

                     cosDocument.close();

                 } catch (IOException e) {

                     e.printStackTrace();

                 } finally {

                     cosDocument = null;

                 }

             }

         }

         return buffer.toString();

     }

     public static boolean isBlank(CharSequence cs) {

         int strLen;

         if (cs == null || (strLen = cs.length()) == 0) {

             return true;

         }

         for (int i = 0; i < strLen; i++) {

             if (Character.isWhitespace(cs.charAt(i)) == false) {

                 return false;

             }

         }

         return true;

     }

     public static void main(String[] args) {

         // System.err.println(new UploadUtils()

         // .readPdf("/opt/fileCache/2014/125/13/shuangping_D7037870CF4FC5C421A3E5359DCF8BBE.pdf"));

         System.err.println(new UploadUtils().readPdf("E:\\MyWork\\guyezhai\\pdf提取\\路径依赖视角下高校新专业建设的策略创新(1).pdf"));

     }

 }

其中用到的jar包：

bcpkix-jdk15on-1.47.jar

bcprov-jdk15on-1.49.jar

commons-logging-1.1..jar

fontbox-1.8..jar

icu4j-4.0..jar

itextpdf-5.4..jar

jempbox-1.8..jar

pdfbox-1.8..jar

使用itextpdf提取pdf内容的更多相关文章

利用python第三方库提取PDF文件的表格内容
小爬最近接到一个棘手任务:需要提取手机话费电子发票PDF文件中的数据.接到这个任务的第一时间,小爬决定搜集各个地区各个时间段的电子发票文件,看看其中的差异点.粗略统计下来,PDF文件的表格框架是统一的 ...
java 获取pdf内容
1. 说明将pdf中的文字读取处理还有一些限制:1. 文档的安全属性不能过于严格 2. 不能存在图片. 2. 直接贴相关的源码有两种读取方式,maven对应的pom文件 <dependenc ...
Python使用Tabula提取PDF表格数据
今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...
LIMS系统仪器数据采集-使用xpdf解析pdf内容
不同语言解析PDF内容都有各自的库,比如Java的pdfbox,.net的itextsharp. c#解析PDF文本,关键代码可参考: http://www.cnblogs.com/mahongbia ...
Java从URL获取PDF内容
Java直接URL获取PDF内容题外话网上很多Java通过pdf转 HTML,转文本的,可是通过URL直接获取PDF内容,缺没有,浪费时间,本人最近工作中刚好用到,花了时间整理下,分享出来,防止浪 ...
Java之生成Pdf并对Pdf内容操作
虽说网上有很多可以在线导出Pdf或者word或者转成png等格式的工具,但是我觉得还是得了解知道是怎么实现的.一来,在线免费转换工具,是有容量限制的,达到一定的容量时,是不能成功导出的;二来,业务需求 ...
Java文件操作系列[1]——PDFBox实现分页提取PDF文本
需求:用java分页提取PDF文本. PDFBox是一个很好的可以满足上述需求的开源工具. 1.PDF文档结构要解析PDF文本,我们首先要了解PDF文件的结构. 关于PDF文档,最重要的几点: 一, ...
Java 添加、提取PDF中的图片
Spire.Cloud.SDK for Java提供了PdfImagesApi接口可用于添加图片到PDF文档addImage().提取PDF中的图片extractImages(),具体操作步骤和Jav ...
spring boot:用itextpdf处理pdf表格文件（spring boot 2.3.2）
一,什么是itextpdf? 1,itextpdf的用途 itextpdf是用来生成PDF文档的一个java类库, 通过iText可以生成PDF文档, 还可以把XML/Html文件转化为PDF文件 2 ...

随机推荐

Alpha 冲刺（10/10）
队名火箭少男100 组长博客林燊大哥作业博客 Alpha 冲鸭鸭鸭鸭鸭鸭鸭鸭鸭鸭! 成员冲刺阶段情况林燊(组长) 过去两天完成了哪些任务协调各成员之间的工作测试整体软件展示GitHub当 ...
CodeForces 57C Array 组合计数+逆元
题目链接: http://codeforces.com/problemset/problem/57/C 题意: 给你一个数n,表示有n个数的序列,每个数范围为[1,n],叫你求所有非降和非升序列的个数 ...
VS2013安装及单元测试
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAZ0AAAIlCAIAAACBzLJwAAAACXBIWXMAAA7EAAAOxAGVKw4bAAAgAE ...
Alpha - Postmortem
Alpha - Postmortem NewTeam 2017/11/18 目录设想和目标计划资源变更管理设计/实现测试/发布团队角色.管理.合作总结设想和目标返回目录 1. 软件 ...
ViewController 视图控制器的常用方法
ViewController 视图控制器 ,是控制界面的控制器,通俗的来说,就是管理我们界面的大boss,视图控制器里面包含了视图,下面举个例子,让视图在两个视图上调转. 定义一个视图控制器: MyV ...
对小组项目alpha发布的评价
第一组:新蜂小组项目:俄罗斯方块评论:看见同学玩的时候,感到加速下落时不是很灵敏,没有及成绩的功能,用户的界面仍在修正. 第二组:天天向上项目:连连看评论:这个游戏增加了很多好玩的功能,比如更 ...
node.js入门(一)
NodeJS是一个使用了Google高性能V8引擎的服务器端JavaScript实现.它提供了一个(几乎)完全非阻塞I/O栈,与JavaScript提供的闭包和匿名函数相结合,使之成为编写高吞吐量网 ...
laravel获取当前认证用户登录
可以通过Auth门面访问认证用户: 要在方法上面声明 use Auth: 获取当前认证用户使用 $user = Auth::user(); 获取用户认证ID $id = Auth::id;
PHP中与类有关的运算符
与类有关的运算符: new, instanceof:判断一个“变量”(对象,数据),是否是某个类的“实例”: 示意如下: class A {} class B {} class C extend ...
Spring Boot 学习资料【m了以后看】（转）
推荐博客: 程序员DD SpringBoot集成 liaokailin的专栏纯洁的微笑 SpringBoot揭秘与实战 catoop的专栏方志朋Spring Boot 专栏简书Spring Bo ...

使用itextpdf提取pdf内容

使用itextpdf提取pdf内容的更多相关文章

随机推荐

热门专题