java使用itex读取pdf，并搜索关键字，为其盖章

导读：近期要做一个根据关键字定位pdf的盖章位置的相关需求，其中关键字可配置多个（包含pdf文档中可能不存在的关键字），当页面显示盖章完成时，打开pdf显示已经损坏。
排查后发现，当itext搜索的关键字在pdf文档中不存在时，就已经将结果返回到前台界面，这时itex读取的流还未关闭，导致pdf读取未结束，pdf文档才被损坏。
下面是读取pdf的操作，记录一下：
所需包： itext-2.06.jar itext-asian,jar itextpdf-5.4.0.jar

 /****搜索关键字操作：****/

   /*sourcePDF: pdf的文档路径

   splitParentkeyValues[i]:关键字，其中对关键字进行特殊符号的过滤，不然会导致后面的匹配结果有误。*/

   matches = MatchItemUtil.matchPage(sourcePDF, splitParentkeyValues[i]);

 /*找出关键字后，将要盖章的图片准确定位到关键字周围，也可以采用坐标的方式**/

 MatchItem matchItem  = new MatchItem();

 int pageNum = matches.get(j).getPageNum();

 float pageWidth = reader.getPageSize(pageNum).getWidth();

 float pageHeight = reader.getPageSize(pageNum).getHeight();

 matchItem.setX(matches.get(j).getX()-splitParentkeyValues.length * 20);

 matchItem.setY(matches.get(j).getY() - 150 / 1.527731f);

 img.setAbsolutePosition(matchItem.getX(), matchItem.getY());// 位置

 PdfContentByte over = stamp.getOverContent(pageNum);

 over.addImage(img);

1. //根据关键字和pdf路径，全文搜索关键字

 /**

 查找所有

 @param fileName 文件路径

 @param keyword 关键词

 @return

 @throws Exception

 */

 public static List matchPage(String fileName,String keyword) throws Exception {

 List items = new ArrayList();

 PdfReader reader = new PdfReader(fileName);

 int pageSize = reader.getNumberOfPages();

 for(int page = 1;page <= pageSize;page++){

 items.addAll(matchPage(reader,page,keyword));

 }

 return items;

 }

2. 根据关键字、文档路径、pdf页数寻找特定的文件内容

 /**

 在文件中寻找特定的文字内容

 @param reader

 @param pageNumber

 @param keyword

 @return

 @throws Exception

 */

 public static List matchPage(PdfReader reader, Integer pageNumber,String keyword) throws Exception {

 KeyWordPositionListener renderListener = new KeyWordPositionListener();

 renderListener.setKeyword(keyword);

 PdfReaderContentParser parse = new PdfReaderContentParser(reader);

 Rectangle rectangle = reader.getPageSize(pageNumber);

 renderListener.setPageNumber(pageNumber);

 renderListener.setCurPageSize(rectangle);

 parse.processContent(pageNumber, renderListener);

 return findKeywordItems(renderListener,keyword);

 }

3. 找到匹配的关键词块

/**

找到匹配的关键词块

@param renderListener

@param keyword

@return

*/

public static List findKeywordItems(KeyWordPositionListener renderListener,String keyword){

//先判断本页中是否存在关键词

List allItems = renderListener.getAllItems();//所有块LIST

StringBuffer sbtemp = new StringBuffer(“”);

for(MatchItem item : allItems){//将一页中所有的块内容连接起来组成一个字符串。

sbtemp.append(item.getContent());

}

if(sbtemp.toString().indexOf(keyword) == -1){//一页组成的字符串没有关键词，直接return

return renderListener.getMatches();

}

//第一种情况：关键词与块内容完全匹配的项

List matches = renderListener.getMatches();

//第二种情况：多个块内容拼成一个关键词，则一个一个来匹配，组装成一个关键词

sbtemp = new StringBuffer(“”);

List tempItems = new ArrayList();

for(MatchItem item : allItems){

//1，关键词中存在某块 2，拼装的连续的块=关键词 3，避开某个块完全匹配关键词

//关键词 中国移动 而块为 中 ，国，移动

//关键词 中华人民 而块为中，华人民共和国 这种情况解决不了，也不允许存在

if(keyword.indexOf(item.getContent()) != -1 && !keyword.equals(item.getContent())){

tempItems.add(item);

sbtemp.append(item.getContent());

if(keyword.indexOf(sbtemp.toString()) == -1){//如果暂存的字符串和关键词 不再匹配时

sbtemp = new StringBuffer(item.getContent());

tempItems.clear();

tempItems.add(item);

}

if(sbtemp.toString().equalsIgnoreCase(keyword)){//暂存的字符串正好匹配到关键词时

MatchItem tmpitem = getRightItem(tempItems, keyword);

if(tmpitem != null){

matches.add(tmpitem);//得到匹配的项

}

sbtemp = new StringBuffer(“”);//清空暂存的字符串

tempItems.clear();//清空暂存的LIST

continue;//继续查找

}

}else{//如果找不到则清空

sbtemp = new StringBuffer(“”);

tempItems.clear();

}

}

//第三种情况：关键词存在块中

for(MatchItem item : allItems){

if(item.getContent().indexOf(keyword) != -1 && !keyword.equals(item.getContent())){

matches.add(item);

}

}

return matches;

}

public static MatchItem getRightItem(List<MatchItem> tempItems,String keyword){

for(MatchItem item:tempItems){

　　　　if(keyword.indexOf(item.getContent()) != -1 && !keyword.equals(item.getContent())){

　　　　　　return item;

　　　　}

　　} return null;

}

4. KeyWordPositionListener用来匹配pdf的关键词

import java.util.ArrayList;

import java.util.List;

import org.apache.log4j.Logger;

import org.drools.util.StringUtils;

import com.itextpdf.awt.geom.Rectangle2D;

import com.itextpdf.text.Rectangle;

import com.itextpdf.text.pdf.parser.ImageRenderInfo;

import com.itextpdf.text.pdf.parser.RenderListener;

import com.itextpdf.text.pdf.parser.TextRenderInfo;

public class KeyWordPositionListener implements RenderListener {

private static Logger logger = Logger.getLogger(KeyWordPositionListener.class);

private List<MatchItem> matches = new ArrayList<MatchItem>();

private List<MatchItem> allItems = new ArrayList<MatchItem>();

private Rectangle curPageSize;

/**

 * 匹配的关键字

 */

private String keyword;

/**

 * 匹配的当前页

 */

private Integer pageNumber;

public void beginTextBlock() {

    //do nothing

}

public void renderText(TextRenderInfo renderInfo) {

    String content = renderInfo.getText();

    content = content.replace("<", "").replace("《", "").replace("(", "").replace("（", "").replace("\"", "").replace("'", "")

                     .replace(">", "").replace("》", "").replace(")", "").replace("）", "").replace("、", "").replace(".", "")

                     .replace("：", "").replace(":", "").replace(" ", "");

    Rectangle2D.Float textRectangle = renderInfo.getDescentLine().getBoundingRectange();

    MatchItem item = new MatchItem();

    item.setContent(content);

    item.setPageNum(pageNumber);

    item.setPageWidth(curPageSize.getWidth());

    item.setPageHeight(curPageSize.getHeight());

    item.setX((float)textRectangle.getX());

    item.setY((float)textRectangle.getY());

    if(!StringUtils.isEmpty(content)){

        if(content.equalsIgnoreCase(keyword)) {

            matches.add(item);

        }

    }else{

        item.setContent("空字符串");

    }

    allItems.add(item);//先保存所有的项

}

public void endTextBlock() {

    //do nothing

}

public void renderImage(ImageRenderInfo renderInfo) {

    //do nothing

}

/**

 * 设置需要匹配的当前页

 * @param pageNumber

 */

public void setPageNumber(Integer pageNumber) {

    this.pageNumber = pageNumber;

}

/**

 * 设置需要匹配的关键字，忽略大小写

 * @param keyword

 */

public void setKeyword(String keyword) {

    this.keyword = keyword;

}

/**

 * 返回匹配的结果列表

 * @return

 */

public List<MatchItem> getMatches() {

    return matches;

}

void setCurPageSize(Rectangle rect) {

    this.curPageSize = rect;

}

public List<MatchItem> getAllItems() {

    return allItems;

}

public void setAllItems(List<MatchItem> allItems) {

    this.allItems = allItems;

}

}

5. 用来保存关键字新建的对象

public class MatchItem {

private Integer pageNum;

private Float x;

private Float y;

private Float pageWidth;

private Float pageHeight;

private String content;

public Integer getPageNum() {

    return pageNum;

}

public void setPageNum(Integer pageNum) {

    this.pageNum = pageNum;

}

public Float getX() {

    return x;

}

public void setX(Float x) {

    this.x = x;

}

public Float getY() {

    return y;

}

public void setY(Float y) {

    this.y = y;

}

public Float getPageWidth() {

    return pageWidth;

}

public void setPageWidth(Float pageWidth) {

    this.pageWidth = pageWidth;

}

public Float getPageHeight() {

    return pageHeight;

}

public void setPageHeight(Float pageHeight) {

    this.pageHeight = pageHeight;

}

public String getContent() {

    return content;

}

public void setContent(String content) {

    this.content = content;

}

public String toString() {

    return "MatchItem [pageNum=" + pageNum + ", x=" + x + ", y=" + y

            + ", pageWidth=" + pageWidth + ", pageHeight=" + pageHeight

            + ", content=" + content + "]";

}

}

java使用itex读取pdf，并搜索关键字，为其盖章的更多相关文章

Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Ja ...
Java 读取PDF中的表格
一.概述本文以Java示例展示读取PDF中的表格的方法.这里导入Spire.PDF for Javah中的jar包,并使用其提供的相关及方法来实现获取表格中的文本内容.下表中整理了本次代码使用到的主 ...
java操作office和pdf文件java读取word，excel和pdf文档内容
在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应 ...
java读取pdf总结
第三方软件 1.pdfbox PDFBox 0.7.3.PDFBox是一个开源的对pdf文件进行操作的库. PDFBox-0.7.3.jar加入classpath.同时FontBox1.0.jar加入 ...
java读取pdf文本转换html
补充:一下代码基于maven,现将依赖的jar包单独导出地址:pdf jar 完整代码地址也就两个文件 java读取pdf中的纯文字,这里使用的是pdfbox工具包 maven引入如下配置 < ...
【PDF】java使用Itext生成pdf文档--详解
[API接口] 一.Itext简介 API地址:javadoc/index.html:如 D:/MyJAR/原JAR包/PDF/itext-5.5.3/itextpdf-5.5.3-javadoc/ ...
Itext读取PDF模板文件渲染数据后创建新文件
Maven导入依赖 <properties> <itextpdf.version>5.5.0</itextpdf.version> <itext-asian. ...
java实现批量下载百度图片搜索到的图片
就是写的个小程序,用于记录一下,方便后续查看,首先感谢下面这个博客,从这篇文章衍生的吧,大家可以学习下: http://www.cnblogs.com/lichenwei/p/4610298.html ...
新知识：Java 利用itext填写pdf模板并导出（昨天奋战到深夜四点，知道今天两点终于弄懂）
废话少说,不懂itext干啥用的直接去百度吧. ***************制作模板******************* 1.先用word做出界面 2.再转换成pdf格式 3.用Adobe Acr ...

随机推荐

vue - vue + vue-router + vuex 简单项目
简单的,我的首页,我的笔记项目 vue + vue-router + vuex View + VM(ViewModel) + Model (webpack) vue init webpack lint ...
20144306《网络对抗》MAL_PC平台逆向破解_Advanced
PC平台逆向破解_Advanced 一.注入shellcode并执行 1.什么是shellcode? shellcode顾名思义就是一段为了获取交互式shell的机器指令,是用来发送到服务器利用特定漏 ...
蔡勒(Zeller)公式--黑色星期五
求某年某月某日是周几; 蔡勒(Zeller)公式: w=y+[y/4]+[c/4]-2c+[26(m+1)/10]+d-1 ;y是年的后两位:c是世纪数-1(年的前两位):m是月份,大于等于3,小于等 ...
【Jmeter】如何通过文件导入方式对用户名和密码进行参数化设置
JMeter 参数化注意:param和data body只能用一个.所有任何一个里面有内容,切换都会报错,这不是问题,jmeter是这么设计的方法一:通过添加CSV Data Set Config ...
1.cassandra的搭建
参考: https://blog.csdn.net/ch648966459/article/details/51671276
java读取resource目录下的配置文件
java读取resource目录下的配置文件 1:配置resource目录下的文件 host: 127.0.0.1 port: 9300 2:读取 / 代表resource目录 InputSt ...
PAT 1070 Mooncake[一般]
1070 Mooncake (25)(25 分) Mooncake is a Chinese bakery product traditionally eaten during the Mid-Aut ...
javascript按字节截取标题中字符串
在网页展示中经常会碰到,标题过长,需要截取字符串,用CSS的实现的话各种兼容问题,下面为大家介绍下javascript如何按字节截取字符串做为一个前端开发人员在网页展示中经常会碰到,标题过长,需要截 ...
使用Fiddler远程抓包
Fiddler简介以及web抓包一.Fiddler简介简单来说,Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯.网上简介很多,我们不多说. 二 ...
Fuzzy and fun on Air Jordan 12 Doernbecher design
Carissa Navarro keeps it warm, fuzzy and fun on her 2017 Air Jordan 12 Doernbecher design. Nike's 20 ...

java使用itex读取pdf，并搜索关键字，为其盖章

java使用itex读取pdf，并搜索关键字，为其盖章的更多相关文章

随机推荐

热门专题