robotframework 测试工具添加PDF文件内容匹配插件

robotframework 这个需要了解的请度娘。本文实现的是一个小功能。大体分为如下几个步骤

1）给定一个pdf文件。

2）读取pdf文件内容，并解析为文本内容。

3）通过给定的内容，比对pdf文件内容。

4）输出测试结果。

5）发送结果到指定邮件。

其中读取pdf文件内容，使用的是pdfminer

其他的就是自己包装。

涉及到部分隐私内容，部分代码如下：

# -*- coding: UTF-8 -*-

# coding=utf-8

#from __future__ import unicode_literals

import sys

import os

import subprocess

import time

import re

from robot.libraries.BuiltIn import BuiltIn

from mailcommon import mailcommon

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice, TagExtractor

from pdfminer.pdfpage import PDFPage

from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter

from pdfminer.cmapdb import CMapDB

from pdfminer.layout import LAParams

from pdfminer.image import ImageWriter

import cStringIO

#reload(sys)

#sys.setdefaultencoding('utf-8')

class pdfContentKeywords(object):

    ROBOT_LIBRARY_SCOPE = 'Global'

    root = os.path.abspath(os.path.join(__file__, '..'))

    def __init__(self):

        self.builtin = BuiltIn()

    def handlepdf(self, path, param_dict,email, fail=True):

        ''' Reads a specified directory pdf file and diff ...

        `path`: pdf file path

        `param_dict`: Require comparison data

        `fail`:  If there are differences it will throw an exception and test will fail

                 defaults to True, if False test's will continue '''

        param_dict=eval(param_dict)

        self.builtin.log("pdf: %s" %path)

        self.builtin.log("param: %s" %param_dict)

        fail = self.builtin.convert_to_boolean(fail)

        result=dict

        if fail:

            result=self._diffContent(path, param_dict)

        else:

            try:

                result=self._diffContent(path, param_dict)

            except Exception, e:

                self.builtin.log(e)

        msg=''

        for i in result:

            print u"result:%s=" % i,result[i]

            #print self.builtin.log(i)

            msg+="=>".join([i,str("检验通过" if result[i]==1 else "检验没通过")])

        mail_obj=mailcommon()

        print u"mail MSG:%s" % msg

        maillist=[]

        maillist.append(email)

        mail_obj.send_mail(maillist,'测试结果分析',msg);

        self.builtin.log("End")

    def _readPdf(self,path):

        caching = False

        password = ''

        pagenos = set()

        maxpages = 0

        # output option

        outfile = None

        outtype = None

        imagewriter = None

        rotation = 0

        layoutmode = 'normal'

        codec = 'utf-8'

        pageno = 1

        scale = 1

        showpageno = True

        laparams = LAParams()

        content=''

        outfp=cStringIO.StringIO()

        try:

            rsrcmgr = PDFResourceManager(caching=caching)

            device = TextConverter(rsrcmgr, outfp, codec=codec, laparams=laparams,

                                       imagewriter=imagewriter)

            fp = file(path, 'rb')

            interpreter = PDFPageInterpreter(rsrcmgr, device)

            for page in PDFPage.get_pages(fp, pagenos,

                                            maxpages=maxpages, password=password,

                                            caching=caching, check_extractable=True):

                page.rotate = (page.rotate+rotation) % 360

                interpreter.process_page(page)

            fp.close()

            device.close()

            content= outfp.getvalue()

            outfp.close()

        except Exception, e:

            print "Exception:%s",e

            self.builtin.log(e)

        content=content.replace('\n','').replace('\t','').strip('\n')

        print u"pdf file content:%s"% content#.encode('utf-8').strip()

        return content

    def _diffContent(self,path,p_dict):

        result=dict()

        try:

            pdfContent=self._readPdf(path)

            fail=0

            for i in p_dict:

              print "dict[%s]=" % i,p_dict[i]

              if re.search(r''+i+p_dict[i] ,pdfContent,re.I | re.M|re.X):

                fail=1

              result[i+p_dict[i]]=fail

        except Exception, e:

            print "Exception:%s",e

            self.builtin.log(e)

        return result

if __name__ == "__main__":

    d = pdfContentKeywords()

    print d.handlepdf("C:\\Print.pdf",{"船名/航次:":"CMACGMFIDELIO/B14WESVLC/VALENCIA"},'roger_he@5uzh.com',False)

    #d._readPdf("")

robotframework 测试工具添加PDF文件内容匹配插件的更多相关文章

如何修改PDF文件内容，PDF怎么添加背景
很多的情况下,大家都会遇到PDF文件,不管是在学习中还是在工作中,对于PDF文件,文件的修改编辑是需要用到PDF编辑软件的,在编辑文件的时候,发现文件的页面是有背景颜色的,又该如何修改背景颜色呢,不会 ...
深入学习Python解析并解密PDF文件内容的方法
前面学习了解析PDF文档,并写入文档的知识,那篇文章的名字为深入学习Python解析并读取PDF文件内容的方法. 链接如下:https://www.cnblogs.com/wj-1314/p/9429 ...
怎么编辑PDF文件内容，PDF文件编辑方法
怎样编辑PDF文件内容?这是一个常常困扰我们的问题,工作当中我们经常会收到PDF格式的文件,但有时的文件内容不是我们想要的或者是觉得不合理的需要改掉.但是每次有这样的问题时都没有什么好的解决方法,每次 ...
编辑方法分享之如何编辑PDF文件内容
我们现在在工作中会经常使用到PDF文件,还会有遇到需要编辑PDF文件的时候,PDF文件的编辑问题一直是个大难题.很多朋友在面对PDF文件的时候束手无策,不知道该怎么对它进行编辑.下面小编就教给大家一个 ...
深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
pdf文件内容查看器 -- 采用wpf开发
前言 pdf是一种应用非常广的版式文档格式,已成为事实上的国际标准.关于pdf格式的文章汗牛充栋,本文也是关于pdf格式的文章,但是本文不是纸上谈兵:本人这几周一直研究pdf格式内容,不但对pfd格式 ...
javaWeb项目springMVC框架下利用ITextpdf 工具打印PDF文件的方法（打印表单、插入图片）
方法一:打印PDF表单以及在PDF中加入图片需要的资料: jar包:iTextAsian.jar ,itext-2.1.7.jar: 源码: public static void main(Stri ...
工具类_JavaPOI_Office文件内容读取
文件内容读取工具类,亲测可用 maven依赖: <dependency> <groupId>org.apache.poi</groupId> <artifac ...
js直接打印pdf文件内容
(1)需求:是网页上打开一个pdf文件,然后直接打开打印机,就是直接打印,不用用户再次点击打印按钮,这样用户体验好 (2)经历: 我在网上找了资料就是使用window.print(),但是这个只是打印 ...

随机推荐

String类详解，StringBuffer
先说一下String类的equals()方法. 下面我们先看一段代码: 这段代码输出的结果为: ture true -------------- false 咋看之下貌似Object类比较特别,那么我 ...
NOJ1008-第几天
第几天时间限制(普通/Java) : 1000 MS/ 3000 MS 运行内存限制 : 65536 KByte总提交 : 2701 测试通过 : 800 ...
VC中实现GCC的2个比较常用的位运算函数
在GCC中内嵌了两个位运算的函数,但在VC中并没有这两个函数(有相似函数). //返回前导的0的个数. int __builtin_clz (unsigned int x) //返回后面的0个个数,和 ...
菜鸟学习Spring——60s配置XML方法实现简单AOP
一.概述. 上一篇博客讲述了用注解的形式实现AOP现在讲述另外一种AOP实现的方式利用XML来实现AOP. 二.代码演示. 准备工作参照上一篇博客<菜鸟学习Spring--60s使用annota ...
oracle 约束
约束是表中列的属性,用来维护数据结构完整性的一种手段约束的种类:NOT NULLUNIQUEPARIAMRY KEYFOREIGN KEYCHECK enble validate 检查现有数据和新数据 ...
ASP.NET基础笔记
MSDN: ...
KnockoutJS学习笔记10：KonckoutJS foreach绑定
KnockoutJS foreach绑定用来处理数组,通常用来将一个数组绑定到一个列表或者table中.在foreach绑定中,我们可以使用if.with等嵌套绑定. 示例代码: <tabl ...
RCF
1. RCF: 纯c++的RPC, 不引入IDL, 大量用到boost,比较强大.2. casocklib: protobuf + asio 较完善实现3. eventrpc: protobuf + ...
simplexml_load_string 解析gb2312编码的xml
<?php header('Content-type:text/html;charset=UTF-8'); $url = 'http://www.xxx.com/text.xml'; $cont ...
关于 ajax 动态返回数据 css 以及 js 失效问题
ajax 毕竟是异步的所以动态加载出来的数据难免遇到 css 或者 js 失效的问题,所以要动态加载 css ji等文件了 1.公共方法 load //动态加载 js /css function ...

robotframework 测试工具添加PDF文件内容匹配插件

robotframework 测试工具添加PDF文件内容匹配插件的更多相关文章

随机推荐

热门专题