###################################处理PDF和Word文档###################################

'''

PDF和Word文档是二进制文件,除了文本之外,

它们还保存了许多字体、颜色和布局信息

'''

'''

从PDF提取文本

'''

###################################从PDF提取文本###################################

import PyPDF2

pdfFileObj=open(r'C:\Users\Administrator\Desktop\test.pdf','rb')

pdfReader=PyPDF2.PdfFileReader(pdfFileObj)

pdfReader.numPages

pageObj=pdfReader.getPage(0)

pageObj.extractText()

###################################解压PDF#########################################

import PyPDF2

pdfReader=PyPDF2.PdfFileReader(open(r'C:\Users\Administrator\Desktop\test.pdf','rb'))

pdfReader.isEncrypted    ####是否加密

pdfReader.getPage(0)

pdfReader.decrypt('rosebud')   ####提供解密口令

pageObj=pdfReader.getPage(0)

###################################创建PDF#########################################

'''

PyPDF2不能将任意文本写入PDF:

PyPDF2写入PDF的能力,仅限于从其他PDF中拷贝页面、旋转页面、重叠页面和加密文件

'''

'''

一般方式:

1、打开一个或多个已用的PDF(源PDF),得到PdfFileReader对象

2、创建一个新的PdfFileWriter对象

3、将页面从PdfFileReader对象拷贝到PdfFileWriter对象中

4、利用PdfFileWriter对象写入输出的PDF

'''

#####################################################拷贝页面###########################################################

def merge(pdf_one, pdf_two, filename='my.pdf',output_dir=r'C:\Users\Administrator\Desktop'):

input_one = file(pdf_one, 'rb')

input_two = file(pdf_two, 'rb')

pdf_input_one = PyPDF2.PdfFileReader(input_one)

pdf_input_two = PyPDF2.PdfFileReader(input_two)

numOne = pdf_input_one.getNumPages()

numTwo = pdf_input_two.getNumPages()

print numOne, numTwo

pdf_output = PyPDF2.PdfFileWriter()

for pageNum in range(numOne):

print 'hereo'

pageObj=pdf_input_one.getPage(pageNum)

pdf_output.addPage(pageObj)

for pageNum in range(numTwo):

print 'heret'

pageObj=pdf_input_two.getPage(pageNum)

pdf_output.addPage(pageObj)

pdf_name = output_dir+filename

print pdf_name

output_stream = file( pdf_name,'wb')

pdf_output.write(output_stream)

output_stream.close()

input_one.close()

input_two.close()

print 'Done!'

merge(r'C:\Users\Administrator\Desktop\Pairs_Trading_Quantitative Methods and Analysis.pdf',r'C:\Users\Administrator\Desktop\deMontjoye.SM.pdf')

#####################################################旋转页面###########################################################

'''

利用rotateClockwise()和rotateCounterClockwise()方法

PDF文档的页面也可以旋转90度的整数倍,向这些方法传入

整数90、180或270

'''

def merge(pdf_one, pdf_two, filename='my.pdf',output_dir=r'C:\Users\Administrator\Desktop'):

input_one = file(pdf_one, 'rb')

input_two = file(pdf_two, 'rb')

pdf_input_one = PyPDF2.PdfFileReader(input_one)

pdf_input_two = PyPDF2.PdfFileReader(input_two)

numOne = pdf_input_one.getNumPages()

numTwo = pdf_input_two.getNumPages()

print numOne, numTwo

pdf_output = PyPDF2.PdfFileWriter()

for pageNum in range(numOne):

print 'hereo'

pageObj=pdf_input_one.getPage(pageNum)

pageObj=pageObj.rotateClockwise(90)

pdf_output.addPage(pageObj)

for pageNum in range(numTwo):

print 'heret'

pageObj=pdf_input_two.getPage(pageNum)

pageObj=pageObj.rotateClockwise(90)

pdf_output.addPage(pageObj)

pdf_name = output_dir+filename

print pdf_name

output_stream = file( pdf_name,'wb')

pdf_output.write(output_stream)

output_stream.close()

input_one.close()

input_two.close()

print 'Done!'

merge(r'C:\Users\Administrator\Desktop\Pairs_Trading_Quantitative Methods and Analysis.pdf',r'C:\Users\Administrator\Desktop\deMontjoye.SM.pdf')

#####################################################叠加页面###########################################################

import PyPDF2

minutesFile=open(r'C:\Users\Administrator\Desktop\Pairs_Trading_Quantitative Methods and Analysis.pdf','rb')

pdfReader=PyPDF2.PdfFileReader(minutesFile)

minutesFirstPage=pdfReader.getPage(0)

pdfWatermarkReader=PyPDF2.PdfFileReader(open(r'C:\Users\Administrator\Desktop\deMontjoye.SM.pdf','rb'))

minutesFirstPage.mergePage(pdfWatermarkReader.getPage(0))

pdfWriter=PyPDF2.PdfFileWriter()

pdfWriter.addPage(minutesFirstPage)

for pageNum in range(1,pdfReader.numPages):

pageObj=pdfReader.getPage(pageNum)

pdfWriter.addPage(pageObj)

resultPdfFile=open(r'C:\Users\Administrator\Desktop\merge.pdf','wb')

pdfWriter.write(resultPdfFile)

minutesFile.close()

resultPdfFile.close()

#####################################################加密PDF###########################################################

import PyPDF2

pdfFile=file(r'C:\Users\Administrator\Desktop\deMontjoye.SM.pdf','rb')

pdfReader=PyPDF2.PdfFileReader(pdfFile)

pdfWriter=PyPDF2.PdfFileWriter()

for pageNum in range(pdfReader.numPages):

pdfWriter.addPage(pdfReader.getPage(pageNum))

pdfWriter.encrypt('swordfish')

resultPdf=file(r'C:\Users\Administrator\Desktop\t.pdf','wb')

pdfWriter.write(resultPdf)

resultPdf.close()

python自动化之PDF的更多相关文章

  1. Python自动化运维:技术与最佳实践 PDF高清完整版|网盘下载内附地址提取码|

    内容简介: <Python自动化运维:技术与最佳实践>一书在中国运维领域将有“划时代”的重要意义:一方面,这是国内第一本从纵.深和实践角度探讨Python在运维领域应用的著作:一方面本书的 ...

  2. Python自动化运维 技术与最佳实践PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书

    点击获取提取码:7bl4 一.内容简介 <python自动化运维:技术与最佳实践>一书在中国运维领域将有"划时代"的重要意义:一方面,这是国内第一本从纵.深和实践角度探 ...

  3. Selenium2+python自动化43-判断title(title_is)

    From: https://www.cnblogs.com/yoyoketang/p/6539117.html 前言 获取页面title的方法可以直接用driver.title获取到,然后也可以把获取 ...

  4. Selenium2+python自动化54-unittest生成测试报告(HTMLTestRunner)

    前言 批量执行完用例后,生成的测试报告是文本形式的,不够直观,为了更好的展示测试报告,最好是生成HTML格式的. unittest里面是不能生成html格式报告的,需要导入一个第三方的模块:HTMLT ...

  5. Selenium2+python自动化61-Chrome您使用的是不受支持的命令行标记:--ignore-certificate-errors

    前言 您使用的是不受支持的命令行标记:--ignore-certificate-errors.稳定性和安全性会有所下降 selenium2启动Chrome浏览器是需要安装驱动包的,但是不同的Chrom ...

  6. Selenium2+python自动化59-数据驱动(ddt)

    前言 在设计用例的时候,有些用例只是参数数据的输入不一样,比如登录这个功能,操作过程但是一样的.如果用例重复去写操作过程会增加代码量,对应这种多组数据的测试用例,可以用数据驱动设计模式,一组数据对应一 ...

  7. Selenium2+python自动化55-unittest之装饰器(@classmethod)

    前言 前面讲到unittest里面setUp可以在每次执行用例前执行,这样有效的减少了代码量,但是有个弊端,比如打开浏览器操作,每次执行用例时候都会重新打开,这样就会浪费很多时间. 于是就想是不是可以 ...

  8. Selenium2+python自动化52-unittest执行顺序

    前言 很多初学者在使用unittest框架时候,不清楚用例的执行顺序到底是怎样的.对测试类里面的类和方法分不清楚,不知道什么时候执行,什么时候不执行. 本篇通过最简单案例详细讲解unittest执行顺 ...

  9. selenium3+python自动化50-环境搭建(firefox)

    前言 有不少小伙伴在安装selenium环境后启动firefox报错,因为现在selenium升级到3.0了,跟2.0的版本还有有一点区别的. 安装环境过程中主要会遇到三个坑: 1.'geckodri ...

随机推荐

  1. Python2.7-sched

    sched 模块,实现了简单的事件按计划时间表执行的功能,缺点在于运行的时候会占用主线程,直到事件执行完毕,更好的方法是用 threading.Timer 类 创建实例方法: sched.schedu ...

  2. 串口通信DMA中断

    这是以前学32的时候写的,那时候学了32之后感觉32真是太强大了,比51强的没影.关于dma网上有许多的资料,亲们搜搜,这里只贴代码了,其实我也想详详细细地叙述一番,但是自己本身打字就慢,还有好多事情 ...

  3. day77

    昨日回顾:  批量插入数据:   -queryset的方法:bulk_create(对象列表,数字(一次插入多少))  分页器:   from django.core.paginator import ...

  4. 使用Gitblit 在Windows2008 r2上部署Git Server(完整版)

    第一章 前言 使用gitblit搭建git server需要配置两个大件:java jdk.gitblit 本次搭建gitServer采用是当前最新版的两个版本,分别如下: jdk:Java SE D ...

  5. VS一些快捷键

    参考网址:http://www.open-open.com/lib/view/open1412261028453.html (这里省去了很多大家闭上眼都会操作的什么Ctrl+S 等等操作 给出的大多是 ...

  6. svn up时提示跳过某节点

    # svn up    提示跳过某某节点 解决办法: # svn revert 文件path 提示下,自己改的文件确定不要被revert了,那样你就merge就好了. svn命令可参考这个文章:htt ...

  7. 【本地服务器】利用openssl生成证书

    (一)下载openssl软件,解压,进入bin目录 下载地址 (二)1.在当前bin目录,按住shift键右击,选择"在此处打开命令窗口" 2.打开cmd命令窗口之后,在窗口中输入 ...

  8. 20155234 Exp3 免杀原理与实践

    使用msf编码器生成jar包 使用指令:msfvenom -p java/meterpreter/reverse_tcp lhost=192.168.157.141 lport=5234 x> ...

  9. POJ 2299

    上课讲了下数据结构,因为暂时没找到分块的板子题,所以做一下这道题加深一下对树状数组的理解. 题意就是求逆序对,从逆序对的定义就可以看出,方法有两种:归并 or 树状数组. 感觉树状数组更高级一点,写起 ...

  10. SSISDB4:当前正在运行的Package及其Executable

    SSISDB 系列随笔汇总: SSISDB1:使用SSISDB管理Package SSISDB2:SSIS工程的操作实例 SSISDB3:Package的执行实例 SSISDB4:当前正在运行的Pac ...