pyautogui_pdf内容提取到excel内

python入门经典视频系列教程（免费，2K超清，送书）

https://study.163.com/course/courseMain.htm?courseId=1006183019&share=2&shareId=400000000398149

程序增加了智能判断时间功能，根据pdf文档页数来调整等待时间，页数越长，时间越长，反之亦然。

如果读取页数出错，说明pdf文档质量不好，则返回10秒等待时间

这样降低了错误率。

# -*- coding: utf-8 -*-

"""
作者QQ:231469242

Created on Thu May 12 11:22:57 2016

excel 会自动保存，不用再自己保存

提示：运行一次anaconda后要重新启动，anaconda和pyautogui有点不兼容

其它软件突然弹出会扰乱程序，例如杀毒软件，搜狗，对话框等弹出

pdf字符串超过8192个，也会出错，复制错位pdf

pdf内容第一个字符是等号或减号时，会提示出错信息

#最新操作法：

0.批量导入pdf文件名到excel内

1.读取所有pdf文件名，保存到list_pdf_fileNames

2.准备工作：打开pdf和excel

3.循环把所有pad内容复制粘贴到excel内

    3.1输入PDF文件名,并进入,全选内容，复制pdf内容

    3.2返回桌面，打开excel

    3.3pdf内容复制到cell内

    3.4  保存excel，关闭excel

4.保存excel，关闭excel；关闭pdf

excel快捷键：

窗口最大化：ctrl+F10

进入相应cell:F2:

切换：Alt+tab

保存：ctrl+s

关闭： alt+f4

pdf快捷键：

打开pdf文档：ctrl+o

全选：ctrl+a

复制：ctrl+c

粘贴：ctrl+v

关闭pdf文档：ctrl+w

关闭Adobe：ctrl+q

@author: Administrator

"""

import pyautogui,time,os,PyPDF2,xlrd

#任务栏锁定excel坐标（101,876） pdf坐标（174,875）

office_dir_pdf_files="C:/Users/Administrator/Desktop/pdf批量提取到excel/guide_pdf/"

home_dir_pdf_files="C:/Users/daxiong/Desktop/李佳pdf中文提取/guide_pdf/"

dir="C:/Users/Administrator/Desktop/pdf批量提取到excel/guide_pdf/"

data=xlrd.open_workbook("C:/Users/Administrator/Desktop/test1.xlsx")

table=data.sheet_by_index(0)

list_pdf_fileNames=table.col_values(0)

def Get_time(i):

    filename=dir+list_pdf_fileNames[i]

    try:

        pdfFileObj=open(filename,'rb')

        pdfReader=PyPDF2.PdfFileReader(pdfFileObj)

        pages=pdfReader.numPages #显示页数 在第4100行时读取pdfReader也会出错

    except:

        #print ("wrong when read pdf:",filename)

        sleepTime=10

        return sleepTime

    if pages<=5:

        sleepTime=2

    elif 5<pages<=10:

        sleepTime=3

    elif 10<=pages<20:

        sleepTime=5

    elif 20<=pages<30:

        sleepTime=7

    else:

        sleepTime=int(pages/6)

    return sleepTime

#返回桌面,打开pdf

def Return_desktop_open_pdf():

    #pyautogui.hotkey("winleft","d")

    #time.sleep(1)

    #打开存储PDF软件；（50,50）为pdf坐标

    pyautogui.click(174,875)

    time.sleep(1)

#返回桌面,打开excel

def Return_desktop_open_excel():

    #pyautogui.hotkey("winleft","d")

    #time.sleep(1)

    #打开存储excel软件；（55,189）为excel坐标

    pyautogui.click(101,876)

    time.sleep(1)  #双击安全参数5，特别是后期数据量变大

#保存，关闭excel

def Save_and_close_excel():

    pyautogui.hotkey("ctrl","s")

    time.sleep(10) #安全参数5-10

    #pyautogui.hotkey("alt","f4")

    #time.sleep(1) #安全参数2

#excel复制一个单元格内容

def Excel_copy_oneCellContent(i):

    pyautogui.press("f2")

    time.sleep(1)

    #粘贴信息

    pyautogui.hotkey("ctrl","v")

    sleeptime=Get_time(i)

    time.sleep(sleeptime)  #安全参数10

    pyautogui.press("enter")

    time.sleep(1)

    #pyautogui.hotkey("winleft","d")

    #time.sleep(1)

def Copy_one_pdfToExcel(i):

    fileName=list_pdf_fileNames[i]

    #循环把所有pad内容复制粘贴到excel内

    #打开存储PDF软件；（55,189）为pdf坐标

    pyautogui.click(174,875)

    time.sleep(1)

    pyautogui.hotkey("ctrl","o")

    time.sleep(1)

    #2.1输入PDF文件名,并进入

    pyautogui.typewrite(fileName)

    time.sleep(1)

    pyautogui.press("enter")

    time.sleep(1)

    #选中pdf全部内容

    pyautogui.hotkey("ctrl","a")

    time.sleep(1)

    sleeptime=Get_time(i)  #安全参数10

    #复制所有内容,等待时间设置长一点

    pyautogui.hotkey("ctrl","c")

    time.sleep(sleeptime)

    #关闭pdf文档

    pyautogui.hotkey("ctrl","w")

    time.sleep(1)  #安全参数2

    #print("ok for test")

    #2.2返回桌面，打开excel

    Return_desktop_open_excel()

    #print("ok for test1")

    #excel复制一个单元格内容

    Excel_copy_oneCellContent(i)

    #print("ok for test2")

#准备工作：excel的cell默认锁定位置是（B,2），最大化

pyautogui.doubleClick(50,50)

time.sleep(5)  #安全参数5，特别是后期数据量变大

pyautogui.hotkey("winleft","d")

time.sleep(1)

#循环把所有pad内容复制粘贴到excel内

for i in range(len(list_pdf_fileNames)):

    Copy_one_pdfToExcel(i)

#3.关闭Adobe acrobat9.0

pyautogui.hotkey("ctrl","q")

https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149（欢迎关注博主主页，学习python视频资源，还有大量免费python经典文章）

pyautogui_pdf内容提取到excel内_3的更多相关文章

POI根据EXCEL模板，修改内容导出新EXCEL （只支持HSSF）
package excelPoiTest; import java.io.File; import java.io.FileInputStream; import java.io.FileOutput ...
html table表格导出excel的方法 html5 table导出Excel HTML用JS导出Excel的五种方法 html中table导出Excel 前端开发将table内容导出到excel HTML table导出到Excel中的解决办法 js实现table导出Excel，保留table样式
先上代码 <script type="text/javascript" language="javascript"> var idTmr; ...
PHP读取Excel内的图片
今天接到了一个从Excel内读取图片的需求,在网上查找了一些资料,基本实现了自己的需求,不过由于查到的一些代码比较久远,不能直接移植到自己的项目里,需要稍加改动一下. 这里介绍一下分别使用phpspr ...
将页面上的内容导出到Excel
<asp:Button ID="lkbExport" runat="server" Name="Save" Text="导出 ...
使用NPOI将TABLE内容导出到EXCEL
项目中需要将页面中的table内容导出到EXCEL,在用了几种方法后发现NPO是最快&最好的需要应用 NPOI.dll 还有个Ionic.Zip.dll不知道有用没,没去研究,两个DLL都放 ...
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...
Python即时网络爬虫项目: 内容提取器的定义
1. 项目背景在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作 ...
API例子：用Java/JavaScript下载内容提取器
1,引言本文讲解怎样用Java和JavaScript使用 GooSeeker API 接口下载内容提取器,这是一个示例程序.什么是内容提取器?为什么用这种方式?源自Python即时网络爬虫开源项目: ...

随机推荐

linux内核分析第五次实验
给MenuOS增加time和time-asm命令上周是从用户态的观点来理解系统调用,这周从内核态出发研究系统调用,通过跟踪调试,首先把上周的两个命令加到MenuOS中: rm menu -rf 强制 ...
《Linux内核分析》第七周学习总结可执行程序的装载
第七周.可执行程序的装载一.可执行程序是如何产生的? (1).c文件gcc汇编形成.s和.asm汇编代码: (2)汇编代码经过gas变成.o目标文件: (3)目标文件变成可执行文件: (4)可执行文 ...
Linux课题实践四——ELF文件格式分析
2.4 ELF文件格式分析 20135318 刘浩晨 ELF全称Executable and Linkable Format,可执行连接格式,ELF格式的文件用于存储Linux程序.ELF文件(目 ...
<<浪潮之巅>>阅读笔记三
纵看世界,横看国内.我们国内也有很多很优秀的企业正在走向或者已经处于浪潮之巅.阿里巴巴.腾讯和百度这三巨头应该是我们计算机行业的龙头.但是不得不说,在创新方面我们做的并不多,这是值得每一个从事计算机 ...
HDOJ2009_求数列的和
简单的考察对浮点数使用的水题 HDOJ2009_求数列的和 #include<iostream> #include<stdio.h> #include<stdlib.h& ...
软件工程(GZSD2015) 第二次作业进度
贵州师范大学软件工程第二次作业徐镇王铭霞张英涂江枫张燕安坤周娟杨明颢杨家堂罗文豪娄秀盛周娟李盼岳庆张颖李丽思邓婷唐洁郑倩尚清丽陈小丽毛茸宋光能 ...
[转帖]Tomcat目录结构详解
Tomcat目录结构详解 https://www.cnblogs.com/veggiegfei/p/8474484.html 之前应该是知道一点但是没有这么系统感谢原作者的描述. 1.bin: 该 ...
cmd常用
npm install -g npm npm就自动为我们更新到最新版本 npm install -g cnpm --registry=https://registry.npm ...
React componentWillUpdate
<!DOCTYPE html><html><head lang="en"> <meta charset="UTF-8" ...
JavaScript中的Date对象在IOS中的“大坑”
在IOS5以上版本(不包含IOS5)中的Safari浏览器能正确解释出Javascript中的 new Date('2013-10-21') 的日期对象. 但是在IOS5版本里面的Safari解释ne ...

pyautogui_pdf内容提取到excel内_3

python入门经典视频系列教程（免费，2K超清，送书）

pyautogui_pdf内容提取到excel内_3的更多相关文章

随机推荐

热门专题