【转】Python读取PDF文档，输出内容

Python3读取pdf文档，输出内容（txt）

from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager,process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

import os

import re

def readPDF(pdfFile):

    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)

    device.close()

    content = retstr.getvalue()

    retstr.close()

    return content

if __name__ == '__main__':

    # pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

    filesdir = "D:\\0.shenma\\01.聊城资料\政府工作报告\\2019政府工作报告全文"

    os.chdir(filesdir)

    files = os.listdir()

    print(files)

    for file in files:

        if file.endswith(".pdf"):

            pdfFile = open(file, 'rb')

            outputString = readPDF(pdfFile)

            # print(outputString)

            try:

                outputString2 = outputString.replace("\n","")

                gdp = re.findall("生产总值(完成)?(.+?)亿元", outputString2)[0][1]

                print(file,"--","生产总值完成","--", gdp)

                ggyssr = re.findall("公共预算收入(完成)?(.+?)，", outputString2)[0][1]

                print(file, "--", "一般公共预算收入完成","--", ggyssr)

            except:

                print(file, "--", "no data")

            # fh = open(file+".txt", 'w+', encoding="utf-8")

            # fh.write(outputString2)

            # fh.close()

            pdfFile.close()

【转自】：https://www.cnblogs.com/gooseeker/p/5527519.html

仅做记录，供查。

【转】Python读取PDF文档，输出内容的更多相关文章

Python读取PDF文档
from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams from pdfminer. ...
【Win10 开发】读取PDF文档
关于用来读取PDF文档的内容的API,其实在Win8.1的时候就有,不过没关系,既咱们讨论的是10的UAP,连同8.1的内容也包括进去,所以老周无数次强调:把以前的内容学好了,就可以在不学习任何新知识 ...
Python读取word文档内容
1,利用python读取纯文字的word文档,读取段落和段落里的文字. 先读取段落,代码如下: 1 ''' 2 #利用python读取word文档,先读取段落 3 ''' 4 #导入所需库 5 fro ...
利用Python将PDF文档转为MP3音频
1. 转语音工具微信读书有一个功能,可以将书里的文字转换为音频,而且声音优化的不错,比传统的机械朗读听起来舒服很多. 记得之前看到过Python有一个工具包,可以将文字转换为语音,支持英文和中文,而 ...
python实用小技能分享，教你如何使用 Python 将 pdf 文档进行加密解密
上次说了怎么将word转换为pdf格式及实现批量将word转换为pdf格式(点击这里),这次我又get到一个新技能–使用 Python 将 pdf 文档进行加密解密,哈哈哈希望帮到更多人! ...
编写Java程序，在硬盘中选取一个 txt 文件，读取该文档的内容后，追加一段文字“[ 来自新华社 ]”，保存到一个新的 txt 文件内
查看本章节查看作业目录需求说明: 在硬盘中选取一个 txt 文件,读取该文档的内容后,追加一段文字"[ 来自新华社 ]",保存到一个新的 txt 文件内实现思路: 创建 Sa ...
python 操作pdf文档
简介在实际项目中,我们有可能需要提取当中的部分内容并导出,给PDF文件添加水印,合并多份PDF文件等等,而本文会着重用到PyPDF2模块来玩转PDF文档,以及tabula模块来对PDF文档中的表格数 ...
Python读取word文档（python-docx包）
最近想统计word文档中的一些信息,人工统计的话...三天三夜吧 python 不愧是万能语言,发现有一个包叫做 docx,非常好用,具体查看官方文档:https://python-docx.read ...
java读取pdf文档
import java.io.*;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.pdfparser.PDFParser;import o ...

随机推荐

题解洛谷P3745 【[六省联考2017]期末考试】
这题有点绕,我写了$2h$终于搞明白了. 主要思路:枚举最晚公布成绩的时间$maxt$,然后将所有公布时间大于$maxt$的课程都严格降为$maxt$即可. 在此之前,还要搞清楚一个概 ...
GITHUB添加SSH内容
首先,你需要注册一个 github账号,最好取一个有意义的名字,比如姓名全拼,昵称全拼,如果被占用,可以加上有意义的数字. 本文中假设用户名为 chuaaqiCSDN(我的博客名的全拼) 一.gihu ...
NOI.ac模拟赛20181021 ball sequence color
T1 ball 可以发现每次推动球时,是将每个球的位置 −1-1−1 ,然后把最左边的球放到 P−1P-1P−1 处. 记个 −1-1−1 次数,再用set维护就好了. #include <bi ...
SpringMVC的拦截器和数据校验
SpringMVC拦截器什么是拦截器:Spring MVC中的拦截器(Interceptor)类似于Servlet中的过滤器(Filter),它主要用于拦截用户请求并作相应的处理.例如通过拦截器可以 ...
集成腾讯Bugly日志- Android（1）
Bugly 是腾讯公司为移动开发者开放的服务之一,这里主要指 Crash 监控.崩溃分析等质量跟踪服务. 一.登录BUGLY官网 1.登录BUGLY官网以后,选择新建产品,选择IOS或ADNROID平 ...
3 Ways to Force Unmount in Linux Showing “device is busy”
3 Ways to Force Unmount in Linux Showing “device is busy” Updated August 8, 2019By Bobbin ZachariahL ...
ES特点
ES Hadoop spark的区别存(可扩展) hdfs存(可扩展) 不存 ...
VIM工具的常用命令快捷键
一.光标的移动0: 移动到行首.$: 移动到行尾.w: walk移动到下一个单词b: back 移动到上一个单词h或退格: 左移一个字符:后退l或空格: 右移一个字符:前进j: 下移一行:k: 上移一 ...
zabbix 内置key说明
原文参考:https://blog.csdn.net/whs_321/article/details/52939263 一.简介 Zabbix 内置了很多丰富的key,使得我们在添加linux os模 ...
C Primer Plus--C存储类、链接和内存管理之动态分配内存及类型限定词
目录存储类说明符存储类和函数动态分配内存 malloc函数 free函数 calloc函数动态分配内存的缺点 C类型限定关键字 constant定义全局常量 volatile关键字 restr ...

【转】Python读取PDF文档，输出内容

【转】Python读取PDF文档，输出内容的更多相关文章

随机推荐

热门专题