python read PDF for chinese

 import sys

 import importlib

 importlib.reload(sys)

 from pdfminer.pdfparser import PDFParser,PDFDocument

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

 from pdfminer.converter import PDFPageAggregator

 from pdfminer.layout import LTTextBoxHorizontal,LAParams

 from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

 '''

  解析pdf 文本，保存到txt文件中

 '''

 path = 'C:\\Users\\needRead.pdf'

 def parse():

     fp = open(path, 'rb') # 以二进制读模式打开

     #用文件对象来创建一个pdf文档分析器

     praser = PDFParser(fp)

     # 创建一个PDF文档

     doc = PDFDocument()

     # 连接分析器 与文档对象

     praser.set_document(doc)

     doc.set_parser(praser)

     # 提供初始化密码

     # 如果没有密码 就创建一个空的字符串

     doc.initialize()

     # 检测文档是否提供txt转换，不提供就忽略

     if not doc.is_extractable:

         raise PDFTextExtractionNotAllowed

     else:

         # 创建PDf 资源管理器 来管理共享资源

         rsrcmgr = PDFResourceManager()

         # 创建一个PDF设备对象

         laparams = LAParams()

         device = PDFPageAggregator(rsrcmgr, laparams=laparams)

         # 创建一个PDF解释器对象

         interpreter = PDFPageInterpreter(rsrcmgr, device)

         # 循环遍历列表，每次处理一个page的内容

         for page in doc.get_pages(): # doc.get_pages() 获取page列表

             interpreter.process_page(page)

             # 接受该页面的LTPage对象

             layout = device.get_result()

             # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性，

             for x in layout:

                 if (isinstance(x, LTTextBoxHorizontal)):

                     with open("C:\\Users\\trasformatResult.txt", 'a') as f:

                         results = x.get_text()

                         print(results)

                         f.write(results + '\n')

 if __name__ == '__main__':

     parse()

python read PDF for chinese的更多相关文章

Python绘制PDF文件~超简单的小程序
Python绘制PDF文件项目简介这次项目很简单,本次项目课,代码不超过40行,主要是使用 urllib和reportlab模块,来生成一个pdf文件. reportlab官方文档 http:// ...
python制作pdf电子书
python制作pdf电子书准备制作电子书使用的是python的pdfkit这个库,pdfkit是 wkhtmltopdf 的Python封装包,因此在安装这个之前要安装wkhtmltopdf 安 ...
Python处理PDF和Word文档常用的方法
Python处理PDF和Word文档的模块是PyPDF2,使用之前需要先导入. 打开一个PDF文档的操作顺序是:用open()函数打开文件并用一个变量来接收,然后把变量给传递给PdfFileReade ...
【PyMuPDF和pdf2image】Python将PDF转成图片
前言: 在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试. 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Python ...
趣学Python编程PDF高清完整版免费下载|百度网盘
百度网盘:趣学Python编程PDF高清完整版免费下载提取码:ts47 内容简介 python是一款解释型.面向对象.动态数据类型的高级程序设计语言.python语法简捷而清晰,具有丰富和强大的类库 ...
疯狂Python讲义PDF高清完整版免费下载|百度网盘
百度网盘:疯狂Python讲义PDF高清完整版免费下载提取码:uzba 内容简介 <疯狂Python讲义>既是一本适合初学者入门Python的图书(一个8岁的小朋友在未出版前已学习了本书 ...
python程序设计PDF高清完整版免费下载|百度云盘
百度云盘:python程序设计PDF高清完整版免费下载提取码:bvsz Python 程序设计基础难易程度适中.除Python应用开发基础知识之外,还适当介绍了Python标准库以及内置对象的工作原 ...
使用Python从PDF文件中提取数据
前言数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
python实用小技能分享，教你如何使用 Python 将 pdf 文档进行加密解密
上次说了怎么将word转换为pdf格式及实现批量将word转换为pdf格式(点击这里),这次我又get到一个新技能–使用 Python 将 pdf 文档进行加密解密,哈哈哈希望帮到更多人! ...

随机推荐

BootStrap table服务端分页
涉及到的内容: 1.bootstrap-table插件: 2.mybatisplus分页查询: 3.spring封装对象匹配bootstrap-table插件格式: 4.sql查询隐藏手机号中间四位. ...
Javascript / Nodejs call 和 apply
call: 改变了函数运行的作用域,即改变函数里面this的指向apply:同call,apply第二个参数是数组结构例如: this.name = 'Ab'var obj = {name: 'BB ...
[LeetCode] 734. Sentence Similarity 句子相似度
Given two sentences words1, words2 (each represented as an array of strings), and a list of similar ...
ANR无法生成traces.txt文件
在有些设备上ANR无法生成traces.txt文件,kill -3又不能准确把握时机或者没权限,可能是软件访问这个路径失败,可以在/data/anr/下面建立一个空的traces.txt,注意保证an ...
mongo的用户角色配置
mongo角色说明: Read:允许用户读取指定数据库 readWrite:允许用户读写指定数据库 dbAdmin:允许用户在指定数据库中执行管理函数,如索引创建.删除,查看统计或访问system.p ...
linux解压xz文件
本来要下一个 tar.gz 文件的,但是下了一个 xz的,以为不能用了,但是万能的百度.. 解决方法: 首先打包成tar文件 xz -d demo.tar.xz j接着用 tar -xvf demo. ...
【洛谷4482】Border的四种求法（后缀自动机_线段树合并_链分治）
这题我写了一天后交了一发就过了我好兴奋啊啊啊啊啊啊题目洛谷 4482 分析这题明明可以在线做的,为什么我见到的所有题解都是离线啊 -- 什么时候有机会出一个在线版本坑人. 题目的要求可以转化为求 ...
NFS挂载参数
mount -t nfs -o rw,bg,hard,nointr,rsize=32768,wsize=32768,tcp,actimeo=0,vers=3,timeo=6 192.168.12.50 ...
ubuntu 安装和配置 GitLab
一.概述 GitLab 是一个基于 Web 的开源 Git 软件仓库管理器,用 Ruby 编写,包括 wiki,问题管理,代码审查,监控以及持续集成和部署.它使开发人员能够创建,审查和部署他们的项目. ...
【题解】Luogu P5342 [TJOI2019]甲苯先生的线段树
原题传送门挺有趣的一道题 \(c=1\),暴力求出点权和n即可 \(c=2\),先像\(c=1\)一样暴力求出点权和n,考虑有多少路径点权和也为n 考虑设x为路径的转折点,\(L\)为\(x\)向左 ...

python read PDF for chinese

python read PDF for chinese的更多相关文章

随机推荐

热门专题