爬虫学习之pdf读取和存储

在py3中如需进行pdf文件操作需要加载PDFMiner3K库文件，可通过pip方式或者可以下载源文件方式安装

python3 -m pip install pdfminer3k

下载源文件方式:

1、先下载源文件

2、通过python3 setup.py install

处理Pdf文件的思路：

PDF 读成字符串，然后用StringIO 转换成文件对象

实例：

 from urllib.request import urlopen

 from io import StringIO

 from pdfminer.pdfinterp import PDFResourceManager, process_pdf

 from pdfminer.converter import TextConverter

 from pdfminer.layout import LAParams

 def readPDF(pdfFile):

     rsrcmgr = PDFResourceManager()

     retstr = StringIO()

     laparams = LAParams()

     device = TextConverter(rsrcmgr, retstr, laparams=laparams)

     process_pdf(rsrcmgr, device, pdfFile)

     device.close()

     content = retstr.getvalue()

     retstr.close()

     return  content

 pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

 outputString = readPDF(pdfFile)

 print(outputString)

 pdfFile.close()

readPDF 函数最大的好处是，如果你的PDF 文件在电脑里，你就可以直接把urlopen 返回

的对象pdfFile 替换成普通的open() 文件对象：

pdfFile = open("../pages/warandpeace/chapter1.pdf", 'rb')

输出结果可能不是很完美，尤其是当PDF 里有图片、各种各样的文本格式，或者带有表格

和数据图的时候。但是，对大多数只包含纯文本内容的PDF 而言，其输出结果与纯文本格

式基本没什么区别。

爬虫学习之pdf读取和存储的更多相关文章

爬虫学习之csv读取和存储
一.读取该读取主要使用到csv里面的Reader().DictReader()方法,和引用io里面的StringIO进行对字符串进行封装在处理网上的csv文件方式主要是有一下几方面: • 手动把C ...
Linux基础篇学习——Linux文件系统之文件存储与读取：inode，block，superblock
Linux文件类型代表符号含义 - 常规文件,即file d directory,目录文件 b block device,块设备文件,支持以"block"为单位进行随机访问 c ...
Java学习-017-EXCEL 文件读取实例源代码
众所周知,EXCEL 也是软件测试开发过程中,常用的数据文件导入导出时的类型文件之一,此文主要讲述如何通过 EXCEL 文件中 Sheet 的索引(index)或者 Sheet 名称获取文件中对应 S ...
爬虫学习之基于Scrapy的爬虫自动登录
###概述在前面两篇(爬虫学习之基于Scrapy的网络爬虫和爬虫学习之简单的网络爬虫)文章中我们通过两个实际的案例,采用不同的方式进行了内容提取.我们对网络爬虫有了一个比较初级的认识,只要发起请求获 ...
爬虫学习之基于Scrapy的网络爬虫
###概述在上一篇文章<爬虫学习之一个简单的网络爬虫>中我们对爬虫的概念有了一个初步的认识,并且通过Python的一些第三方库很方便的提取了我们想要的内容,但是通常面对工作当作复杂的需求 ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
【网络爬虫入门05】分布式文件存储数据库MongoDB的基本操作与爬虫应用
[网络爬虫入门05]分布式文件存储数据库MongoDB的基本操作与爬虫应用广东职业技术学院欧浩源 1.引言网络爬虫往往需要将大量的数据存储到数据库中,常用的有MySQL.MongoDB和Red ...
scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
scrapy爬虫学习系列一：scrapy爬虫环境的准备
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

随机推荐

C#总结---方法的out参数和ref参数
我们知道,在c#中,当我们在一个方法中想要访问另一个方法中的变量的时候,有两种解决方案---参数和返回值.但当需要返回多个值,并且是不同类型的值的之后应该怎么办呢?解决方案可以是 (1)将所有类型数据 ...
PaddlePaddle分布式训练及CTR预估模型应用
前言:我在github上创建了一个新的repo:PaddleAI, 准备用Paddle做的一系列有趣又实用的案例,所有的案例都会上传数据代码和预训练模型,下载后可以在30s内上手,跑demo出结果,让 ...
使用Try.NET创建可交互.NET文档
原文地址:Create Interactive .NET Documentation with Try .NET 原文作者:Maria 译文地址:https://www.cnblogs.com/lwq ...
[Xcode 实际操作]二、视图与手势-(1)UIView视图的基本使用
目录:[Swift]Xcode实际操作本文将演示在视图控制器的根视图里添加两个视图对象. import UIKit class ViewController: UIViewController { ...
后Selenium时代，网页自动化测试用Cypress
本文技术难度★★★,初学自动化测试的朋友慎点!否则会引起焦虑等不适症状,严重者会怀疑自己技术人生! 来自Cypress官网首页! Web开发飞速换代! table控制页面OUT了! 原生态手写网页OU ...
sed 匹配\n换行符
假设 str="a,b,c,d" echo ${str} | sed "s/,/\n/g" 输出: a b c d echo ${str} | sed &quo ...
应用性能监控-web系统
1 系统规划参考https://mp.weixin.qq.com/s/UlnHOaN0xaA0jfg5CEmLRA 1.1 数据采集的原则: 数据采集,说起来比较简单,只要把数据报上来就行,具体怎么 ...
洛谷2758（字符串dp）
题目传送记得这是我初学dp时的一道题虽说就像LCS一样搞一搞即可但我还是写挂了qwq #include <cstdio> #include <cstring> #incl ...
hdu 3686 Traffic Real Time Query System 点双两通分量 + LCA。这题有重边！！！
http://acm.hdu.edu.cn/showproblem.php?pid=3686 我要把这题记录下来. 一直wa. 自己生成数据都是AC的.现在还是wa.留坑. 我感觉我现在倒下去床上就能 ...
TDH-search常用命令
一.指令部分:1.search管理界面地址: http://172.20.230.110:9200/_plugin/head/ 2.集群状态查看命令: curl -XGET 'localhost:92 ...

爬虫学习之pdf读取和存储

爬虫学习之pdf读取和存储的更多相关文章

随机推荐

热门专题