Mac python3 环境下 完善pdf转jpg脚本
由于样本图片数据都是保存在pdf里,想拿到样本必须先把图片从pdf中提取出来,算是数据清洗中的一点小小的积累吧。
这里不得不吐槽一下公司存储图片的机制,业务员把jpg格式的照片放到word里,然后用工具把word保存为pdf,最后上传到公司服务器里,这简介反人类,不但丢失了图片头文件信息,还造成后期数据转换的大量时间资源的浪费,可能pdf格式会小一点,但是完全可以通过其他图片编码方式进行解决,我才疏学浅,不能理解其中的逻辑。
下面进入正题:
这里把初始报错信息贴出来,以便大家对症下药:
ImportError: MagickWand shared library not found.
You probably had not installed ImageMagick library.
Try to install: brew install freetype imagemagick
细心的提示了,需要安装imagemagick 趟坑开始
1、安装 ImageMagick
mac环境下,如果直接使用
$ brew imagemagick
进行安装,默认会安装7.0.7-37版本,通过测试,这个版本修改了相关方法,在后面的脚本中会报错,于是需要安装im6,尝试了很多办法,有的通过编译安装,有的通过git命令获得历史版本安装,不过最方便的还是直接用brew 查看可安装的软件版本
$ brew search imagemagick
会直接列出所有历史版本
=> Searching local taps...
imagemagick@6           imagemagick
==> Searching taps on GitHub...
==> Searching blacklisted, migrated and deleted formulae...
而后选择对应的版本就可以了,这里安装im6
$ brew install imagemagick@6
安装成功后,发现程序中还是报错依旧。
经过多方查找原因,原来是im默认储存的目录不在系统检索的目录里,需要建立一个软连接(说白了就是在系统检索的目录里建立一个快捷方式)
$ ln -s /usr/local/Cellar/imagemagick@6/6.9.9-49/lib/libMagickWand-6.Q16.dylib /usr/local/lib/libMagickWand.dylib
后面步骤引用参考文章中的内容,在此感谢作者。
2、安装gs
$ brew install gs
3、安装wand
$ pip install wand
4、一码胜千言
from wand.image import Image
pdf_file = '.../example/a.pdf'
def convert_pdf_to_jpg(file_name, pic_file=None, resolution=120):
    # 转换函数,默认分辨率120
    with Image(filename=file_name, resolution=resolution) as img:
        print('pages = ', len(img.sequence))
        with img.convert('jpeg') as converted:
            # 指定图片位置
            if pic_file != None:
                converted.save(filename=pic_file)
            else:
                # 同目录同文件名
                converted.save(filename= '%s.jpg' % (file_name[:file_name.rindex('.')]))
if __name__ == '__main__':
    convert_pdf_to_jpg(pdf_file)
5、参考文章:
https://www.jianshu.com/p/1754ad695377
Mac python3 环境下 完善pdf转jpg脚本的更多相关文章
- 桂电在linux、Mac OS环境下使用出校器(支持2.14)
		
这是guetsec学长在三院科协学长所抓包逆向分析1.81版出校器的基础上,用python写的一款为Mac和linux环境开发的出校器. 最后我做了略微修改,支持暂时最新版本2.14.下面有直接从源码 ...
 - 在Mac OS环境下安装MySQL服务
		
在Mac OS环境下安装MySQL服务 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 我之前介绍过window环境下安装mysql服务,以及在Linux环境下安装mysql服务,今 ...
 - 一步步教你搭建VS环境下用C#写WebDriver脚本
		
一步步教你搭建VS环境下用C#写WebDriver脚本http://www.automationqa.com/forum.php?mod=viewthread&tid=3529&fro ...
 - 20181225-Linux Shell Bash环境下自动化创建ssh互信脚本
		
20181225-Linux Shell Bash环境下自动化创建ssh互信脚本 1. 我的Blog 博客园 https://www.cnblogs.com/piggybaba/ 个人网站 http: ...
 - Window环境下,PHP调用Python脚本
		
参考 php调用python脚本*** php 调用 python脚本的方法 解决办法:php提供了许多调用其他脚本或程序的方法,比如exec/system/popen/proc_open/passt ...
 - .net环境下从PDF文档中抽取Text文本的一些方法汇总
		
1.PDFBox的IKVM版本:据我所知,目前只有PDFBox的IKVM版本能比较好地从PDF中提取文本,PDFBOX更多信息请访问http://www.pdbox.org,关于其应用实例,可以参考C ...
 - Mac OS环境下媒体文件分割工具mediafilesegmenter的简单使用(生成M3U8 TS文件)
		
mediafilesegmenter是苹果开发的一款用于分割媒体文件的工具,其功能与mediastreamsegmenter相似,但操作更简单. * 具体可以对比博客中的另一篇简介<Mac OS ...
 - Mac+Docker环境下xdebug的配置
		
由于容器化的需要,前几天我本地也换成了docker环境.就研究了一下docker环境下phpstorm和xdebug的配置. http://www.mmfei.com/?p=453 这个博客给出了一个 ...
 - Anaconda3+python3环境下如何创建python2环境(win+Linux下适用,同一个anaconda下py2/3共存)
		
本人之前已经在anaconda环境下已经安装了python3的环境,现在因为一些需求,要安装python2环境 1.打开anaconda的anaconda prompt查看当前环境: conda in ...
 
随机推荐
- 《coredump问题原理探究》Linux x86版7.7节 set对象
			
看一下bits/stl_map和bits/stl_set能够看到map和set的定义例如以下: 84 template <typename _Key, typename _Tp, typenam ...
 - Linux黑洞
			
1 什么是Linux黑洞 在Linux系统中,/dev/null是一个虚设的设备.俗称"Linux黑洞". 不论什么对/dev/null的写入都会成功.但数据会消失得无影无踪.没有 ...
 - C语言——什么是指针?
			
去年学C语言课时,初步了解了指针的概念,能看懂一些简单的含有指针的程序,但事实上对于指针并没有真正的弄明白它的使用,这点我在半年后的数据结构课程上才深刻的体会到和别人的差距.更加可怕的是,对于当时所得 ...
 - Linux实时查看日志,访问前10IP     和相关命令
			
Nginx日志分析可以获得很多有用的信息,现在来试试最基本的,获取最多访问的前10个IP地址及访问次数. 既然是统计,那么awk是必不可少的,好用而高效. 命令如下: awk '{a[$1] += 1 ...
 - oc08--局部变量,全局变量,函数方法的区别
			
// // main.m // 局部变量和全局变量以及成员变量的区别 #import <Foundation/Foundation.h> @interface Person : NSObj ...
 - Codeforces Round #512 (Div. 2) D.Vasya and Triangle 数学
			
题面 题意:给你n,m,k,在你在(0,0)到(n,m)的矩形内,选3个格点(x,y都是整数),使得三角形面积为n*m/k,不能找到则输出-1 题解:由毕克定理知道,格点多边形的面积必为1/2的整数倍 ...
 - Vue.js和Nodejs的关系
			
首先vue.js 是库,不是框架,不是框架,不是框架. Vue.js 使用了基于 HTML 的模版语法,允许开发者声明式地将 DOM 绑定至底层 Vue 实例的数据. Vue.js 的核心是一个允许你 ...
 - AJAX复习笔记
			
AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术.通过在后台与服务器进行少量数据交换,AJAX 可况下更新以使网页实现异步更新. 工作原理: AJAX是基于现有的Internet ...
 - python之路——二分查找算法
			
楔子 如果有这样一个列表,让你从这个列表中找到66的位置,你要怎么做? l = [2,3,5,10,15,16,18,22,26,30,32,35,41,42,43,55,56,66,67,69,72 ...
 - Kafka .NET操作
			
Kafaka .NET连接 Kafka目前主流在用的.NET客户端有两个:一个是kafka-net,另外一个是Confluent.Kafka,这里给出使用示例: kafka-net示例: public ...