Python脚本 | 提取pdf页面为jpg

功能:

提取pdf文件中的每一页,输出为jpg文件
以markdown语法写入文本文件
将该文本复制到剪贴板

# python 3.10

# ! 运行在 conda-myv虚拟环境

import fitz  # PyMuPDF

from PIL import Image

import os

from datetime import datetime

# 指定PDF文件路径

pdf_path = 'chap6.pdf'

# 指定输出的Markdown文件路径

md_path = 'output.txt'

def NowTime()->str:

    # 获取当前时间

    now = datetime.now()

    # 按照指定的格式输出时间字符串

    time_str = now.strftime("%Y-%m-%d-%H-%M-%S")

    return time_str

def ShowMessage(message:str)->None:

    import ctypes

    # 定义提醒信息的内容

    # message = "markdown格式内容以复制到剪贴板"

    title="提醒"

    # 播放提示音

    sound = "SystemAsterisk"

    ctypes.windll.winmm.PlaySoundW(sound, 0, 0)

    # 显示一个消息框

    ctypes.windll.user32.MessageBoxW(None, message, title, 0)

# 获取当前文件的路径

current_file_path = os.path.abspath(__file__)

# 获取当前文件所在的目录

output_dir = os.path.dirname(current_file_path)

# 打开PDF文件

pdf_document = fitz.open(pdf_path)

# 创建Markdown文件

with open(md_path, 'w', encoding='utf-8') as md_file:

    # 遍历PDF的每一页

    for page_number in range(len(pdf_document)):

        # 获取页面

        page = pdf_document[page_number]

        # 将页面转换为图像

        pix = page.get_pixmap()

        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)

        # 指定图像文件名

        img_filename = f'page_{page_number + 1}_{NowTime()}.jpg'

        img_path = os.path.join(output_dir, img_filename)

        # 保存图像

        img.save(img_path)

        # 将图像插入Markdown文件

        img_tag = f'![Page {page_number + 1}]({img_path})'

        md_file.write(img_tag + '\n\n')

    # 关闭PDF文件

    pdf_document.close()

    print(f'Markdown content with images has been created at: {md_path}')

# 复制markdown 内容到剪贴板

with open(md_path, 'r', encoding='utf-8') as file:

    import pyperclip

    # 读取文件内容

    content = file.read()

    # 将内容复制到剪贴板

    success = pyperclip.copy(content)

    print(f"success={success}")

    # 检查复制操作是否成功

    if success or success==None:

        ShowMessage("文本已成功复制到剪贴板.")

        # print("copy ok")

    else:

        ShowMessage("复制操作失败,请重试.")

        # print("copy fail")

Python脚本 | 提取pdf页面为jpg的更多相关文章

C#调用Python脚本打印pdf文件
介绍:通过pdf地址先将文件下载到本地,然后调用打印机打印,最后将下载的文件删除. 环境:windows系统.(windows64位) windows系统中安装python3.6.2环境资料: O ...
python操作三大主流数据库(5)python操作mysql⑤使用Jinja2模板提取优化页面展示
python操作mysql⑤使用Jinja2模板提取优化页面展示在templates目录下的index.html.cat.html等页面有一些共同的元素,代码比较冗余可以使用模板提取公共代码,在各网 ...
Python使用Tabula提取PDF表格数据
今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...
测试网站页面网速的一个简单Python脚本
无聊之余,下面分享一个Python小脚本:测试网站页面访问速度 [root@huanqiu ~]# vim pywww.py #!/usr/bin/python # coding: UTF-8 imp ...
arcgis python脚本工具实例教程—栅格范围提取至多边形要素类
arcgis python脚本工具实例教程-栅格范围提取至多边形要素类商务合作,科技咨询,版权转让:向日葵,135-4855_4328,xiexiaokui#qq.com 功能:提取栅格数据的范围, ...
利用python第三方库提取PDF文件的表格内容
小爬最近接到一个棘手任务:需要提取手机话费电子发票PDF文件中的数据.接到这个任务的第一时间,小爬决定搜集各个地区各个时间段的电子发票文件,看看其中的差异点.粗略统计下来,PDF文件的表格框架是统一的 ...
Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比
pdf 是个异常坑爹的东西,有很多处理 pdf 的库,但是没有完美的. 一.pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本. ...
使用Python脚本分析你的网站上的SEO元素
撰稿马尼克斯德芒克上2019年1月, Sooda internetbureau Python就是自动执行重复性任务,为您的其他搜索引擎优化(SEO)工作留出更多时间.没有多少SEO使用Python来 ...
Python快速入门PDF高清完整版免费下载|百度云盘
百度云盘:Python快速入门PDF高清完整版免费下载提取码:w5y8 内容简介这是一本Python快速入门书,基于Python 3.6编写.本书分为4部分,第一部分讲解Python的基础知识,对 ...
某互联网后台自动化组合测试框架RF+Sikuli+Python脚本
某互联网后台自动化组合测试框架RF+Sikuli+Python脚本 http://www.jianshu.com/p/b3e204c8651a 字数949 阅读323 评论1 喜欢0 一.**Robo ...

随机推荐

2024年1月Java项目开发指南18：自定义异常输出
一般情况下,报错信息一大堆,值得注意的只有三个地方: 哪个文件发生了错误哪一行发生了错误错误原因是什么只要知道这三个东西就能快速的定位到错误发生的位置并且根据提示解决. 如果你也喜欢我的这种异常 ...
【报错解决】【Python】'Failed to import pydot. You must pip install pydot and install graphviz (https://graphviz.gitlab.io/download/), ', 'for pydotprint to work.'
可视化函数式API的形式seq2seq模型的过程中发生报错. 报错内容: 'Failed to import pydot. You must pip install pydot and install ...
黑苹果(Hackintosh) - 安装1：用 VMware pro 16 安装 Big Sur 11.6
1. 背景情况 1.1 想法想要体验体验macOS系统,不想花钱买 Macbook,就想着装一个黑苹果体验下. 1.2 本机基本情况笔记本:zx6 cp5s1 CPU:i5 8400 主板:H3 ...
智谱开源CogAgent的最新模型CogAgent-9B-20241220，全面领先所有开闭源GUI Agent模型
在现代数字世界中,图形用户界面(GUI)是人机交互的核心.然而,尽管大型语言模型(LLM)如ChatGPT在处理文本任务上表现出色,但在理解和操作GUI方面仍面临挑战,因此最近一年来,在学界和大模型社 ...
Qt编写地图综合应用19-地图服务
一.前言国内提供地图服务的厂家基本上是五家,百度地图.高德地图.腾讯地图.搜狗地图.天地图,国外的一般还有谷歌地图.微软地图(BING地图),这几家的地图服务的api接口都大同小异,甚至很多函数的名 ...
网络编程懒人入门(十六)：手把手教你使用网络编程抓包神器Wireshark
本文由转转QA刘宝成分享,原题"抓包工具wireshark的使用",下文进行了排版和内容优化. 1.引言跟网络通信有关的应用场景下(比如Web系统.IM聊天应用.消息推送系统等) ...
Android保活从入门到放弃：乖乖引导用户加白名单吧(附7大机型加白示例)
1.引言 IM在Android上的保活问题经常在即时通讯网的论坛和技术群里被讨论,自从Android 8.0后系统大大降低了后台运行应用的保活容忍度(详见<Android P正式版即将到来:后台 ...
MACOS 降级
最近升级了macos 15.2,结果导致外接显示器显示不正常,经常断掉或者黑屏,因此macos进行降级处理: 1. 首先在App Store下载Ventura 系统; 2. 准备一个16G的U盘,然后 ...
快速上手jquery
优点强大的选择器机制优质的隐私迭代链式编程选择机制选择器标签名 $('div') id $('#id') class $('.clname') 属性 $('div:[name='66']' ...
Solution Set -「NOIP Simu.」20221005
$\mathscr{A}\sim$「CF 1252G」Performance Review Link & Submission. Tag:「水题无 tag」记 \(A=a_1 ...

Python脚本 | 提取pdf页面为jpg

Python脚本 | 提取pdf页面为jpg的更多相关文章

随机推荐

热门专题