使用python把html网页转成pdf文件

小文叔 2024-10-29 18:22:16 原文

我们看到一些比较写的比较好文章或者博客的时候，想保存下来到本地当一个pdf文件，当做自己的知识储备，以后即使这个博客或者文章的连接不存在了，或者被删掉，咱们自己也还有。

当然咱们作为一个coder，这样的事情肯定不能手动保存下来然后再转成pdf存起来对不对，有失咱们码农的身份，当然要自动化的来实现了~

准备工作

那怎么办呢，python里面有个模块是pdfkit，他可以帮咱们把一个html（也就是一个网页）变成一个pdf文件。

pdfkit是python对wkhtmltopdf这个把网页转成pdf工具的一个封装，所以咱们必须得先安装一个wkhtmltopdf，这个工具的下载网站是：https://wkhtmltopdf.org/downloads.html，根据自己的操作系统下载对应的版本即可。ps：这里要记住安装目录啊，下面要用到它，不要忘记它的安装目录~

上面说到了pdfkit这个模块，这个是第三方模块，需要安装，使用pip安装即可。

1	pip install pdfkit

写代码实现

pdfkit它给咱们提供了很多功能，可以给它一个url，他会自动获取url里面的内容，帮你保存好，也可以给他一个html文件，也可以保存，也可以给他一个字符串，也可以保存成pdf，下面是代码：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

import pdfkit

url='https://www.cnblogs.com/sriba/p/8043294.html'#一篇博客的url

confg = pdfkit.configuration(wkhtmltopdf='C:\Python35\wkhtmltopdf.exe')

#这里指定一下wkhtmltopdf的路径，这就是我为啥在前面让记住这个路径

pdfkit.from_url(url, 'jmeter_下载文件.pdf',configuration=confg)

# from_url这个函数是从url里面获取内容

# 这有3个参数，第一个是url，第二个是文件名，第三个就是khtmltopdf的路径

#pdfkit.from_file('my.html', 'jmeter_下载文件2.pdf',configuration=confg)

# from_file这个函数是从文件里面获取内容

# 这有3个参数，第一个是一个html文件，第二个是文生成的pdf的名字，第三个就是khtmltopdf的路径

html='''

<div>

<h1>title</h1>

<p>content</p>

</div>

'''#这个html是我从一个页面上拷下来的一段，也可以

#pdfkit.from_string(html, 'jmeter_下载文件3.pdf',configuration=confg)

# from_file这个函数是从一个字符串里面获取内容

# 这有3个参数，第一个是一个字符串，第二个是文生成的pdf的名字，第三个就是khtmltopdf的路径

下面是保存好的pdf文件，是不是很简单，快去试试吧

使用python把html网页转成pdf文件的更多相关文章

网络采集软件核心技术剖析系列（4）---使用C#语言如何将html网页转换成pdf（html2pdf）
一本系列随笔概览及产生的背景本系列开篇受到大家的热烈欢迎,这对博主是莫大的鼓励,此为本系列第四篇,希望大家继续支持,为我继续写作提供动力. 自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受 ...
ie浏览器将网页转成pdf
今天同事让我帮他将网页转成pdf,学了一个.先推荐一个超图的数据库使用指南:http://support.supermap.com.cn/DataWarehouse/WebDocHelp/6.1.1/ ...
.Net 把网页Html转PDF文件
.Net 把网页Html转PDF文件此篇主要利用 wkhtmltopdf 进行转换. 一.控制台直接转换首先到官网http://wkhtmltopdf.org/下载wkhtmltopdf ,下 ...
如何将网页保存为PDF文件
怎样将网页保存为PDF文件... 问题: 很多时候我们需要将网页上的内容,在排版不变的情况下完整的保存下来,那么用pdf格式是最好的效果了,还图文并茂,效果与真实的网页很相似,如果另存为网页的话,会下 ...
Nodejs 中将html转换成pdf文件
Nodejs 中将html转换成pdf文件,Nodejs Convert html into pdf 1. 下载phantomjs.exe,将该文件放在根目录 2. 编写pdf.js文件(在githu ...
OpenOffice将MS docx转换成pdf文件偶数页眉不显示问题解决办法
OpenOffice版本:4.0(Windows.Linux下测试都出现问题) MS Office版本:2007 问题描述使用OpenOffice将MS的docx文件转换为pdf文件时,docx文件 ...
Linux不用使用软件把纯文本文档转换成PDF文件的方法
当你有一大堆文本文件要维护的时候,把它们转换成PDF文档会好一些.比如,PDF更适合打印,因为PDF文档有预定义布局.除此之外,还可以减少文档被意外修改的风险. 要将文本文件转换成PDF格式,你要按照 ...
Python将word文档转换成PDF文件
如题. 代码: ''' #將word文档转换为pdf文件 #用到的库是pywin32 #思路上是调用了windows和office功能 ''' #导入所需库 from win32com.client ...
使用abcpdf将html转换成pdf文件
ABCpdf.NET使用介绍最新做一个项目需要生成pdf文档以供打印,研究决定使用abcpdf这款组件,先针对其使用方法做一个简单的总结介绍以给有需要的朋友做参考. 一. ABCpdf.NET简单介 ...

随机推荐

Python装饰器、生成器、内置函数、json
这周学习了装饰器和生成器,写下博客,记录一下装饰器和生成器相关的内容. 一.装饰器装饰器,这个器就是函数的意思,连起来,就是装饰函数,装饰器本身也是一个函数,它的作用是用来给其他函数添加新功能,比如 ...
thinkphp关于时间加减几天
1.当前时间,往后退5天: date('Y-m-d H:i:s',strtotime('-1 days')); 2.有固定时间,往后面退一天或者七天,或者30天: 比如时间:$time = 2014- ...
C++中的this指针
1.关于this指针的一个精典回答: 当你进入一个房子后,你可以看见桌子.椅子.地板等,但是房子你是看不到全貌了.对于一个类的实例来说,你可以看到它的成员函数.成员变量,但是实例本身呢?this是一个 ...
vijos1098 经典LIS变形
合唱队形描述 N位同学站成一排,音乐老师要请其中的(N-K)位同学出列,使得剩下的K位同学排成合唱队形. 合唱队形是指这样的一种队形:设K位同学从左到右依次编号为1,2…,K,他们的身高分别为T1, ...
Application 类
Application 类具有用于启动和停止应用程序和线程以及处理 Windows 消息的方法,如下所示: Run 在当前线程上启动应用程序消息循环,并可以选择使某窗体可见. Exit 或 ExitT ...
POJ 3481 treap
这是利用treap写的二叉排序树,只要理解其中旋转能够改变树的左右子树平衡度,即高度之差,差不多就能掌握treap树的要领了. 相对于其他高级BST,treap树实现应该算最简单了,利用的是随机树产生 ...
darktrace 亮点是使用的无监督学习（贝叶斯网络、聚类、递归贝叶斯估计）发现未知威胁——使用无人监督机器学习反而允许系统发现罕见的和以前看不见的威胁，这些威胁本身并不依赖不完善的训练数据集。学习正常数据，发现异常！
先说说他们的产品:企业免疫系统(基于异常发现来识别威胁) 可以看到是面向企业内部安全的! 优点整个网络拓扑的三维可视化企业威胁级别的实时全局概述智能地聚类异常泛频谱观测 - 高阶网络拓扑;特定群集,子 ...
Bellman-Ford模板
转载链接:http://blog.csdn.net/niushuai666/article/details/6791765 Dijkstra算法是处理单源最短路径的有效算法,但它局限于边的权值非负的情 ...
基于嵌入式Linux的千兆以太网卡驱动程序设计及测试
一．引言千兆以太网是一种具有高带宽和高响应的新网络技术,相关协议遵循IEEE 802.3规范标准.采用和10M以太网相似的帧格式.网络协议和布线系统,基于光纤和短距离同轴电缆的物理层介质,更适用于 ...
C语言、编程语言发展史
前言了解和学习一门语言.一个系统乃至方方面面的任何东西时,如果不知道其历史和现状而只是一上来就一味地闷头苦学,你就很容易“一叶障目不见泰山”. 如此这般火急火燎的就上手苦干,私以为大错特错,所谓“学 ...