爬虫实战【3】Python-如何将html转化为pdf(PdfKit)

前言

前面我们对博客园的文章进行了爬取，结果比较令人满意，可以一下子下载某个博主的所有文章了。但是，我们获取的只有文章中的文本内容，并且是没有排版的，看起来也比较费劲。。。
咋么办的？一个比较好的方法是将文章的正文内容转化成pdf，就不要考虑排版的事情了，看起来比较美观，也不会丢失一些关键信息。

python中将html转化为pdf的常用工具是Wkhtmltopdf工具包，在python环境下，pdfkit是这个工具包的封装类。如何使用pdfkit以及如何配置呢？分如下几个步骤。

1、下载wkhtmltopdf安装包，并且安装到电脑上，在系统Path变量中添加wkhtmltopdf的bin路径，以便于pdfkit的调用。
下载地址：https://wkhtmltopdf.org/downloads.html
请根据自己的系统版本，选择合适的安装包。如果没有装C语言库，建议选择Windows下的第二种。
【插入图片 pdf1】

2、在pycharm中安装pdfkit库，过程就不介绍啦，前面讲过类似的内容。

3、在pycharm中安装whtmltopdf库。
这个和第一步中的安装包是两个东西，请区别开来。

用法简介

对于简单的任务来说，代码很easy，比如：

import pdfkit

pdfkit.from_url('http://baidu.com','out.pdf')

pdfkit.from_file('test.html','out.pdf')

pdfkit.from_string('Hello!','out.pdf')

pdfkit包含的方法很少，主要用的就是这三个，我们简单看一下每个函数的API：

from_ulr()

def from_url(url, output_path, options=None, toc=None, cover=None,

             configuration=None, cover_first=False):

    """

    Convert file of files from URLs to PDF document

    :param url: url可以是某一个url也可以是url的列表，

    :param output_path: 输出pdf的路径，如果设置为False意味着返回一个string

    Returns: True on success

    """

    r = PDFKit(url, 'url', options=options, toc=toc, cover=cover,

               configuration=configuration, cover_first=cover_first)

    return r.to_pdf(output_path)

from_file()

def from_file(input, output_path, options=None, toc=None, cover=None, css=None,

              configuration=None, cover_first=False):

    """

    Convert HTML file or files to PDF document

    :param input: 输入的内容可以是一个html文件，或者一个路径的list，或者一个类文件对象

    :param output_path: 输出pdf的路径，如果设置为False意味着返回一个string

    Returns: True on success

    """

    r = PDFKit(input, 'file', options=options, toc=toc, cover=cover, css=css,

               configuration=configuration, cover_first=cover_first)

    return r.to_pdf(output_path)

from_string()

def from_string(input, output_path, options=None, toc=None, cover=None, css=None,

                configuration=None, cover_first=False):

    #类似的，这里就不介绍了

    r = PDFKit(input, 'string', options=options, toc=toc, cover=cover, css=css,

               configuration=configuration, cover_first=cover_first)

    return r.to_pdf(output_path)

举几个栗子

我们可以传入列表：

pdfkit.from_url(['google.com', 'yandex.ru', 'engadget.com'], 'out.pdf')

pdfkit.from_file(['file1.html', 'file2.html'], 'out.pdf')

我们可以将一个打开的文件对象传进去：

with open('file.html') as f:

    pdfkit.from_file(f, 'out.pdf')

如果我们想继续操作pdf，可以将其读取成一个变量，其实就是一个string变量。

# Use False instead of output path to save pdf to a variable

pdf = pdfkit.from_url('http://google.com', False)

指定pdf的格式

我们可以指定各种选项，就是上面三个方法中的options。
具体的设置可以参考https://wkhtmltopdf.org/usage/wkhtmltopdf.txt 里面的内容。
我们这里只举个栗子：

options = {

    'page-size': 'Letter',

    'margin-top': '0.75in',

    'margin-right': '0.75in',

    'margin-bottom': '0.75in',

    'margin-left': '0.75in',

    'encoding': "UTF-8",

    'custom-header' : [

        ('Accept-Encoding', 'gzip')

    ]

    'cookie': [

        ('cookie-name1', 'cookie-value1'),

        ('cookie-name2', 'cookie-value2'),

    ],

    'no-outline': None

}

pdfkit.from_url('http://google.com', 'out.pdf', options=options)

默认的，pdfkit会show出所有的output，如果你不想使用，可以设置为quite：

options = {

    'quiet': ''

    }

pdfkit.from_url('google.com', 'out.pdf', options=options)

我们还可以传入任何html标签，比如：

body = """

    <html>

      <head>

        <meta name="pdfkit-page-size" content="Legal"/>

        <meta name="pdfkit-orientation" content="Landscape"/>

      </head>

      Hello World!

      </html>

    """

pdfkit.from_string(body, 'out.pdf') #with --page-size=Legal and --orientation=Landscape

改进

有了上面的知识之后，我们大可以尝试一下，如果将之前的save_file方法做一些改变，就能够实现我们下载PDF的目标啦。
我们将方法名改成save_to_pdf，并且在get_body方法中直接返回str(div)，而不是div.text。代码如下：

def save_to_pdf(url):

    '''

    根据url，将文章保存到本地

    :param url:

    :return:

    '''

    title=get_title(url)

    body=get_Body(url)

    filename=author+'-'+title+'.pdf'

    if '/' in filename:

        filename=filename.replace('/','+')

    if '\\' in filename:

        filename=filename.replace('\\','+')

    print(filename)

    options = {

        'page-size': 'Letter',

        'encoding': "UTF-8",

        'custom-header': [

            ('Accept-Encoding', 'gzip')

        ]

    }

    #本来直接调用pdfkid的from方法就可以了，但是由于我们的wkhtmltopdf安装包有点问题，一直没法搜到，所以只能用本办法，直接配置了wk的地址

    #尴尬了，主要是一直没法下载到最新的wk，只能在网上down了旧版本的。有谁能下到的话发我一份。。。

    config=pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')

    pdfkit.from_string(body,filename,options=options,configuration=config)

    print('打印成功！')

【插入图片，pdf2】

哈哈，成功了，下载了这么多pdf，回头慢慢看就可以了。

如果您觉得感兴趣的话，可以添加我的微信公众号：一步一步学Python

指定pdf的格式的更多相关文章

Jsp开发自定义标签，自定义标签将字符串转成指定的时间格式显示
本例以将字符串格式的时间转成指定的时间格式显示. 第一步.定义一个标签处理程序类,需要集成javax.servlet.jsp.tagext.TagSupport,代码如下: import java. ...
Oracle中使用游标转换数据表中指定字段内容格式(拼音转数字)
应用场景:将数据表TB_USER中字段NNDP的内容中为[sannanyinv]转换为[3男1女] 主要脚本:一个游标脚本+分割字符串函数+拼音转数字脚本操作步骤如下: 1.创建类型 create ...
原创：如何实现在Excel通过循环语句设置指定行的格式
原创:如何实现在Excel通过循环语句设置指定行的格式一.需求: 想让excel的某些行(比如3的倍数的行)字体变成5号字如何整: 二.实现: Sub code() To Range(" ...
RDLC - 后台代码直接导出Excel/PDF/Word格式
最近做报表功能,用到了.net的报表组件rdlc. 其中有个功能就是后台代码直接输出Excel/PDF/Word格式的文件,网上看了些资源,做个总结: 参考地址我直接贴出代码: //自动导出exce ...
(转)linux 中使用ls指定输出时间格式
linux 中使用ls指定输出时间格式原文:http://blog.csdn.net/chaofanwei/article/details/13018753 ls -l --time-style=x ...
PHP 讓 json_encode() 指定回傳格式
PHP 回傳 JSON 很方便, 只要將資料經過 json_encode() 就解決了. 不過因為 PHP 自動轉換型別, 造成很多資料都習慣存成字串, 希望在輸出 JSON 的時候, 數字部份可以輸 ...
ArcEngine地图窗口指定区域导出指定DPI多格式---delphi/C#实现
delphi/C#实现,其他语言稍微改下就行了.AE的编码各个语言都差不多,这里也没用到某一语言的特性. 函数特点: 1.可以精确导出指定范围的图形要素 2.支持多格式.TIF, .EMF,.GIF, ...
pdf reference 格式具体说明
1. PDF概要 1.1. 图像模型 PDF能以平台无关.高效率的方式描叙复杂的文字.图形.排版. PDF 用图像模型来实现设备无关. 图像模型同意应用程序以抽象对象描叙文字.图像.图标.而不是通过详 ...
word转pdf字体格式变乱的问题
完成word转pdf的功能之后,本地测试没问题,然后发布到服务器上,就遇到了字体变乱的问题,如下: 由于我本地发布后导出没有出现同样情况,而服务器和本地的最大区别在于字体库,于是,把服务器上关于需要用 ...

随机推荐

【ZeyFraのJavaEE开发小知识02】MybatisPlus&ElementUI
1.关于如何获得Mybatis-Plus在插入对应为自增长主键但并未对该主键赋值的实体类之后其主键值对应数据库中某张表并未设置主键值,但其主键为自增长类型的实体类,在使用Mybatis-Plus做i ...
c++函数指针说明
下面随笔说明函数指针用法. 函数指针的定义: 定义形式: 存储类型数据类型 (*函数指针名)() 含义: 函数指针指向的是程序代码存储区函数指针的典型用途-----实现函数回调通过函数指针调用的 ...
如何在 ASP.Net Core 中使用 Serilog
记录日志的一个作用就是方便对应用程序进行跟踪和排错调查,在实际应用上都是引入日志框架,但如果你的日志文件包含非结构化的数据,那么查询起来将是一个噩梦,所以需要在记录日志的时候采用结构化方式. 将 ...
.Net Core 2.1 升级3.1 问题整理
随着技术的不断拓展更新,我们所使用的技术也在不断地升级优化,项目的框架也在不断地升级,本次讲解 .net core 2.1 升级到3.1所需要注意的事项: 当项目框架升级后,所有的Nuget引用也会 ...
Fishing Master HDU - 6709
题目链接:https://vjudge.net/problem/HDU-6709 题意:给出n条鱼的抓捕时间k和煮鱼时间a[i],你要在最短时间把所有鱼都煮了.(注意你只有一口锅) 思路:首先我们必须 ...
Spring的循环依赖
本文简要介绍了循环依赖以及Spring解决循环依赖的过程一.定义循环依赖是指对象之间的循环依赖,即2个或以上的对象互相持有对方,最终形成闭环.这里的对象特指单例对象. 二.表现形式对象之间的循环 ...
你才不是只会理论的女同学-seata实践篇
本文主要内容为seata的实践篇,理论知识不懂的请参考前文: 我还不懂什么是分布式事务主要介绍两种最常用的TCC和AT模式. 环境信息: mysql:5.7.32 seata-server:1.4. ...
第7 章：应用编排与管理：Job & DaemonSet
应用编排与管理:Job & DaemonSet 本节课程要点 Job & CronJobs 基础操作与概念解析: DaemonSet 基础操作与概念解析. Job 需求来源 Job 背 ...
基于Hive进行数仓建设的资源元数据信息统计：Spark篇
在数据仓库建设中,元数据管理是非常重要的环节之一.根据Kimball的数据仓库理论,可以将元数据分为这三类: 技术元数据,如表的存储结构结构.文件的路径业务元数据,如血缘关系.业务的归属过程元数据 ...
E. 【例题5】生日相同
解析字符串操作,本题解采取了多关键词排序 Code #include <bits/stdc++.h> using namespace std; int f, n; struct node ...

指定pdf的格式

爬虫实战【3】Python-如何将html转化为pdf(PdfKit)

前言

用法简介

from_ulr()

from_file()

from_string()

举几个栗子

指定pdf的格式

改进

指定pdf的格式的更多相关文章

随机推荐

热门专题