前言

前面我们对博客园的文章进行了爬取，结果比较令人满意，可以一下子下载某个博主的所有文章了。但是，我们获取的只有文章中的文本内容，并且是没有排版的，看起来也比较费劲。。。

咋么办的？一个比较好的方法是将文章的正文内容转化成pdf，就不要考虑排版的事情了，看起来比较美观，也不会丢失一些关键信息。

python中将html转化为pdf的常用工具是Wkhtmltopdf工具包，在python环境下，pdfkit是这个工具包的封装类。如何使用pdfkit以及如何配置呢？分如下几个步骤。

1、下载wkhtmltopdf安装包，并且安装到电脑上，在系统Path变量中添加wkhtmltopdf的bin路径，以便于pdfkit的调用。

下载地址：https://wkhtmltopdf.org/downloads.html

请根据自己的系统版本，选择合适的安装包。如果没有装C语言库，建议选择Windows下的第二种。

【插入图片 pdf1】

2、在pycharm中安装pdfkit库，过程就不介绍啦，前面讲过类似的内容。

3、在pycharm中安装whtmltopdf库。

这个和第一步中的安装包是两个东西，请区别开来。

用法简介

对于简单的任务来说，代码很easy，比如：

import pdfkit

pdfkit.from_url('http://baidu.com','out.pdf')

pdfkit.from_file('test.html','out.pdf')

pdfkit.from_string('Hello!','out.pdf')

pdfkit包含的方法很少，主要用的就是这三个，我们简单看一下每个函数的API：

from_ulr()

def from_url(url, output_path, options=None, toc=None, cover=None,

             configuration=None, cover_first=False):

    """

    Convert file of files from URLs to PDF document

    :param url: url可以是某一个url也可以是url的列表，

    :param output_path: 输出pdf的路径，如果设置为False意味着返回一个string

    Returns: True on success

    """

    r = PDFKit(url, 'url', options=options, toc=toc, cover=cover,

               configuration=configuration, cover_first=cover_first)

    return r.to_pdf(output_path)

from_file()

def from_file(input, output_path, options=None, toc=None, cover=None, css=None,

              configuration=None, cover_first=False):

    """

    Convert HTML file or files to PDF document

    :param input: 输入的内容可以是一个html文件，或者一个路径的list，或者一个类文件对象

    :param output_path: 输出pdf的路径，如果设置为False意味着返回一个string

    Returns: True on success

    """

    r = PDFKit(input, 'file', options=options, toc=toc, cover=cover, css=css,

               configuration=configuration, cover_first=cover_first)

    return r.to_pdf(output_path)

from_string()

def from_string(input, output_path, options=None, toc=None, cover=None, css=None,

                configuration=None, cover_first=False):

    #类似的，这里就不介绍了

    r = PDFKit(input, 'string', options=options, toc=toc, cover=cover, css=css,

               configuration=configuration, cover_first=cover_first)

    return r.to_pdf(output_path)

举几个栗子

我们可以传入列表：

pdfkit.from_url(['google.com', 'yandex.ru', 'engadget.com'], 'out.pdf')

pdfkit.from_file(['file1.html', 'file2.html'], 'out.pdf')

我们可以将一个打开的文件对象传进去：

with open('file.html') as f:

    pdfkit.from_file(f, 'out.pdf')

如果我们想继续操作pdf，可以将其读取成一个变量，其实就是一个string变量。

# Use False instead of output path to save pdf to a variable

pdf = pdfkit.from_url('http://google.com', False)

指定pdf的格式

我们可以指定各种选项，就是上面三个方法中的options。

具体的设置可以参考https://wkhtmltopdf.org/usage/wkhtmltopdf.txt 里面的内容。

我们这里只举个栗子：

options = {

    'page-size': 'Letter',

    'margin-top': '0.75in',

    'margin-right': '0.75in',

    'margin-bottom': '0.75in',

    'margin-left': '0.75in',

    'encoding': "UTF-8",

    'custom-header' : [

        ('Accept-Encoding', 'gzip')

    ]

    'cookie': [

        ('cookie-name1', 'cookie-value1'),

        ('cookie-name2', 'cookie-value2'),

    ],

    'no-outline': None

}

pdfkit.from_url('http://google.com', 'out.pdf', options=options)

默认的，pdfkit会show出所有的output，如果你不想使用，可以设置为quite：

options = {

    'quiet': ''

    }

pdfkit.from_url('google.com', 'out.pdf', options=options)

我们还可以传入任何html标签，比如：

body = """

    <html>

      <head>

        <meta name="pdfkit-page-size" content="Legal"/>

        <meta name="pdfkit-orientation" content="Landscape"/>

      </head>

      Hello World!

      </html>

    """

pdfkit.from_string(body, 'out.pdf') #with --page-size=Legal and --orientation=Landscape

改进

有了上面的知识之后，我们大可以尝试一下，如果将之前的save_file方法做一些改变，就能够实现我们下载PDF的目标啦。

我们将方法名改成save_to_pdf，并且在get_body方法中直接返回str(div)，而不是div.text。代码如下：

def save_to_pdf(url):

    '''

    根据url，将文章保存到本地

    :param url:

    :return:

    '''

    title=get_title(url)

    body=get_Body(url)

    filename=author+'-'+title+'.pdf'

    if '/' in filename:

        filename=filename.replace('/','+')

    if '\\' in filename:

        filename=filename.replace('\\','+')

    print(filename)

    options = {

        'page-size': 'Letter',

        'encoding': "UTF-8",

        'custom-header': [

            ('Accept-Encoding', 'gzip')

        ]

    }

    #本来直接调用pdfkid的from方法就可以了，但是由于我们的wkhtmltopdf安装包有点问题，一直没法搜到，所以只能用本办法，直接配置了wk的地址

    #尴尬了，主要是一直没法下载到最新的wk，只能在网上down了旧版本的。有谁能下到的话发我一份。。。

    config=pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')

    pdfkit.from_string(body,filename,options=options,configuration=config)

    print('打印成功！')

【插入图片，pdf2】

哈哈，成功了，下载了这么多pdf，回头慢慢看就可以了。

爬虫实战【3】Python-如何将html转化为pdf(PdfKit)的更多相关文章

python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python实战：Python爬虫学习教程，获取电影排行榜
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
Python爬虫实战七之计算大学本学期绩点
大家好,本次为大家带来的项目是计算大学本学期绩点.首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的 ...

随机推荐

Rattle：数据挖掘的界面化操作
R语言是一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具.这里的统计计算可以是数据分析.建模或是数据挖掘等,通过无数大牛提供的软件包,可以帮我们轻松实现算法的实施. 一些读者 ...
imx6 电容屏参数更改
imx6使用电容屏时需要获取对应的usb的event.其中用到了shell的一些命令.分析如下. # inputCheckLine=`cat /proc/bus/input/devices | gre ...
dhcpcd 移植
/************************************************************************ * dhcpcd移植 * dhcpcd是DHCP c ...
native生成策略：由Hibernate根据所使用的数据库支持能力从identity、sequence或者等生成策略中选择一种
increment生成策略:当Hibernate准备在数据库表中插入一条新记录时,首先从数据库表中获取当前主键字段的最大值,然后在最大值基础上加1,作为当前持久化对象的标识符属性值.这种策略即incr ...
DLL接口自动化测试总结
1. DLL接口测试方法介绍在最近测试的项目中,系统给业务端提供DLL文件,业务端通过DLL文件中的C++接口实现系统功能,这就需要对DLL中的C++接口进行详细功能测试. 本文主要介绍项目测试中使 ...
工作流JBPM_day01：7-使用流程变量
工作流JBPM_day01:7-使用流程变量工作流就像流水线对应数据库中的一张表 ProcessVariableTest.Java import java.util.List; import or ...
Int 型数值存储
1. Int 在计算机中占 4 Byte, 共 32 位, 最大正数为 2147483647, 最小负数为 -2147483648 2. 正数存储在计算机中的形式为原码,最大正数的十六进制形式为 0X ...
ios 判断GPS是否是在中国境内
博文转载至 http://blog.csdn.net/cuibo1123/article/details/45691631 ZCChinaLocation 基本思路是:把整个行政区域划分为几个小的矩形 ...
通过ArcGIS Desktop数据发布ArcGIS Server
1.双击GIS Servers--->Add ArcGIS Server 2.选择Publish GIS Services 3.输入Server URL:http://localhost:608 ...
MySQL性能优化（二）-- 数据类型，SQL，八种连接
一.mysql数据类型优化原则 1. 能够使用最小数据类型存储时,尽量使用最小数据类型存储(前提是要评估字段值的真实数据存储范围) eg:create table aaa(id1 int(10) ze ...

爬虫实战【3】Python-如何将html转化为pdf(PdfKit)

前言