爬取博主的所有文章并保存为PDF文件

继续改进上一个项目，上次我们爬取了所有文章，但是保存为TXT文件，查看不方便，而且还无法保存文章中的代码和图片。

所以这次保存为PDF文件，方便查看。

需要的工具：

1、wkhtmltopdf安装包，下载并安装到电脑上，可使用 pip安装 ，注意环境变量的配置。具体参见下面的资料。

2、pdfkit文件（whl文件），下载并安装到pycharm上。

注意安装 whl 文件时：最好吧把保存 whl文件的文件夹的路径 D:\learning python\Scripts 添加到环境变量里面，然后在此文件夹下打开cmd，直接 pip install XXX.whl 即可。

调用顺序：程序代码会使用pdfkit，pdfkit会调用wkhtmltopdf，而wkhtmltopdf会调用windows中的wkhtmltopdf.exe来转化html为pdf。

1、在我们原理项目的基础上，修改 get_body 方法，直接返回str(div)，而不是div.text。

def get_body(url):

    """

    获取url下文章的正文内容

    :param url:

    :return:

    """

    html_page = get_html(url)

    soup = BeautifulSoup(html_page,'html.parser')   #HTML文档解析器

    div = soup.find(id = "cnblogs_post_body")

    return str(div)

2、然后就是主要的下载方法了：

和之前一样，先创建一个文件夹，然后吧PDF文件下载到刚刚创建的文件夹下面。

def save_single_file_to_PDF(url):

    """

    首先在py文件同目录下创建一个以博主名字为名的文件，用来存放爬取的所有文章

    将文章正文保存在txt文件中，名字为文章标题

    有些文章的标题可能不适合直接作为txt文件名，我们可以忽略这些文章

    :param url:

    :return:

    """

    global article_count    #使用全局变量，需要在函数中进行标识

    title = get_title(url)

    body = get_body(url)

    #获取当前目录文件，截取目录后，并自动创建文件

    FILE_PATH = os.getcwd()[:-0]+author

    if not os.path.exists(FILE_PATH):

        os.makedirs(FILE_PATH)

    options = {

        'page-size':'Letter',

        'encoding':"UTF-8",

        'custom-header':[('Accept-Encoding','gzip')]

    }

    try:

        filename = title + '.pdf'

        # 由于wkhtmltopdf软件的版本问题，只能手动设置软件目录，不然无法调用该软件。

        config = pdfkit.configuration(wkhtmltopdf=r"D:\learning python\wkhtmltopdf\bin\wkhtmltopdf.exe")

        #输出PDF文件

        pdfkit.from_string(body, 'D:\learning python\coding_python3.6\cnblog\\Andrew\\'+filename, options=options, configuration=config)

        article_count += 1  # 计数变量加1，统计总的下载文件数

        print(filename + "  file have saved...")     #提示文章下载完毕

    except:

        pass

但是需要注意的是：如果以上步骤有缺失，可能碰到的问题是：

1.关于no such file or directory:b'' 这种错误在python中出现时，意味着有.exe文件需要被调用，

而该.exe文件没有被安装或者在控制面板的环境变量中没有添加该.exe的路径。另外，有时候需要改pdfkit代码为下列两句，才可消除错误：

        # 由于wkhtmltopdf软件的版本问题，只能手动设置软件目录，不然无法调用该软件。

        config = pdfkit.configuration(wkhtmltopdf=r"D:\learning python\wkhtmltopdf\bin\wkhtmltopdf.exe")

        #输出PDF文件

        pdfkit.from_string(body, 'D:\learning python\coding_python3.6\cnblog\\Andrew\\'+filename, options=options, configuration=config)

运行结果：

项目完整代码：我的码云

参考资料：

项目启发：http://www.cnblogs.com/xingzhui/p/7887212.html

pdfkit安装：https://blog.csdn.net/appleyuchi/article/details/70947138

爬取博主的所有文章并保存为PDF文件的更多相关文章

python：爬取博主的所有文章的链接、标题和内容
以爬取我自己的博客为例:https://www.cnblogs.com/Mr-choa/ 1.获取所有的文章的链接: 博客文章总共占两页,比如打开第一页:https://www.cnblogs.com ...
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
爬取博主所有文章并保存到本地（.txt版）--python3.6
闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想 ...
爬虫---lxml爬取博客文章
上一篇大概写了下lxml的用法,今天我们通过案例来实践,爬取我的博客博客并保存在本地爬取博客园博客爬取思路: 1.首先找到需要爬取的博客园地址 2.解析博客园地址 # coding:utf-8 i ...
Scrapy爬取伯乐在线的所有文章
本篇文章将从搭建虚拟环境开始,爬取伯乐在线上的所有文章的数据. 搭建虚拟环境之前需要配置环境变量,该环境变量的变量值为虚拟环境的存放目录 1. 配置环境变量 2.创建虚拟环境用mkvirtualen ...
『Scrapy』爬取斗鱼主播头像
分析目标爬取的是斗鱼主播头像,示范使用的URL似乎是个移动接口(下文有提到),理由是网页主页属于动态页面,爬取难度陡升,当然爬取斗鱼主播头像这么恶趣味的事也不是我的兴趣...... 目标URL如下, ...
python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...

随机推荐

如何用BarTender将日期变量和序列号变量放一起打印成条码？
刚接触BarTender 2016的小伙伴们可能对条码的数据源还不太搞的定,例如有时需要将日期变量和序列号变量放一起打印成条码,那如何简单达到目的呢?下面,小编教大家解决这一问题的三大步骤. 1.在B ...
Three-js 创建第一个3D场景
1.一个场景至少需要的三种类型组件相机/决定哪些东西将在屏幕上渲染光源/他们会对材质如何显示,以及生成阴影时材质如何使用产生影响物体/他们是在相机透视图里主要的渲染队形:方块.球体等 ...
python字符串分片索引
字符串是字符的有序集合,可以通过其位置来获得具体的元素.在python中,字符串中的字符是通过索引来提取的,索引从0开始. python可以取负值,表示从末尾提取,最后一个为-1,倒数第二个为-2,即 ...
Go工具和调试详解
https://blog.csdn.net/happyanger6/article/details/78724594/ https://blog.csdn.net/u012210379/article ...
Chrome扩展应用
现在越来越多的用户将chrome浏览器设置为自己默认的浏览器,不仅是因为他的界面美,最重要的是他对html5和CSS3完美的支持,且调试工具非常好用,还有丰富的扩展库.如何安装自己的扩展呢? 点击自定 ...
pycharm pro版本激活
这几天行激活pycharm pro版会遇到问题,license server的网址都不可用了.包括各个网站的百度云的破解资源链接都被和谐了,发现最近jetbrains对盗版管得严. 首次安装在注册界面 ...
Android涉及到的网址都记录在这把~~~~
http://source.android.com/source/initializing.html 开放源码 http://developer.android.com/about/versions ...
Ansible常用模块使用
Ansible官方提供了非常多的模块,还有若干第三方模块,我们也可以自己编写模块. Ansible对远程服务器的操作实际是通过模块完成的,先将模块拷贝到远程服务器,完成操作后,然后在远程服务器上删除该 ...
JAVA对URL的解码【转】
前段时间做URL的中文转换,有些url是utf8的格式,有的是gb2312的格式,很难区分到底是utf8还是gb2312,找了好久,发现网上的一个牛人写的转换代码: package org.apach ...
(转载)Java反射机制
Java反射机制是Java语言被视为准动态语言的关键性质.Java反射机制的核心就是允许在运行时通过Java Reflection APIs来取得已知名字的class类的相关信息,动态地生成此类,并调 ...

爬取博主的所有文章并保存为PDF文件

爬取博主的所有文章并保存为PDF文件的更多相关文章

随机推荐

热门专题