前言

第一次写博客，主要内容是爬取微信公众号的文章，将文章以PDF格式保存在本地。

爬取微信公众号文章（使用wechatsogou）

1.安装

pip install wechatsogou --upgrade

wechatsogou是一个基于搜狗微信搜索的微信公众号爬虫接口

2.使用方法

使用方法如下所示

import wechatsogou

# captcha_break_time为验证码输入错误的重试次数，默认为1

ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)

# 公众号名称

gzh_name = ''

# 将该公众号最近10篇文章信息以字典形式返回

data = ws_api.get_gzh_article_by_history(gzh_name)

data数据结构：

{

    'gzh': {

        'wechat_name': '',  # 名称

        'wechat_id': '',  # 微信id

        'introduction': '',  # 简介

        'authentication': '',  # 认证

        'headimage': ''  # 头像

    },

    'article': [

        {

            'send_id': int,  # 群发id，注意不唯一，因为同一次群发多个消息，而群发id一致

            'datetime': int,  # 群发datatime 10位时间戳

            'type': '',  # 消息类型，均是49（在手机端历史消息页有其他类型，网页端最近10条消息页只有49），表示图文

            'main': int,  # 是否是一次群发的第一次消息 1 or 0

            'title': '',  # 文章标题

            'abstract': '',  # 摘要

            'fileid': int,  #

            'content_url': '',  # 文章链接

            'source_url': '',  # 阅读原文的链接

            'cover': '',  # 封面图

            'author': '',  # 作者

            'copyright_stat': int,  # 文章类型，例如：原创啊

        },

        ...

    ]

}

这里需要得到两个信息：文章标题，文章url。

得到文章url以后，就可以根据url将html页面转换成pdf文件了。

生成PDF文件

1.安装wkhtmltopdf

下载地址:https://wkhtmltopdf.org/downloads.html

2.安装pdfkit

pip install pdfkit

3.使用方法

import pdfkit

# 根据url生成pdf

pdfkit.from_url('http://baidu.com','out.pdf')

# 根据html文件生成pdf

pdfkit.from_file('test.html','out.pdf')

# 根据html代码生成pdf

pdfkit.from_string('Hello!','out.pdf')

如果直接用上面得到的文章url去生成pdf，会出现pdf文件不显示文章图片的问题。

解决办法：

# 该方法根据文章url对html进行处理，使图片显示

content_info = ws_api.get_article_content(url)

# 得到html代码(代码不完整，需要加入head、body等标签)

html_code = content_info['content_html']

然后根据html_code构造完整的html代码，调用pdfkit.from_string()方法生成pdf文件，这时候会发现文章中的图片在pdf文件中显示出来了。

完整代码

import os

import pdfkit

import datetime

import wechatsogou

# 初始化API

ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)

def url2pdf(url, title, targetPath):

    '''

    使用pdfkit生成pdf文件

    :param url: 文章url

    :param title: 文章标题

    :param targetPath: 存储pdf文件的路径

    '''

    try:

        content_info = ws_api.get_article_content(url)

    except:

        return False

    # 处理后的html

    html = f'''

    <!DOCTYPE html>

    <html lang="en">

    <head>

        <meta charset="UTF-8">

        <title>{title}</title>

    </head>

    <body>

    <h2 style="text-align: center;font-weight: 400;">{title}</h2>

    {content_info['content_html']}

    </body>

    </html>

    '''

    try:

        pdfkit.from_string(html, targetPath + os.path.sep + f'{title}.pdf')

    except:

        # 部分文章标题含特殊字符，不能作为文件名

        filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf'

        pdfkit.from_string(html, targetPath + os.path.sep + filename)

if __name__ == '__main__':

    # 此处为要爬取公众号的名称

    gzh_name = ''

    targetPath = os.getcwd() + os.path.sep + gzh_name

    # 如果不存在目标文件夹就进行创建

    if not os.path.exists(targetPath):

        os.makedirs(targetPath)

    # 将该公众号最近10篇文章信息以字典形式返回

    data = ws_api.get_gzh_article_by_history(gzh_name)

    article_list = data['article']

    for article in article_list:

        url = article['content_url']

        title = article['title']

        url2pdf(url, title, targetPath)

使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)的更多相关文章

python爬取微信公众号
爬取策略 1.需要安装python selenium模块包,通过selenium中的webdriver驱动浏览器获取Cookie的方法.来达到登录的效果 pip3 install selenium c ...
Python爬取微信公众号素材库
这是我的之前写的代码,今天发布到博客园上,说不定以后需要用. 开始: #coding:utf-8 import werobot import pymongo class Gongzhonghao( ...
使用BeautifulSoup自动爬取微信公众号图片
爬取微信分享的图片,根据不同的页面自行修改,使用BeautifulSoup爬取,自行格局HTML修改要爬取图片的位置 import re import time import requests imp ...
Python 微信公众号文章爬取
一.思路我们通过网页版的微信公众平台的图文消息中的超链接获取到我们需要的接口从接口中我们可以得到对应的微信公众号和对应的所有微信公众号文章. 二.接口分析获取微信公众号的接口: https:// ...
python通过手机抓取微信公众号
使用 Fiddler 抓包分析公众号打开微信随便选择一个公众号,查看公众号的所有历史文章列表在 Fiddler 上已经能看到有请求进来了,说明公众号的文章走的都是HTTPS协议,这些请求就是微信客 ...
拒绝低效！Python教你爬虫公众号文章和链接
本文首发于公众号「Python知识圈」,如需转载,请在公众号联系作者授权. 前言上一篇文章整理了的公众号所有文章的导航链接,其实如果手动整理起来的话,是一件很费力的事情,因为公众号里添加文章的时候只 ...
Python爬取微信小程序（Charles）
Python爬取微信小程序(Charles) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90045204 一.前言最近需要获取微信小 ...
Chrome浏览器保存微信公众号文章中的图片
用chrome浏览器打开微信公众号文章中时,另存为图片时保存的是640.webp,不是图片本身,用IE则没有此问题.大部分chrome插件也无法保存图片. 经过多番尝试,找到一款插件可以批量保存微信公 ...
pc端引入微信公众号文章
最近做了一个小需求,结果坑特别多..... 需求是这样的,要给公司内部做一个微信公众号广告投票系统,整个项目就不多赘述了,有个小功能,要求是这样的: 点击某条记录后的“投票”按钮,在当前页面弹出弹窗显 ...

随机推荐

End-to end provisioning of storage clouds
Embodiments discussed in this disclosure provide an integrated provisioning framework that automates ...
python 反转列表
翻转一个链表您在真实的面试中是否遇到过这个题? Yes 样例给出一个链表1->2->3->null,这个翻转后的链表为3->2->1->null 步骤是这样的: ...
listview选中滑动时背景变黑
喵的今天调这个一直以为是背景色的问题,花了好多时间下面才是解决方法:转自:http://daijun74.iteye.com/blog/1175143 手指在ListView上下滚动时,ListVi ...
Android 项目框架功能整理记录
用来记录自己在项目用到的框架工具等,新人新记录,希望能对你搭建项目有所帮助常用框架整理视图绑定注解框架: butterKnife 网络请求框架: OKHttp 图片加载缓存:Gilde 数据格式解 ...
ASP.NET Core 异常和错误处理 - ASP.NET Core 基础教程 - 简单教程，简单编程
原文:ASP.NET Core 异常和错误处理 - ASP.NET Core 基础教程 - 简单教程,简单编程 ASP.NET Core 异常和错误处理上一章节中,我们学习了 ASP.NET Cor ...
HDU 4279 Number(2012天津网络游戏---数论分析题)
转载请注明出处:http://blog.csdn.net/u012860063? viewmode=contents 题目链接:pid=4279">http://acm.hdu.edu ...
Android学习-- 基于位置的服务 LBS(基于百度地图Android SDK)--定位SDK
原文:Android学习-- 基于位置的服务 LBS(基于百度地图Android SDK)--定位SDK 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.ne ...
iOS-让button按钮显示成圆角
这里用到的属性layer是CALayer类型,属于UIView,也就是说所有UIView的子类都能使用这个属性. @property (strong, nonatomic) IBOutlet UIBu ...
用MVVM模式开发中遇到的零散问题总结（3）——自制正则表达式万能绑定转换器
原文:用MVVM模式开发中遇到的零散问题总结(3)--自制正则表达式万能绑定转换器前言最近接受了3个项目的洗礼,出差近3个月,各种北京.广州.昆明来回奔波,好久没写博客了,之前我觉得我遇到的问题都 ...
WPF——TargetNullValue(如何在绑定空值显示默认字符)
原文:WPF--TargetNullValue(如何在绑定空值显示默认字符) 说明:在数据绑定时,如果有些字段为空值,那么在数据绑定时可以用默认值来显示为空的字段. </Grid> { L ...

使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)

前言