一.思路

我们通过网页版的微信公众平台的图文消息中的超链接获取到我们需要的接口

从接口中我们可以得到对应的微信公众号和对应的所有微信公众号文章。

二.接口分析

获取微信公众号的接口：
https://mp.weixin.qq.com/cgi-bin/searchbiz?
参数：
action=search_biz
begin=0
count=5
query=公众号名称
token=每个账号对应的token值
lang=zh_CN
f=json
ajax=1
请求方式：
GET
所以这个接口中我们只需要得到token即可，而query则是你需要搜索的公众号，token则可以通过登录后的网页链接获取得到。

获取对应公众号的文章的接口：
https://mp.weixin.qq.com/cgi-bin/appmsg?
参数：
action=list_ex
begin=0
count=5
fakeid=MjM5NDAwMTA2MA==
type=9
query=
token=557131216
lang=zh_CN
f=json
ajax=1
请求方式：
GET
在这个接口中我们需要获取的值有上一步的token以及fakeid，而这个fakeid则在第一个接口中可以获取得到。从而我们就可以拿到微信公众号文章的数据了。

三.实现

第一步：

首先我们需要通过selenium模拟登录，然后获取到cookie和对应的token

def weChat_login(user, password):

    post = {}

    browser = webdriver.Chrome()

    browser.get('https://mp.weixin.qq.com/')

    sleep(3)

    browser.delete_all_cookies()

    sleep(2)

    # 点击切换到账号密码输入

    browser.find_element_by_xpath("//a[@class='login__type__container__select-type']").click()

    sleep(2)

    # 模拟用户点击

    input_user = browser.find_element_by_xpath("//input[@name='account']")

    input_user.send_keys(user)

    input_password = browser.find_element_by_xpath("//input[@name='password']")

    input_password.send_keys(password)

    sleep(2)

    # 点击登录

    browser.find_element_by_xpath("//a[@class='btn_login']").click()

    sleep(2)

    # 微信登录验证

    print('请扫描二维码')

    sleep(20)

    # 刷新当前网页

    browser.get('https://mp.weixin.qq.com/')

    sleep(5)

    # 获取当前网页链接

    url = browser.current_url

    # 获取当前cookie

    cookies = browser.get_cookies()

    for item in cookies:

        post[item['name']] = item['value']

    # 转换为字符串

    cookie_str = json.dumps(post)

    # 存储到本地

    with open('cookie.txt', 'w+', encoding='utf-8') as f:

        f.write(cookie_str)

    print('cookie保存到本地成功')

    # 对当前网页链接进行切片，获取到token

    paramList = url.strip().split('?')[1].split('&')

    # 定义一个字典存储数据

    paramdict = {}

    for item in paramList:

        paramdict[item.split('=')[0]] = item.split('=')[1]

    # 返回token

    return paramdict['token']

定义了一个登录方法，里面的参数为登录的账号和密码，然后定义了一个字典用来存储cookie的值。通过模拟用户输入对应的账号密码并且点击登录，然后会出现一个扫码验证，用登录的微信去扫码即可。
刷新当前网页后，获取当前cookie以及token然后返回。

第二步：

1.请求获取对应公众号接口，取到我们需要的fakeid

    url = 'https://mp.weixin.qq.com'

    headers = {

        'HOST': 'mp.weixin.qq.com',

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36 Edg/86.0.622.63'

    }

    with open('cookie.txt', 'r', encoding='utf-8') as f:

        cookie = f.read()

    cookies = json.loads(cookie)

    resp = requests.get(url=url, headers=headers, cookies=cookies)

    search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?'

    params = {

        'action': 'search_biz',

        'begin': '0',

        'count': '5',

        'query': '搜索的公众号名称',

        'token': token,

        'lang': 'zh_CN',

        'f': 'json',

        'ajax': '1'

    }

    search_resp = requests.get(url=search_url, cookies=cookies, headers=headers, params=params)

将我们获取到的token和cookie传进来，然后通过requests.get请求，获得返回的微信公众号的json数据

lists = search_resp.json().get('list')[0]

通过上面的代码即可获取到对应的公众号数据

fakeid = lists.get('fakeid')

通过上面的代码就可以得到对应的fakeid

2.请求获取微信公众号文章接口，取到我们需要的文章数据

    appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'

    params_data = {

        'action': 'list_ex',

        'begin': '0',

        'count': '5',

        'fakeid': fakeid,

        'type': '9',

        'query': '',

        'token': token,

        'lang': 'zh_CN',

        'f': 'json',

        'ajax': '1'

    }

    appmsg_resp = requests.get(url=appmsg_url, cookies=cookies, headers=headers, params=params_data)

我们传入fakeid和token然后还是调用requests.get请求接口，获得返回的json数据。
我们就实现了对微信公众号文章的爬取。

四.总结

通过对微信公众号文章的爬取，需要掌握selenium和requests的用法，以及如何获取到请求接口。但是需要注意的是当我们循环获取文章时，一定要设置延迟时间，不然账号很容易被封禁，从而得不到返回的数据。

交流基地：630390733

Python 微信公众号文章爬取的更多相关文章

破解微信防盗链&微信公众号文章爬取方案
破解微信图文防盗链:https://www.cnblogs.com/xsxshmily/p/8000043.html 图片解除防盗链:https://blog.csdn.net/show_ljw/ar ...
微信公众号批量爬取java版
最近需要爬取微信公众号的文章信息.在网上找了找发现微信公众号爬取的难点在于公众号文章链接在pc端是打不开的,要用微信的自带浏览器(拿到微信客户端补充的参数,才可以在其它平台打开),这就给爬虫程序造成很 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
Chrome浏览器保存微信公众号文章中的图片
用chrome浏览器打开微信公众号文章中时,另存为图片时保存的是640.webp,不是图片本身,用IE则没有此问题.大部分chrome插件也无法保存图片. 经过多番尝试,找到一款插件可以批量保存微信公 ...
pc端引入微信公众号文章
最近做了一个小需求,结果坑特别多..... 需求是这样的,要给公司内部做一个微信公众号广告投票系统,整个项目就不多赘述了,有个小功能,要求是这样的: 点击某条记录后的“投票”按钮,在当前页面弹出弹窗显 ...
【技巧】如何使用客户端发布BLOG+如何快速发布微信公众号文章
[技巧]如何使用客户端发布BLOG+如何快速发布微信公众号文章 1 BLOG文档结构图 2 前言部分 2.1 导读和注意事项各位技术爱好者,看完本文后,你可以掌握如下的技能,也 ...
制作的excel表格如何放到微信公众号文章中？
制作的excel表格如何放到微信公众号文章中? 我们都知道创建一个微信公众号,在公众号中发布一些文章是非常简单的,但公众号添加附件下载的功能却被限制,如今可以使用小程序“微附件”进行在公众号中添加附件 ...
iframe引入微信公众号文章
微信在文章页面设置了响应头""frame-ancestors 'self'"阻止了外部页面将其嵌套的行为,文章的图片也设置了防盗链的功能,这就导致了直接在iframe中引 ...
Python微信公众号开发
最近老大叫我学习开发微信,试着玩了下.网上查了下文档.有点过时. 简单步骤: 1)申请服务器并完成环境配置去腾讯云购买云服务器.当然你也可以购买其他产品,比如阿里云.因为我是学生,有优惠110一年. ...

随机推荐

采集post传输的数据
采集数据,网页上的数据是开发者通过ajax的post方式显示的,就得用到curl以及它的跨域方法代码: $post_data------post传过去的参数 $ch = curl_init(); $ ...
npm,pm2等相关知识的学习
现在开始接手node端测试,有好多知识点,比如启动进程的命令,查看进程的命令都不是很清晰,现在具体来学习下- npm由来前端最大的社区是GitHub,大家在这里分享代码,讨论问题,收集学习资源.大家 ...
【CF600E】Lomsat gelral——树上启发式合并
(题面来自luogu) 题意翻译一棵树有n个结点,每个结点都是一种颜色,每个颜色有一个编号,求树中每个子树的最多的颜色编号的和. ci <= n <= 1e5 裸题.统计时先扫一遍得到出 ...
centOs7.5.64之前的操作系统搭建GitLab记录
GitLab搭建步骤: 1. Install and configure the necessary dependencies (1)yum install curl openssh-server o ...
Django的静态文件的配置
静态文件配置 STATIC_URL = '/static/' # 静态文件配置 STATICFILES_DIRS = [ os.path.join(BASE_DIR,'static') ] # 暴露给 ...
【2020.12.03提高组模拟】A组反思
估计:40+10+0+0=50 实际:40+10+0+0=50 rank40 T1 赛时看到$n,m\leq9$,我当机立断决定打表,暴力打了几个点之后发现在$n\ne m$且\(k\ne0\ ...
WPF 学习笔记（一）
一.概述 WPF(Windows Presentation Foundation)是微软推出的基于Windows 的用户界面框架,随着.NET Framework 3.0发布第一个版本.它提供了统一的 ...
charles解决乱码
1.点击help ssl proxying ,install Charles Root Certificate 2.点击安装证书按钮 3:点击下一步按钮 4:选中将所有的证书都放入下列存储点击浏览按 ...
第9.1节 Python的文件打开函数open简介
一.语法简介函数基本使用语法:open(文件名,文件打开模式='rt') 其中: 1.文件名为可带路径的文件名,注意windows下路径的反斜杠会被作为转义符处理,因此可以采用前面再加反斜杠或使用原 ...
PyQt学习随笔：Model/View设计中支持View中展示数据的排序
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址在model/view架构中,有两种方法可以实现排序,选择哪种方法依赖于底层Model.如果mode ...

Python 微信公众号文章爬取