Python爬取微信公众号素材库

这是我的之前写的代码，今天发布到博客园上，说不定以后需要用。

开始：

#coding:utf-8

import werobot

import pymongo

 

class Gongzhonghao():

 

    def __init__(self,token,APP_ID,ENCODING_AES_KEY,APP_SECRET):

        self.robot = werobot.WeRoBot(token = token)

        self.robot.config['HOST'] = '0.0.0.0'

        self.robot.config['PORT'] = 80

        self.robot.config['APP_ID'] = APP_ID

        self.robot.config['ENCODING_AES_KEY'] = ENCODING_AES_KEY

        self.robot.config['APP_SECRET'] = APP_SECRET

 

    def _getNews_Count(self):

        """

        获取公众号图文消息总数

        :return: Int

        """

        mediacount = self.robot.client.get_media_count()

        news_count = mediacount['news_count']

        return news_count

 

    def getNews(self):

        """

        获取公众号所有的图文内容

        :return: Json

        """

        i = 0

        items = []

        news_count = self._getNews_Count()

        while i < news_count:

            tempj = self.robot.client.get_media_list('news', i, 20)

            items  = tempj['item'] + items

            i = i + 20

        j = {

            'total_count': news_count,

            'items': items

        }

        return j

 

    def echo(self):

        """

        用于公众号后台初次配置的验证

        :return: null

        """

        self.robot.run()

 

if __name__ == '__main__':

    g = Gongzhonghao('1', '2', '3','4')

    j = g.getNews()

    client = pymongo.MongoClient('ip', 27017)

    db = client.gongzhonghao

    xxx= db.xxx

    xxx.insert(j)

　　然后连接数据库进行解析，数据库中包含图文消息html代码等信息。

# -*- coding:utf-8 -*-

 

import os

import urllib.parse

from html.parser import HTMLParser

 

import requests

from bs4 import BeautifulSoup

from pymongo import MongoClient

 

 

class ContentHtmlParser(HTMLParser):

    """

    过滤html标签

    """

 

    def __init__(self):

        HTMLParser.__init__(self)

        self.text = ""

 

    def handle_data(self, data):

        self.text += data

 

    def get_text(self):

        return self.text

 

 

mongo_client = MongoClient("ip", 27017)

mongo_db = mongo_client["gongzhonghao"]

 

 

def get_words():

    words = []

    with open("words.txt", encoding="utf-8") as words_file:

        for lines in words_file.readlines():

            if len(lines.strip()) == 0:

                continue

 

            if lines.find("、") != -1:

                for p in lines.split("、"):

                    words.append(p.replace("\n", ""))

            else:

                words.append(lines.replace("\n", ""))

    return words

 

 

def get_articles(clt):

    articles = []

 

    collection = mongo_db[clt]

    doc = collection.find_one()

    items = doc["items"]

    for it in items:

        content = it["content"]["news_item"][0]

        articles.append(content)

 

    return articles

 

 

def download(dir, file_name, url):

    if not os.path.exists(dir):

        os.mkdir(dir)

 

    try:

        resp = requests.get(url)

 

        path = dir + "\\" + file_name

 

        if os.path.exists(path):

            return

 

        with open(path, "wb") as f:

            f.write(resp.content)

    except :

        print(url)

 

def find_images(content):

    imgs = []

    c = urllib.parse.unquote(content)

    img_labels = BeautifulSoup(c, "html.parser").find_all("img")

    for img in img_labels:

        src = img.get("data-src")

        imgs.append(src)

    return imgs

 

 

def get_suffix(url):

    try:

        suffix = url[url.rindex("=") + 1:]

        if suffix == "jpeg" or suffix == "other":

            return ".jpg"

        return "." + suffix

    except:

        return ".jpg"

 

 

def filter_content(content):

    parser = ContentHtmlParser()

    parser.feed(content)

    return parser.get_text()

 

 

def check_jinyongci(content):

    fc = filter_content(content)

    words = get_words()

    invalids = []

    for w in words:

        if fc.find(w) != -1:

            invalids.append(w)

    return invalids

 

 

def save_jinyongci(clt, title, invalids):

    if len(invalids) == 0:

        return

 

    file = clt + "\\invalid.txt"

 

    with open(file, "a+",encoding="utf-8") as f:

        f.write("标题：" + title)

        f.write("\r\n敏感词：")

 

        for iv in invalids:

            f.write(iv)

            f.write("、")

 

        f.write("\r\n\r\n")

 

 

if __name__ == "__main__":

    clt = "xxx"

 

    if not os.path.exists(clt):

        os.mkdir(clt)

 

    articles = get_articles(clt)

    print(clt + ": 共" + str(len(articles)) + "个")

 

    for i in range(0, len(articles)):

        print("正在处理第 " + str(i) + " 个")

 

        title = articles[i]["title"]

        thumb_url = articles[i]["thumb_url"]

        content = articles[i]["content"]

 

        # 下载封面

        # path = os.path.join(clt, title)

        fname = str(i) + "_" + title.replace("|", "").replace("<", "").replace(">", "")

        download(clt, fname + get_suffix(thumb_url), thumb_url)

 

        # 找出文章中的图片

        imgs = find_images(content)

        index = 0

        for img in imgs:

            download(clt, fname + "_" + str(index) + get_suffix(img), img)

            index = index + 1

 

        # 找出文章中的敏感词

        invalids = check_jinyongci(content)

        print(invalids,'----',title)

        save_jinyongci(clt, title, invalids)

　　附带极限词列表，进行过滤使用

最大程度、最高级、最高端、最奢侈、最低级、最便宜、史上最低价、最流行、最受欢迎、最先进科学、最新技术、最新科学

 

中国第一、全网第一、销量第一、排名第一、第一品牌、NO.1、TOP1、独一无二、全国第一、最后一波、大品牌之一、销冠

 

国家级、国际级、世界级、千万级、百万级、星级、5A、甲级、超甲级

 

顶级、尖端、顶尖、顶级享受、完美、至尊、空前、绝后、绝版、非此莫属、巅峰、前所未有、完美、翘楚之作、不可再生、不可复制、绝无仅有、寸土寸金、淋漓尽致、无与伦比、唯一、卓越

 

前无古人后无来者、绝版、珍稀、臻稀、稀少、绝无仅有、绝不在有、稀世珍宝、千金难求、世所罕见、不可多得、空前绝后、寥寥无几、屈指可数

 

独家、独创、独据、开发者、缔造者、创始者、发明者

 

首个、首选、独家、首发、首席、首府、首选、首屈一指、全国首家、国家领导人、国门、国宅、首次、填补国内空白、国际品质

 

大牌、金牌、名牌、王牌、领先上市、巨星、著名、掌门人、至尊、冠军

 

世界领先、领先、领导者、领袖、引领、创领、领航、耀领

  

史无前例、前无古人、永久、万能、百分之百

Python爬取微信公众号素材库的更多相关文章

python爬取微信公众号
爬取策略 1.需要安装python selenium模块包,通过selenium中的webdriver驱动浏览器获取Cookie的方法.来达到登录的效果 pip3 install selenium c ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
使用BeautifulSoup自动爬取微信公众号图片
爬取微信分享的图片,根据不同的页面自行修改,使用BeautifulSoup爬取,自行格局HTML修改要爬取图片的位置 import re import time import requests imp ...
python 爬取微信好友列表和个性签名，绘制个性签名云图
python爬取微信好友列表和个性签名,绘制个性签名云图 1. 简要介绍本次实验主要用到下面几个库 : 1)itchat---用于微信接口,实现生成QR码,用于微信扫描登陆 2)re(正则化)--- ...
python爬取微信小程序（实战篇）
python爬取微信小程序(实战篇) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90452656 展开一.背景介绍近期有需求需要抓 ...
Python爬取微信小程序（Charles）
Python爬取微信小程序(Charles) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90045204 一.前言最近需要获取微信小 ...
python通过手机抓取微信公众号
使用 Fiddler 抓包分析公众号打开微信随便选择一个公众号,查看公众号的所有历史文章列表在 Fiddler 上已经能看到有请求进来了,说明公众号的文章走的都是HTTPS协议,这些请求就是微信客 ...
Python爬取微信好友
前言今天看到一篇好玩的文章,可以实现微信的内容爬取和聊天机器人的制作,所以尝试着实现一遍,本文记录了实现过程和一些探索的内容来源: 痴海链接: https://mp.weixin.qq.com/ ...
Python+Tornado开发微信公众号
本文已同步到专业技术网站 www.sufaith.com, 该网站专注于前后端开发技术与经验分享, 包含Web开发.Nodejs.Python.Linux.IT资讯等板块. 本教程针对的是已掌握Pyt ...

随机推荐

【神经网络与深度学习】Win10+VS2015 caffe环境搭建（极其详细）
caffe是好用,可是配置其环境实在是太痛苦了,依赖的库很多不说,在VS上编译还各种报错,你能想象那种被一百多个红色提示所笼罩的恐惧. 且网上很多教程是VS2013环境下编译的,问人很多也说让我把1 ...
A+B 和 C
给定区间 [−] 内的 3 个整数 A.B 和 C,请判断 A+B 是否大于 C. 输入格式: 输入第 1 行给出正整数 T (≤),是测试用例的个数.随后给出 T 组测试用例,每组占一行,顺序给出 ...
【转帖】MIPS构架之：我和龙芯有个约会
MIPS构架之:我和龙芯有个约会 https://www.eefocus.com/mcu-dsp/364490 <处理器史话>之十二 2016-06-24 12:21 作者:付丽华预计 1 ...
下载 m3u8 直播流的方法
下载 FFmpeg http://ffmpeg.org/download.html 查找直播流地址找到目标视频对应的 m3u8 播放列表. 执行脚本 ffmpeg -i https://nhkmov ...
开发板与pc之间文件传输：kermit and lrzsz
imx6开发板与pc机之间通过串口传输文件步骤: 1. 安装好kermit并可以使用 2. 交叉编译lrzsz开源软件并把可执行程序lrz lsz拷贝到开发板 2.1 下载并解压lrzsz-0.12. ...
Delphi 10 Seattle plus 新特性——System.JSON.Builders
{ 全能中间件 —— 简单.高效.稳定.安全的三层中间件 1.支持多账套多数据库,包括SQLite, MySQL, SQL Server, Oracle, PostgreSQL, DB2, SQL ...
html2canvas以及domtoimage的使用踩坑总结动态获取的二维码失效如何生成海报
//判断手机为安卓还是ios 安卓html2canvas方法 ios系统dom-to-image方法 $(".code").click(function() { var u = n ...
[NOIP2018 PJ T4]对称二叉树
题目大意:问一棵有根带权二叉树中最大的对称二叉树子树,对称二叉树为需满足将这棵树所有节点的左右子树交换,新树和原树对应位置的结构相同且点权相等. 题解:在对称二叉树中,对于深度相同的两个节点$u,v$ ...
DevOps 什么是 CI/CD？
CI/CD 是一种通过在应用开发阶段引入自动化来频繁向客户交付应用的方法.CI/CD 的核心概念是持续集成.持续交付和持续部署.作为一个面向开发和运营团队的解决方案,CI/CD 主要针对在集成新代码时 ...
backpropagation algorithm
搞卷积神经网络的时候突然发现自己不清楚神经网络怎么训练了,满脸黑线,借此机会复习一下把. 首先放一位知乎大佬的解释.https://www.zhihu.com/question/27239198?rf ...

Python爬取微信公众号素材库

Python爬取微信公众号素材库的更多相关文章

随机推荐

热门专题