python3爬虫-通过requests爬取图虫网

import requests

from fake_useragent import UserAgent

from requests.exceptions import Timeout

from urllib.parse import quote, unquote

import re, json, os, hashlib

from lxml import etree

import time

from multiprocessing import Process, Queue, Pool     # 之前想使用多进程，通过队列处理图片下载。没有实现

userAgent = UserAgent()

headers = {

    "User-Agent": userAgent.random,

    "Host": "tuchong.com",

    "Referer": "https://tuchong.com/explore/"

}

baseUrl = "https://tuchong.com/rest/tag-categories/"

baseTagUrl = "https://tuchong.com/rest/tags/"

tagReferer = "https://tuchong.com/tags/"

timeout = 5

s = requests.Session()

dic = {

    "subject": [],

    "style": [],

    "equipment": [],

    "location": [],

}

categoriesDict = {

    "subject": "题材",

    "style": "风格",

    "equipment": "器材",

    "location": "地区",

}

def getCategoryPage(url, category, page=1):

    try:

        url = url + category

        params = {

            "page": page,

            "count": 20

        }

        response = s.get(url=url, headers=headers, timeout=timeout, params=params)

        if response.status_code == 200:

            response.category = category

            return response

    except Timeout as e:

        print(e)

        return None

def getTagNameUrl(response):

    if not response:

        return None

    data_dict = response.json()

    tag_list = data_dict.get("data").get("tag_list")

    tag_name_list = [tag.get("tag_name") for tag in tag_list]

    return tag_name_list

def getNextPageUrl(response):

    if not response:

        return []

    data_dict = response.json()

    pages = int(data_dict.get("data").get("pages"))

    for page in range(2, pages + 1):

        yield page

def getAllTag():

    global dic

    s.get(url="https://tuchong.com/explore/", headers=headers, timeout=timeout)

    for category in categoriesDict.keys():

        print("获取 -{}- 第 <{}> 页tagName信息.........".format(categoriesDict.get(category), 1))

        response = getCategoryPage(url=baseUrl, category=category)

        tag_name_list = getTagNameUrl(response) or []

        dic.get(category).extend(tag_name_list)

        time.sleep(1)

        for page in getNextPageUrl(response):

            print("获取 -{}- 第 <{}> 页tagName信息.........".format(categoriesDict.get(category), page))

            response = getCategoryPage(url=baseUrl, category=category, page=page)

            tag_name_list = getTagNameUrl(response) or []

            dic.get(category).extend(tag_name_list)

            time.sleep(1)

def getTagPage(url, tag, page):

    tag = quote(tag)

    url = url + tag + "/posts"

    params = {

        "page": page,

        "count": 20,

        "order": "weekly"

    }

    headers["Referer"] = tagReferer + tag + "/"

    try:

        response = requests.get(url=url, params=params, headers=headers, timeout=timeout)

        if response.status_code == 200:

            return response

    except Timeout as e:

        print(e)

        return None

def getImagesInfo(response):

    print('---')

    if not response:

        return None

    result = response.json().get("result")

    if result == "INVALID":

        print("数据取完了")

        return None

    postList = response.json().get("postList")

    imageUrlList = [dic.get("url") for dic in postList]

    titleList = [dic.get("title").strip() for dic in postList]

    for img_url_title in zip(titleList, imageUrlList):

        img_url_title = list(img_url_title)

        yield img_url_title

def get_md5(img_url):

    m = hashlib.md5()

    m.update(bytes(img_url, encoding="utf-8"))

    return m.hexdigest()

def download(imgsUrl):

    if imgsUrl:

        for img_url in imgsUrl:

            response = requests.get(url=img_url)

            name = get_md5(img_url)

            print("正在下载{}...".format(img_url))

            with open(os.path.join(BASE_PATH, name) + ".jpg", "wb") as f:

                f.write(response.content)

def gogo(tagname):

    page = 1

    while True:

        response = getTagPage(url=baseTagUrl, tag=tagname, page=page)

        print("开始爬取 {} 第 {} 页...".format(tagname, page))

        info = getImagesInfo(response) or []

        if not response:

            return

        for info_tuple in info:

            imgsUrl = putImageUrl(info_tuple)

            download(imgsUrl)

        page += 1

        time.sleep(5)

def putImageUrl(img_url_title_list):

    if img_url_title_list:

        img_url = img_url_title_list[1]

        try:

            response = s.get(url=img_url, headers=headers, timeout=timeout)

            html = etree.HTML(response.text)

            imgsUrl = html.xpath("//article[@class='post-content']/img/@src")

            return imgsUrl

        except requests.exceptions.ConnectionError as e:

            print(e)

            return None

def downloadImage():

    for key in dic:

        tagname_list = dic.get(key)

        for tagname in tagname_list:

            gogo(tagname)

def run():

    getAllTag()

    print("所有tag信息获取完毕.........")

    print("开始获取每个tag的内容.........")

    downloadImage()

if __name__ == '__main__':

    BASE_PATH = r"D:\tuchong"

    run()

python3爬虫-通过requests爬取图虫网的更多相关文章

爬取图虫网示例网址 https://wangxu.tuchong.com/23892889/
#coding=gbk import requests from fake_useragent import UserAgent from lxml import etree import urlli ...
python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...
python3爬虫-通过requests爬取西刺代理
import requests from fake_useragent import UserAgent from lxml import etree from urllib.parse import ...
Python3爬虫使用requests爬取lol英雄皮肤
本人博客:https://xiaoxiablogs.top 此次爬取lol英雄皮肤一共有两个版本,分别是多线程版本和非多线程版本. 多线程版本 # !/usr/bin/env python # -*- ...
爬虫 Scrapy框架爬取图虫图片并下载
items.py,根据需求确定自己的数据要求 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # S ...
Python爬虫训练：爬取酷燃网视频数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理项目目标爬取酷燃网视频数据 https://krcom.cn/ 环境 Py ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
python3 爬虫教学之爬取链家二手房（最下面源码） //以更新源码
前言作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构这里以广州链家二手房为例:http:/ ...
【Python3爬虫】我爬取了七万条弹幕，看看RNG和SKT打得怎么样
一.写在前面直播行业已经火热几年了,几个大平台也有了各自独特的“弹幕文化”,不过现在很多平台直播比赛时的弹幕都基本没法看的,主要是因为网络上的喷子还是挺多的,尤其是在观看比赛的时候,很多弹幕不是喷选 ...

随机推荐

Struts22222
一,什么是框架? 所谓框架就是提供了一组统一的接口和编程方式的可以重用组件,同时我们可以在框架中扩充我们自己的特定逻辑. 二,MVC设计模式将应用程序分为3个部分:模型 Model,视图View, ...
Sql Server 2012 Local DB发布到服务器端后无法访问
背景基于Windows认证的Web application, 通过Visual Studio 2013创建的LocalDB位于App_Data目录下现象本地调试没有任何问题.发布到服务器(Win ...
状态开关（ToggleButton）
状态开关(ToggleButton): 常用属性:isChecked(是否被选中,如true) 监听:1.监听方法:setOnCheckedChangeListener 2.监听器:CompoundB ...
微信小程序开发8-小程序的宿主环境(1)
1.小程序的运行环境分成渲染层和逻辑层,第2章提到过 WXML 模板和 WXSS 样式工作在渲染层,JS 脚本工作在逻辑层.小程序的渲染层和逻辑层分离是经过很多考虑得出来的模型 2. 1.渲染层和数据 ...
《你不知道的JavaScript-上卷》笔记
这段时间看了<你不知道的JavaScript>上卷,对很多知识有了重新的认识,所以在这里罗列一些知识点作为巩固. 作用域和闭包词法作用域变量赋值操作会执行的两个动作答:编译器会在当前 ...
1 年经验 Java 求职面试题
从 17 年的大三暑假就在这家公司实习转正,在这家公司呆了快2年了,随着公司新一轮的融资,看起来公司离上市更近了一步,但期权池也进一步稀释,没有期权的我感觉回报更少了,另外在这家公司接触到的东西也有瓶 ...
PHPStorm/webstorm/PyCharm tips
phpstorm对于使用PHP开发web的人员来说,是一个非常不错的编辑开发IDE,以前用过sublime,但是相比于storm,sublime在浏览legacy代码,类代码编辑方面明显要逊色不少.同 ...
Windows Socket和Linux Socket编程的区别 ZZ
socket相关程序从Windows移植到Linux下需要注意的: 1)头文件 Windows下winsock.h/winsock2.h Linux下sys/socket.h 错误处理:errno.h ...
.net 的page的OnInit方法
/// <summary> /// 重写父类的方法,父类要执行的方法已经被覆盖 /// </summary> /// <param name="e"& ...
如何找回SQL Server实例安装时的序列号
当需要再次安装SQL Server时,如果序列号找不到了,可以试着从已经安装的实例里找回序列号,因为安装完SQL Server后,序列号(Product Key)被保存在注册表里: MSDN订阅下载的 ...

python3爬虫-通过requests爬取图虫网

python3爬虫-通过requests爬取图虫网的更多相关文章

随机推荐

热门专题