python3爬虫-通过requests爬取图虫网

import requests

from fake_useragent import UserAgent

from requests.exceptions import Timeout

from urllib.parse import quote, unquote

import re, json, os, hashlib

from lxml import etree

import time

from multiprocessing import Process, Queue, Pool     # 之前想使用多进程，通过队列处理图片下载。没有实现

userAgent = UserAgent()

headers = {

    "User-Agent": userAgent.random,

    "Host": "tuchong.com",

    "Referer": "https://tuchong.com/explore/"

}

baseUrl = "https://tuchong.com/rest/tag-categories/"

baseTagUrl = "https://tuchong.com/rest/tags/"

tagReferer = "https://tuchong.com/tags/"

timeout = 5

s = requests.Session()

dic = {

    "subject": [],

    "style": [],

    "equipment": [],

    "location": [],

}

categoriesDict = {

    "subject": "题材",

    "style": "风格",

    "equipment": "器材",

    "location": "地区",

}

def getCategoryPage(url, category, page=1):

    try:

        url = url + category

        params = {

            "page": page,

            "count": 20

        }

        response = s.get(url=url, headers=headers, timeout=timeout, params=params)

        if response.status_code == 200:

            response.category = category

            return response

    except Timeout as e:

        print(e)

        return None

def getTagNameUrl(response):

    if not response:

        return None

    data_dict = response.json()

    tag_list = data_dict.get("data").get("tag_list")

    tag_name_list = [tag.get("tag_name") for tag in tag_list]

    return tag_name_list

def getNextPageUrl(response):

    if not response:

        return []

    data_dict = response.json()

    pages = int(data_dict.get("data").get("pages"))

    for page in range(2, pages + 1):

        yield page

def getAllTag():

    global dic

    s.get(url="https://tuchong.com/explore/", headers=headers, timeout=timeout)

    for category in categoriesDict.keys():

        print("获取 -{}- 第 <{}> 页tagName信息.........".format(categoriesDict.get(category), 1))

        response = getCategoryPage(url=baseUrl, category=category)

        tag_name_list = getTagNameUrl(response) or []

        dic.get(category).extend(tag_name_list)

        time.sleep(1)

        for page in getNextPageUrl(response):

            print("获取 -{}- 第 <{}> 页tagName信息.........".format(categoriesDict.get(category), page))

            response = getCategoryPage(url=baseUrl, category=category, page=page)

            tag_name_list = getTagNameUrl(response) or []

            dic.get(category).extend(tag_name_list)

            time.sleep(1)

def getTagPage(url, tag, page):

    tag = quote(tag)

    url = url + tag + "/posts"

    params = {

        "page": page,

        "count": 20,

        "order": "weekly"

    }

    headers["Referer"] = tagReferer + tag + "/"

    try:

        response = requests.get(url=url, params=params, headers=headers, timeout=timeout)

        if response.status_code == 200:

            return response

    except Timeout as e:

        print(e)

        return None

def getImagesInfo(response):

    print('---')

    if not response:

        return None

    result = response.json().get("result")

    if result == "INVALID":

        print("数据取完了")

        return None

    postList = response.json().get("postList")

    imageUrlList = [dic.get("url") for dic in postList]

    titleList = [dic.get("title").strip() for dic in postList]

    for img_url_title in zip(titleList, imageUrlList):

        img_url_title = list(img_url_title)

        yield img_url_title

def get_md5(img_url):

    m = hashlib.md5()

    m.update(bytes(img_url, encoding="utf-8"))

    return m.hexdigest()

def download(imgsUrl):

    if imgsUrl:

        for img_url in imgsUrl:

            response = requests.get(url=img_url)

            name = get_md5(img_url)

            print("正在下载{}...".format(img_url))

            with open(os.path.join(BASE_PATH, name) + ".jpg", "wb") as f:

                f.write(response.content)

def gogo(tagname):

    page = 1

    while True:

        response = getTagPage(url=baseTagUrl, tag=tagname, page=page)

        print("开始爬取 {} 第 {} 页...".format(tagname, page))

        info = getImagesInfo(response) or []

        if not response:

            return

        for info_tuple in info:

            imgsUrl = putImageUrl(info_tuple)

            download(imgsUrl)

        page += 1

        time.sleep(5)

def putImageUrl(img_url_title_list):

    if img_url_title_list:

        img_url = img_url_title_list[1]

        try:

            response = s.get(url=img_url, headers=headers, timeout=timeout)

            html = etree.HTML(response.text)

            imgsUrl = html.xpath("//article[@class='post-content']/img/@src")

            return imgsUrl

        except requests.exceptions.ConnectionError as e:

            print(e)

            return None

def downloadImage():

    for key in dic:

        tagname_list = dic.get(key)

        for tagname in tagname_list:

            gogo(tagname)

def run():

    getAllTag()

    print("所有tag信息获取完毕.........")

    print("开始获取每个tag的内容.........")

    downloadImage()

if __name__ == '__main__':

    BASE_PATH = r"D:\tuchong"

    run()

python3爬虫-通过requests爬取图虫网的更多相关文章

爬取图虫网示例网址 https://wangxu.tuchong.com/23892889/
#coding=gbk import requests from fake_useragent import UserAgent from lxml import etree import urlli ...
python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...
python3爬虫-通过requests爬取西刺代理
import requests from fake_useragent import UserAgent from lxml import etree from urllib.parse import ...
Python3爬虫使用requests爬取lol英雄皮肤
本人博客:https://xiaoxiablogs.top 此次爬取lol英雄皮肤一共有两个版本,分别是多线程版本和非多线程版本. 多线程版本 # !/usr/bin/env python # -*- ...
爬虫 Scrapy框架爬取图虫图片并下载
items.py,根据需求确定自己的数据要求 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # S ...
Python爬虫训练：爬取酷燃网视频数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理项目目标爬取酷燃网视频数据 https://krcom.cn/ 环境 Py ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
python3 爬虫教学之爬取链家二手房（最下面源码） //以更新源码
前言作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构这里以广州链家二手房为例:http:/ ...
【Python3爬虫】我爬取了七万条弹幕，看看RNG和SKT打得怎么样
一.写在前面直播行业已经火热几年了,几个大平台也有了各自独特的“弹幕文化”,不过现在很多平台直播比赛时的弹幕都基本没法看的,主要是因为网络上的喷子还是挺多的,尤其是在观看比赛的时候,很多弹幕不是喷选 ...

随机推荐

Docker 核心概念、安装、端口映射及常用操作命令，详细到令人发指。
Docker简介 Docker是开源应用容器引擎,轻量级容器技术. 基于Go语言,并遵循Apache2.0协议开源 Docker可以让开发者打包他们的应用以及依赖包到一个轻量级.可移植的容器中,然后发 ...
MongoDB 排序文档
sort() 方法要在 MongoDB 中的文档进行排序,需要使用sort()方法. sort() 方法接受一个文档,其中包含的字段列表连同他们的排序顺序. 要指定排序顺序1和-1. 1用于升序排列 ...
地图的平移、缩放的实现(android版)
一.平移地图移动地图的原理是利用手指在屏幕上拖动的距离,转换为在地图上距离,把地图坐标加上偏移的距离实现地图移动. 由于地图是绘制到Bitmap上的,所以地图移动和缩放的过程只要改变Bitmap的矩 ...
【转】怎么用PHP发送HTTP请求（POST请求、GET请求）?
file_get_contents版本: /** * 发送post请求 * @param string $url 请求地址 * @param array $post_data post键值对数据 * ...
阅读《大道至简第一章》读后感（java 伪代码）
通读大道至简第一章愚公移山,可以将其看做一个完整的工程,首先是创建工程的原因,需求:“惩山北之塞,出入之迂”,而后是团队之间的商议:“聚室而谋曰”,然后确定工程的目标:“毕力平险,指通豫南, ...
多个 Word 文档合并为一个
如果您工作中经常要跟 Word 文档打交道,时不时的您可能需要将多个 Word 文档合并为一个.信息量少的时候,我们可以直接使用复制粘贴.除此之外,还有没有其它办法呢? 借助word2010/2007 ...
关于Unity3d的Quaternion.LookRotation的学习
首先,创建两个cube GameObject物件.Origin作为原点参考.Player是我们要实验的物件.如下图所示: 创建一个脚本Quat.cs,赋给Palyer cube.脚本如下: publi ...
Python学习---网络编程 1217【all】
OSI七层模型: 物理层, 数据链路层, 网络层,传输层,会话层,表达层,应用层应用层:TFTP,HTTP,SNMP,FTP,SMTP,DNS,Telnet 等等传输层:TCP,UDP 网络层:I ...
Linux ping命令详解
Linux系统的ping命令是常用的网络命令,它通常用来测试与目标主机的连通性基于IMCP协议常见命令参数 -q 不显示任何传送封包的信息,只显示最后的结果 -n 只输出数值 -R 记录路由过程 ...
iptables常用配置
常用的iptables模板 #!/bin/sh iptables -F iptables -X iptables -F -t mangle iptables -t mangle -X iptables ...

python3爬虫-通过requests爬取图虫网

python3爬虫-通过requests爬取图虫网的更多相关文章

随机推荐

热门专题