Python 爬虫爬取今日头条街拍上的图片

# 今日头条--街拍

import requests

from urllib.parse import urlencode

import os

from hashlib import md5

from multiprocessing.pool import Pool

# 根据 offset 得到每一个 ajax 请求返回的 json

def get_json(offset):

    base_url = 'https://www.toutiao.com/search_content/?'

    params = {

        'offset': offset,

        'format': 'json',

        'keyword': '街拍',

        'autoload': 'true',

        'count': '20',

        'cur_tab': '1',

        'from': 'search_tab',

        'pd': 'synthesis'

    }

    url = base_url + urlencode(params)

    try:

        response = requests.get(url)

        if response.status_code == 200:

            return response.json()

    except requests.ConnectionError as e:

        print('Errors', e.args)

        return None

# 根据 josn 提取出相应内容的标题、图片链接

def get_images(json):

    if json.get('data'):

        for item in json.get('data'):

            if item.get('cell_type') is not None:

                continue

            title = item.get('title')

            images = item.get('image_list')

            for image in images:

                yield {

                    'title': title,

                    #获取大图片

                    'image': image.get('url').replace('list', 'large').replace('//', 'Https://')

                }

# 根据 item 中的 title 创建文件夹，图片的名称可以用其内容的 MD5 值，防止重复

# 这里有个小问题，那就是在 windows 路径下创建文件夹是不可以有英文的':'，这些标题大多是中文符号，但是偶尔也会含有

# 英文的':',这样会导致创建文件夹失败，所以要将windows下不允许的英文符号(\/:*?"<>|)转换成相应的中文标点

def save_images(item):

    title = item.get('title')

    intab = r'\/:*?"<>|'

    outtab = '、、：-？“《》-'

    trantab = str.maketrans(intab, outtab)

    # 将windows下不允许的英文符号(\/:*?"<>|)转换成相应的中文标点

    title = title.translate(trantab)

    if not os.path.exists(title):

        os.mkdir(title)

    try:

        response = requests.get(item.get('image'))

        if response.status_code == 200:

            file_path = '{0}/{1}.{2}'.format(title, md5(response.content).hexdigest(), 'jpg')

            if not os.path.exists(file_path):

                with open(file_path, 'wb') as f:

                    f.write(response.content)

            else:

                print('Already Downloaded', file_path)

    except requests.ConnectionError:

        print('Failed to save image')

def main(offset):

    json = get_json(offset)

    for item in get_images(json):

        print(item)

        save_images(item)

# 定义开始页数

GROUP_START = 1

# 定义结束页数

GROUP_END = 5

if __name__ == '__main__':

    pool = Pool()

    offsets = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])

    # 利用多线程的线程池的map方法下载图片

    pool.map(main, offsets)

    pool.close()

    pool.join()

Python 爬虫爬取今日头条街拍上的图片的更多相关文章

PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...
【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】
[摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作在本节 ...
【Python3网络爬虫开发实战】分析Ajax爬取今日头条街拍美图
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:haoxuan10 本节中,我们以今日头条为例来尝试通过分析Ajax请求 ...
转：【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图
[摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作在本节 ...
分析Ajax爬取今日头条街拍美图-崔庆才思路
站点分析源码及遇到的问题代码结构方法定义需要的常量关于在代码中遇到的问题 01. 数据库连接 02.今日头条的反爬虫机制 03. json解码遇到的问题 04. 关于response.tex ...
分析Ajax来爬取今日头条街拍美图并保存到MongDB
前提:.需要安装MongDB 注:因今日投票网页发生变更,如下代码不保证能正常使用 #!/usr/bin/env python #-*- coding: utf-8 -*- import json i ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...

随机推荐

Codesys——AD_DA在PID控制中的作用
1. 摘要 PID控制中用到AD/DA的输入/输出,给出其大致实现思路. 2. 思路 3. 总结无
bzoj4237 稻草人——分治
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=4237 分治: 先把所有点按 y 排序,然后二分递归: 对于每个 mid ,计算经过它的矩形的 ...
iOS开发——多线程
很多朋友都说iOS开发中,最难理解和学习的就是多线程,很多的原理实现都是通过log看到,也比较抽象,本人也是在多线程方面投入过很多脑细胞..无论这方面的知识掌握和应用起来是否轻松,牢固的基本功.正确的 ...
基于ELK的传感器数据分析练习
目录 Sensor Data Analytics Application 数据构成数据模型设计 Logstash配置 Kibana可视化 Sensor Data Analytics Applicat ...
转贴：CSS伪类与CSS伪元素的区别及由来具体说明
关于两者的区别,其实是很古老的问题.但是时至今日,由于各种网络误传以及一些不负责任的书籍误笔,仍然有相当多的人将伪类与伪元素混为一谈,甚至不乏很多CSS老手.早些年刚入行的时候,我自己也被深深误导,因 ...
query或者JavaScript实现在textarea光标处插入文本
1.Jquery函数实现: $(function() { /* 在textarea处插入文本--Start */ (function($) { $.fn.extend({ insertContent ...
关于Anaconda环境变量配置遇到的一些情况说明
安装和配置环境变量的话就不多说了,大家可以参照这个说的去做就行 https://blog.csdn.net/weixin_42997646/article/details/89414769 验证配置环 ...
T - Posterized（贪心思维）
Description Professor Ibrahim has prepared the final homework for his algorithm’s class. He asked hi ...
NLog简单配置与使用
对项目添加NLog 安装完成后,在项目里面会自动引入该引入的dll,并且会添加如下两个文件 NLog的配置主要是在这个config文件里.当然也可以将这个文件里面的nlog节点复制到项目配置文件App ...
Linux用户、用户组权限管理详解
Linux用户管理三个重要文件详解: Linux登陆需要用户名.密码./etc/passwd 文件保存用户名.登录Linux时,Linux 先查找 /etc/passwd 文件中是否有这个用户名,没有 ...

Python 爬虫爬取今日头条街拍上的图片

Python 爬虫爬取今日头条街拍上的图片的更多相关文章

随机推荐

热门专题