Python 爬虫爬取今日头条街拍上的图片

# 今日头条--街拍

import requests

from urllib.parse import urlencode

import os

from hashlib import md5

from multiprocessing.pool import Pool

# 根据 offset 得到每一个 ajax 请求返回的 json

def get_json(offset):

    base_url = 'https://www.toutiao.com/search_content/?'

    params = {

        'offset': offset,

        'format': 'json',

        'keyword': '街拍',

        'autoload': 'true',

        'count': '20',

        'cur_tab': '1',

        'from': 'search_tab',

        'pd': 'synthesis'

    }

    url = base_url + urlencode(params)

    try:

        response = requests.get(url)

        if response.status_code == 200:

            return response.json()

    except requests.ConnectionError as e:

        print('Errors', e.args)

        return None

# 根据 josn 提取出相应内容的标题、图片链接

def get_images(json):

    if json.get('data'):

        for item in json.get('data'):

            if item.get('cell_type') is not None:

                continue

            title = item.get('title')

            images = item.get('image_list')

            for image in images:

                yield {

                    'title': title,

                    #获取大图片

                    'image': image.get('url').replace('list', 'large').replace('//', 'Https://')

                }

# 根据 item 中的 title 创建文件夹，图片的名称可以用其内容的 MD5 值，防止重复

# 这里有个小问题，那就是在 windows 路径下创建文件夹是不可以有英文的':'，这些标题大多是中文符号，但是偶尔也会含有

# 英文的':',这样会导致创建文件夹失败，所以要将windows下不允许的英文符号(\/:*?"<>|)转换成相应的中文标点

def save_images(item):

    title = item.get('title')

    intab = r'\/:*?"<>|'

    outtab = '、、：-？“《》-'

    trantab = str.maketrans(intab, outtab)

    # 将windows下不允许的英文符号(\/:*?"<>|)转换成相应的中文标点

    title = title.translate(trantab)

    if not os.path.exists(title):

        os.mkdir(title)

    try:

        response = requests.get(item.get('image'))

        if response.status_code == 200:

            file_path = '{0}/{1}.{2}'.format(title, md5(response.content).hexdigest(), 'jpg')

            if not os.path.exists(file_path):

                with open(file_path, 'wb') as f:

                    f.write(response.content)

            else:

                print('Already Downloaded', file_path)

    except requests.ConnectionError:

        print('Failed to save image')

def main(offset):

    json = get_json(offset)

    for item in get_images(json):

        print(item)

        save_images(item)

# 定义开始页数

GROUP_START = 1

# 定义结束页数

GROUP_END = 5

if __name__ == '__main__':

    pool = Pool()

    offsets = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])

    # 利用多线程的线程池的map方法下载图片

    pool.map(main, offsets)

    pool.close()

    pool.join()

Python 爬虫爬取今日头条街拍上的图片的更多相关文章

PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...
【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】
[摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作在本节 ...
【Python3网络爬虫开发实战】分析Ajax爬取今日头条街拍美图
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:haoxuan10 本节中,我们以今日头条为例来尝试通过分析Ajax请求 ...
转：【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图
[摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作在本节 ...
分析Ajax爬取今日头条街拍美图-崔庆才思路
站点分析源码及遇到的问题代码结构方法定义需要的常量关于在代码中遇到的问题 01. 数据库连接 02.今日头条的反爬虫机制 03. json解码遇到的问题 04. 关于response.tex ...
分析Ajax来爬取今日头条街拍美图并保存到MongDB
前提:.需要安装MongDB 注:因今日投票网页发生变更,如下代码不保证能正常使用 #!/usr/bin/env python #-*- coding: utf-8 -*- import json i ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...

随机推荐

CCBPM工作流引擎的消息机制与设计
keyword:ccflowjflow 消息机制流程引擎自己主动发送短信发送邮件发送消息流程引擎微信连接消息接口关于ccbpm: 我们把ccflow jflow两个版本号的工作流引擎统称为 ...
Msql入门实战之下
前面一章主要解说了mysql的select的使用方法.将select的大部分使用方法进行分别解说.本章主要解说Msql约束表的建立,以及存储过程的实现,附带其它介绍.临时就算入门了,Mysql索引之后 ...
[办公自动化]excel工作簿内的表无法删除，单击右键无删除键
今天同事问,我自己的工作簿,没有设置保护,但是就是无法删除其中的工作表. 后来发现,她的excel工作簿打开的文件名后面显示[共享]. 原因找到了. 取消共享就可以了.
8-13 canvas专题-阶段练习二（下)
8-13 canvas专题-阶段练习二(下) <!DOCTYPE html> <html lang="zh-cn"> <head> <me ...
python datatime日期和时间值模块
datetime.time():是一个时间类,这个类接受4个参数,分别代表时,分,秒,毫秒.参数的默认值是为0 #!/usr/bin/env python #coding:utf8 import da ...
jquery easyui-datagrid手动增加删除重置行
1.实现的效果图如下 2.界面: <div region="center"> <table id="tt"> ...
struct框架
配置文件struct-config.xml<?xml version="1.0"encoding="UTF-8"?><!DOCTYPE str ...
VS2015 framework4.5代码提示英文切换为中文
输入下面的地址,复制里面所有的文件 C:\Program Files (x86)\Reference Assemblies\Microsoft\Framework\.NETFramework\v4.0 ...
.gitignore（转载）
转自:http://blog.csdn.net/liuqiaoyu080512/article/details/8648266 git 可以管理所有文件的变更, 但并不是所有文件都有意义. 大部分二进 ...
spring 异常处理
1. 实现接口 HandlerExceptionResolver 捕获异常 2.@ExceptionHandler 在方法添加注解,捕获本地controller异常 3.@ControllerAdvi ...

Python 爬虫爬取今日头条街拍上的图片

Python 爬虫爬取今日头条街拍上的图片的更多相关文章

随机推荐

热门专题