python爬取今日头条图片

import requests

from urllib.parse import urlencode

from requests import codes

import os

# qianxiao996精心制作

#博客地址：https://blog.csdn.net/qq_36374896

from hashlib import md5

from multiprocessing.pool import Pool

def get_page(offset):

    params = {

        'offset': offset,

        'format': 'json',

        'keyword': '街拍',

        'autoload': 'true',

        'count': '20',

        'cur_tab': '1',

        'from': 'search_tab'

    }

    base_url = 'https://www.toutiao.com/search_content/?'

    url = base_url + urlencode(params)

    try:

        resp = requests.get(url)

        if codes.ok == resp.status_code:

            return resp.json()

    except requests.ConnectionError:

        return None

def get_images(json):

    if json.get('data'):

        data = json.get('data')

        for item in data:

            if item.get('cell_type') is not None:

                continue

            title = item.get('title')

            images = item.get('image_list')

#            url_temp = image.get('url')

            for image in images:

                url_temp = image.get('url')

                yield {

                    #此处更新，使用列表网址后23位作为大图的地址，抓取大图

                    'image': 'https:' + '//p3.pstatp.com/large/pgc-image/'+ url_temp[-23:],

#                    'image': 'https:' + image.get('url')，

                    'title': title

                }

def save_image(item):

    img_path = 'img' + os.path.sep + item.get('title')

    if not os.path.exists(img_path):

        os.makedirs(img_path)

    try:

        resp = requests.get(item.get('image'))

        if codes.ok == resp.status_code:

            file_path = img_path + os.path.sep + '{file_name}.{file_suffix}'.format(

                file_name=md5(resp.content).hexdigest(),

                file_suffix='jpg')

            if not os.path.exists(file_path):

                with open(file_path, 'wb') as f:

                    f.write(resp.content)

                print('Downloaded image path is %s' % file_path)

            else:

                print('Already Downloaded', file_path)

    except requests.ConnectionError:

        print('Failed to Save Image，item %s' % item)

def main(offset):

    json = get_page(offset)

    for item in get_images(json):

        print(item)

        save_image(item)

GROUP_START = 0

GROUP_END = 3

if __name__ == '__main__':

    pool = Pool()

    groups = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])

    pool.map(main, groups)

    pool.close()

    pool.join()

代码年代久远，注释当时没写，现在懒得写了

python爬取今日头条图片的更多相关文章

爬虫—分析Ajax爬取今日头条图片
以今日头条为例分析Ajax请求抓取网页数据.本次抓取今日头条的街拍关键字对应的图片,并保存到本地一,分析打开今日头条主页,在搜索框中输入街拍二字,打开开发者工具,发现浏览器显示的数据不在其源码里面 ...
Python爬取今日头条段子
刚入门Python爬虫,试了下爬取今日头条官网中的段子,网址为https://www.toutiao.com/ch/essay_joke/源码比较简陋,如下: import requests impo ...
python爬取今日头条关键字图集
1．访问搜索图集结果,获得json如下(右图为data的一条的详细内容)．页面以Ajax呈现,每次请求20个图集,其中 title --- 图集名字 artical_url --- 图集的地址 cou ...
用Ajax爬取今日头条图片集
Ajax原理在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有.这是因为requests获取的都是原始 ...
爬虫七之分析Ajax请求并爬取今日头条
爬取今日头条图片这里只讨论出现的一些问题,代码在最下面github链接里. 首先,今日头条取消了"图集"这一选项,因此对于爬虫来说效率降低了很多: 在所有代码都完成后,也许是爬取 ...
PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

随机推荐

pytest(9)-标记用例(指定执行、跳过用例、预期失败)
pytest中提供的mark模块,可以实现很多功能,如: 标记用例,即打标签 skip.skipif标记跳过,skip跳过当前用例,skipif符合情况则跳过当前用例 xfail标记为预期失败标记用 ...
SpringBoot自定义classloader加密保护class文件
背景最近针对公司框架进行关键业务代码进行加密处理,防止通过jd-gui等反编译工具能够轻松还原工程代码,相关混淆方案配置使用比较复杂且针对springboot项目问题较多,所以针对class文件加密 ...
[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (4)
[源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (4) 目录 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (4) 0x00 摘要 0x01 总体流程 ...
APK修改神器：插桩工具 DexInjector
本文介绍了一个针对Dex进行插桩的工具,讲解了一下直接修改Dalvik字节码和Dex文件时遇到的问题和解决方法作者:字节跳动终端技术-- 李言背景线下场景中,我们经常需要在APK中插入一些检测代 ...
Element-UI整合VUE下拉选项无法选中的一个小问题
searchObj: { subjectId: ''// 解决查询表单无法选中二级类别,必须要现在模型中给一个空的初始值 },
使用Java的GUI技术实现 “ 贪吃蛇 ” 游戏
详细教程: 使用Java的GUI技术实现 " 贪吃蛇 " 游戏_IT打工酱的博客-CSDN博客
防世界之Web_ics-06
题目: 进入实验环境,发现其他页面啥都没有,题目描述说报表中心数据被删,打开报表中心看看进入数据中发现url上有?id=1的字样就要注意,敏感起来.id是数值,可以尝试爆破一下. 打开burpsui ...
Android编译优化系列-kapt篇
作者:字节跳动终端技术---王龙海封光兰军健一.背景本文是编译优化系列文章之 kapt 优化篇,后续还会有 build cache, kotlin, dex 优化等文章,敬请期待.本文由Cli ...
C#实现接口的两种方式：显示实现和隐式实现接口
本示例声明一个接口IDimensions 和一个类 Box,显式实现了接口成员 GetLength 和 GetWidth. 通过接口实例 dimensions 访问这些成员. interface ID ...
LVM--逻辑卷管理@安装、格式化、挂载、开机自动挂载完整篇
转至:https://blog.51cto.com/xiguatailang/1256606 LVM的重要性在这里我也就不多说了,今天和大家分享一下,LVM的安装方式,以及挂载方式. 首先呢 ...

python爬取今日头条图片

python爬取今日头条图片的更多相关文章

随机推荐

热门专题