python爬取今日头条图片

import requests

from urllib.parse import urlencode

from requests import codes

import os

# qianxiao996精心制作

#博客地址：https://blog.csdn.net/qq_36374896

from hashlib import md5

from multiprocessing.pool import Pool

def get_page(offset):

    params = {

        'offset': offset,

        'format': 'json',

        'keyword': '街拍',

        'autoload': 'true',

        'count': '20',

        'cur_tab': '1',

        'from': 'search_tab'

    }

    base_url = 'https://www.toutiao.com/search_content/?'

    url = base_url + urlencode(params)

    try:

        resp = requests.get(url)

        if codes.ok == resp.status_code:

            return resp.json()

    except requests.ConnectionError:

        return None

def get_images(json):

    if json.get('data'):

        data = json.get('data')

        for item in data:

            if item.get('cell_type') is not None:

                continue

            title = item.get('title')

            images = item.get('image_list')

#            url_temp = image.get('url')

            for image in images:

                url_temp = image.get('url')

                yield {

                    #此处更新，使用列表网址后23位作为大图的地址，抓取大图

                    'image': 'https:' + '//p3.pstatp.com/large/pgc-image/'+ url_temp[-23:],

#                    'image': 'https:' + image.get('url')，

                    'title': title

                }

def save_image(item):

    img_path = 'img' + os.path.sep + item.get('title')

    if not os.path.exists(img_path):

        os.makedirs(img_path)

    try:

        resp = requests.get(item.get('image'))

        if codes.ok == resp.status_code:

            file_path = img_path + os.path.sep + '{file_name}.{file_suffix}'.format(

                file_name=md5(resp.content).hexdigest(),

                file_suffix='jpg')

            if not os.path.exists(file_path):

                with open(file_path, 'wb') as f:

                    f.write(resp.content)

                print('Downloaded image path is %s' % file_path)

            else:

                print('Already Downloaded', file_path)

    except requests.ConnectionError:

        print('Failed to Save Image，item %s' % item)

def main(offset):

    json = get_page(offset)

    for item in get_images(json):

        print(item)

        save_image(item)

GROUP_START = 0

GROUP_END = 3

if __name__ == '__main__':

    pool = Pool()

    groups = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])

    pool.map(main, groups)

    pool.close()

    pool.join()

代码年代久远，注释当时没写，现在懒得写了

python爬取今日头条图片的更多相关文章

爬虫—分析Ajax爬取今日头条图片
以今日头条为例分析Ajax请求抓取网页数据.本次抓取今日头条的街拍关键字对应的图片,并保存到本地一,分析打开今日头条主页,在搜索框中输入街拍二字,打开开发者工具,发现浏览器显示的数据不在其源码里面 ...
Python爬取今日头条段子
刚入门Python爬虫,试了下爬取今日头条官网中的段子,网址为https://www.toutiao.com/ch/essay_joke/源码比较简陋,如下: import requests impo ...
python爬取今日头条关键字图集
1．访问搜索图集结果,获得json如下(右图为data的一条的详细内容)．页面以Ajax呈现,每次请求20个图集,其中 title --- 图集名字 artical_url --- 图集的地址 cou ...
用Ajax爬取今日头条图片集
Ajax原理在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有.这是因为requests获取的都是原始 ...
爬虫七之分析Ajax请求并爬取今日头条
爬取今日头条图片这里只讨论出现的一些问题,代码在最下面github链接里. 首先,今日头条取消了"图集"这一选项,因此对于爬虫来说效率降低了很多: 在所有代码都完成后,也许是爬取 ...
PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

随机推荐

使用纯swift代码文件制作framework
因为最近我们公司的一个客户要求我们使用swift编写程序并且将API封装成framework的形式提供给他们,所以我就开始了swift实践之路. 程序编写完之后,我就琢磨怎么封装成framework的 ...
pandas中常用的操作一
pandas中常用的功能: 1.显示所有的列的信息,999表示显示最大的列为999 pd.options.display.max_columns=999 2.读取excel时设置使用到列的名称,和列的 ...
Centos 7.6 使用 kubekey 部署 kubesphere v3.1.0
文章目录主要功能硬件要求 Kubernetes版本要求配置主机之间的免密安装所需依赖下载KubeKey 创建Kubernetes集群以及KubeSphere kk命令使用方式修改配置文件 ...
c++ 拷贝构造函数、拷贝运算符、析构函数
拷贝构造函数.拷贝运算符.析构函数拷贝构造函数.拷贝运算符.析构函数定义行为像值的类 class HasPtr{ public: HasPtr(const string &s = stri ...
常用模块（Day25-Day28）
模块分为三种: 1.内置模块:python安装时自带的. 2.扩展模块:别人写的,需要安装之后可以直接使用,如django,tornado等. 3.自定义模块:自己写的模块. 序列化模块序列指字符串 ...
Dubbo扩展点应用之一filter及@Activate自激活使用
与很多框架一样,Dubbo也存在拦截(过滤)机制,可以通过该机制在执行目标程序前后执行我们指定的代码.Dubbo中Filter只是Dubbo提供的可自定义扩展的扩展点之一.通过该扩展点地理解,可以触类 ...
Shell 函数带中横线问题排查
Shell 中编写的函数,如果函数名中带了中横线,在使用 /bin/sh 执行时会报错. ➜ subprocess git:(master) ✗ cat kubectl.sh _kubectl_api ...
springboot页面国际化
引入依赖pom.xml <dependency> <groupId>org.springframework.boot</groupId> <artifactI ...
Eclipse Debug 调试步骤及注意事项
debug方法第一步:打开java代码文件,在左侧双击鼠标设置断点,或者在左侧右键点击Toggle Breakpoint 第二步:点击eclipse上方的"蜘蛛"按钮,点击deb ...
学习java Markdown语法
Markdown学习标题: #+标题名字+回车二级标题 ##+标题名字+回车三级四级一次类推,最多六级字体 HELLO,World ! HELLO,World ! HELLO,World ! ...

python爬取今日头条图片

python爬取今日头条图片的更多相关文章

随机推荐

热门专题