Python爬虫学习笔记之爬今日头条的街拍图片

代码:

 import requests

 import os

 from hashlib import md5

 from urllib.parse import urlencode

 from multiprocessing.pool import Pool

 GROUP_START = 1

 GROUP_END = 5

 def get_page(offset):

     params = {

         'offset': offset,

         'format': 'json',

         'keyword': '街拍',

         'autoload': 'true',

         'count': '',

         'cur_tab': '',

         'form': 'search_tab',

     }

     url  = 'https://www.toutiao.com/search_content/?' + urlencode(params)

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.json()

     except requests.ConnectionError:

         return None

 def get_images(json):

     data = json.get('data')

     if data:

         for item in data:

             image_list = item.get('image_list')

             title = item.get('title')

             if image_list:

                 for image in image_list:

                     # 构造一个生成器，将图片和标题一起返回

                     yield {

                         'image': image.get('url'),

                         'title': title

                     }

 # item就是get_image()返回的一个字典

 # item里面的title创建一个文件夹

 def save_image(item):

     if not os.path.exists(item.get('title')):

         os.mkdir(item.get('title'))

     try:

         local_image_url = item.get('image')

         new_image_url = local_image_url.replace('list', 'large')

         response = requests.get('http:' + new_image_url)

         if response.status_code == 200:

             file_path = '{0}/{1}.{2}'.format(item.get('title'), md5(response.content).hexdigest(), 'jpg')

             # 判断路径是否存在，如果不存在，写入

             if not os.path.exists(file_path):

                 with open(file_path, 'wb')as f:

                     f.write(response.content)

             else:

                 print('Already Download', file_path)

     except:

         print('Failed to save image')

 # 定义一个offset数组，遍历，提取图片，下载

 def main(offset):

     json = get_page(offset)

     for item in get_images(json):

         print(item)

         save_image(item)

 if __name__ == '__main__':

     pool = Pool() # 创建进程池

     groups = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])

     pool.map(main, groups) # 第一个参数是函数，第二个参数是一个迭代器，将迭代器中的数字作为参数依次传入函数中

     pool.close() # 关闭pool，使其不在接受新的（主进程）任务

     pool.join() # 主进程阻塞后，让子进程继续运行完成，子进程运行完后，再把主进程全部关掉

结果:

此时可以看到文件夹里:

随便打开一个:

Successful!

Python爬虫学习笔记之爬今日头条的街拍图片的更多相关文章

Python爬虫学习笔记之爬取新浪微博
import requests from urllib.parse import urlencode from pyquery import PyQuery as pq from pymongo im ...
python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...
分析AJAX抓取今日头条的街拍美图并把信息存入mongodb中
今天学习分析ajax 请求,现把学得记录, 把我们在今日头条搜索街拍美图的时候,今日头条会发起ajax请求去请求图片,所以我们在网页源码中不能找到图片的url,但是今日头条网页中有一个json 文件, ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
python爬虫学习笔记
爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu.Google.Yahoo等)“抓取系统”的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 简单来讲就是尽可 ...
一入爬虫深似海，从此游戏是路人！总结我的python爬虫学习笔记！
前言还记得是大学2年级的时候,偶然之间看到了学长在学习python:我就坐在旁边看他敲着代码,感觉很好奇.感觉很酷,从那之后,我就想和学长一样的厉害,就想让学长教我,请他吃了一周的饭,他答应了.从此 ...
Python爬虫学习笔记(一)
概念: 使用代码模拟用户,批量发送网络请求,批量获取数据. 分类: 通用爬虫: 通用爬虫是搜索引擎(Baidu.Google.Yahoo等)"抓取系统"的重要组成部分. 主要目的是 ...
Python爬虫学习笔记(三)
Cookies: 以抓取https://www.yaozh.com/为例 Test1(不使用cookies): 代码: import urllib.request # 1.添加URL url = &q ...
python多线程爬取-今日头条的街拍数据（附源码加思路注释）
这里用的是json+re+requests+beautifulsoup+多线程 1 import json import re from multiprocessing.pool import Poo ...

随机推荐

42-EF Core Migration
1-常用命令 1-由于2.1版本有点不一样,不会自动创建ApplicationUser类,发现合并没效果.暂时略增加一个字段 E:\coding\netcore\IdentitySample> ...
【EXCEL】SUMIF（条件を指定して数値を合計する）
Mirocrosoft Excel
【C#】 URL Protocol
[C#] URL Protocol 网页调用本地程序, 支持 Windows 下所有浏览器, 与浏览器插件对比实现简单,但判断是否调用成功时, 只有ie10以上有函数,其他浏览器得自己实现(用 ifr ...
Unity3d工具方法小集
1.获取垂直水平方向上的输入: float moveHorizontal = Input.GetAxis("Horizontal"); float moveVertical = I ...
python接口测试（三）——Excell文件读取进行参数化
python进行http请求时,需要对参数进行参数化,此时就可以运用Excel进行,具体如下: 1.梳理出请求中那些参数需要参数化,然后新建一个Excel,如图: 2.读取Excel中的内容,在读取前 ...
python学习总结----内置函数及数据持久化
抽象基类(了解) - 说明: - 抽象基类就是为了统一接口而存在的 - 它不能进行实例化 - 继承自抽象类的子类必须实现抽象基类的抽象方法 - 示例: from abc import ABC, abs ...
LeetCode - 38. Count and Say(36ms)
The count-and-say sequence is the sequence of integers with the first five terms as following: 1. 1 ...
Go基础篇【第1篇】: 内置库模块 OS
os包提供了操作系统函数的不依赖平台的接口.设计为Unix风格的,虽然错误处理是go风格的:失败的调用会返回错误值而非错误码.通常错误值里包含更多信息.os包的接口规定为在所有操作系统中都是一致的.非 ...
一篇文章解决django中时区问题
首先要明确的是,当在Django项目的setting.py文件中设置了USE_TZ=True时,我们给定的时间存储到数据库的时候都会变成UTC时间(使用auto_now_add和auto_now为Tr ...
[转]Linux UDP严重丢包问题的解决
测试系统在Linux上的性能发现丢包率极为严重,发210000条数据,丢包达110000之巨,丢包率超过50%.同等情形下Windows上测试,仅丢几条数据.形势严峻,必须解决.考虑可能是因为协议栈B ...

Python爬虫学习笔记之爬今日头条的街拍图片

Python爬虫学习笔记之爬今日头条的街拍图片的更多相关文章

随机推荐

热门专题