分析ajax请求格式，模拟发送http请求，从而获取网页代码，进而分析取出需要的数据和图片。这里分析ajax请求，获取cosplay美女图片。

登陆今日头条，点击搜索，输入cosplay

下面查看浏览器F12，点击XHR，这里能截取ajax请求，由于已经请求过该页面，所以点击F5，刷新，如下图

下面我们点击name下的链接，查看headers看到请求信息

可以看到请求的url为
https://www.toutiao.com/search_content/?offset=0&format=json&keyword=cosplay&autoload=true&count=20&cur_tab=1&from=search_tab&pd=synthesis
offset为0，表示当前页面的偏移量，我试着向下滑动页面，name下加载出很多连接，offset每次递增20，keyword为cosplay，是我们搜索的关键词，count表示图集的数量，其他的都不变。
所以我们可以构造一个http请求，包含上面的格式。接下来看看preview的内容

data就是页面加载出来的图片文章列表
点击其中一个data，查看

可以看得出图片列表和large图片相差的就是list和large的区别，如
“http://p1-tt.bytecdn.cn/list/97e000601ee89d997af"为缩略图
“http://p1-tt.bytecdn.cn/large/97e000601ee89d997af"为大图
所以只需将list替换为larg即可。之后发送http请求，获取对应的图片即可。下面为完整代码

import requests

import re

import time

from pyquery import PyQuery as pq

from urllib.parse import urlencode

import os

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

COOKIES = r'UM_distinctid=167005cc741184-02d14e2fd49b05-10724c6f-1fa400-167005cc74263a; uuid="w:5a4841d5dda248c389f83e5b9c57608a"; sso_uid_tt=45b83f6c549dabd4248c611aa98222d3; toutiao_sso_user=4853db5c812f7bcb367cdcbef0967d06; sso_login_status=1; login_flag=54c7da4daac99058f7b6e4b8975cca01; sessionid=5e86f286970804ed8fd11abf0bf328e4; uid_tt=dd5e177a1cbf9746eb634307d64afd22; sid_tt=5e86f286970804ed8fd11abf0bf328e4; sid_guard="5e86f286970804ed8fd11abf0bf328e4|1541899310|15552000|Fri\054 10-May-2019 01:21:50 GMT"; tt_webid=6622406673465067021; WEATHER_CITY=%E5%8C%97%E4%BA%AC; cp=5BE7386A29798E1; tt_webid=75478811657; __tasessionId=qwly22e8r1541906736076; CNZZDATA1259612802=1520919144-1541896080-https%253A%252F%252Fwww.baidu.com%252F%7C1541901480; csrftoken=b970f054ea259eb162e572217e6756ca'

REFER = 'https://www.toutiao.com/search/?keyword=cosplay'

class AjaxScrapy(object):

    def __init__(self,pages=1):

        try:

            self.m_session = requests.Session()

            self.m_headers = {'User-Agent':USER_AGENT,

                        'referer':REFER,

                        }

            self.m_cookiejar = requests.cookies.RequestsCookieJar()

            self.dirpath = os.path.split(os.path.abspath(__file__))[0]

            for cookie in COOKIES.split(';'):

                key,value = cookie.split('=',1)

                self.m_cookiejar.set(key,value)

        except:

            print('init error!!!')

    def getOffset(self,index=0):

        try:

            params = {

                'offset':str(20*index),

                'format':'json',

                'keyword':'cosplay',

                'autoload':'true',

                'count':'',

                'cur_tab':'',

                'from':'gallery',

            }

            httpaddr = 'https://www.toutiao.com/search_content/?'+urlencode(params)

            req = self.m_session.get(httpaddr,headers=self.m_headers, cookies=self.m_cookiejar, timeout=5)

            if req.status_code != 200:

                return None

            res = req.json()

            if('data' not in res.keys()):

                return None

            for item in res.get('data'):

                if('title' not in item.keys()):

                    continue

                if('image_list' not in item.keys()):

                    continue

                titlenamelist=item['title'].split('/')

                titlename = titlenamelist[-1]

                savedir=os.path.join(self.dirpath,titlename)

                print('正在抓取'+titlename+'.........')

                if(os.path.exists(savedir) == False):

                    os.makedirs(savedir)

                imagelist = item.get('image_list')

                for imag in imagelist:

                    if 'url' not in imag.keys():

                        continue

                    #print(imag['url'])

                    image1,image2=imag['url'].split('list')

                    image3=imag['url'].split('/')[-1]

                    imagepath=os.path.join(savedir,image3+'.jpg')

                    if(os.path.exists(imagepath)):

                        continue

                    imageaddr = 'http:'+image1+'large'+image2

                    imagedata=self.m_session.get(imageaddr,timeout=5)

                    with open (imagepath,'wb')as f:

                        f.write(imagedata.content)

                print('抓取'+titlename+'成功!!!.........')

                time.sleep(1)

            return req.json()

        except:

            print('get over view error')

            return None

if __name__ == "__main__":

    try:

        asscrapy = AjaxScrapy()

        for i in range(0,5):

            res = asscrapy.getOffset(i)

            if(res == None):

                continue

            #print(type(res))

    except:

        print('scrapy exception!')

        pass

更多源码下载
https://github.com/secondtonone1/python-/tree/master/pythoncookie
个人博客
https://www.limerence2017.com
谢谢关注我的公总号:

python学习(26)分析ajax请求抓取今日头条cosplay小姐姐图片的更多相关文章

分析ajax请求抓取今日头条关键字美图
# 目标:抓取今日头条关键字美图 # 思路: # 一.分析目标站点 # 二.构造ajax请求,用requests请求到索引页的内容,正则+BeautifulSoup得到索引url # 三.对索引url ...
爬虫（八）：分析Ajax请求抓取今日头条街拍美图
(1):分析网页分析ajax的请求网址,和需要的参数.通过不断向下拉动滚动条,发现请求的参数中offset一直在变化,所以每次请求通过offset来控制新的ajax请求. (2)上代码 a.通过aj ...
Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息
学习目的: 解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用正式步骤 Step1:流程分析抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: ...
通过分析Ajax请求抓取今日头条街拍图集
代码: import os import re import json import time from hashlib import md5 from multiprocessing import ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
python3爬虫-分析Ajax，抓取今日头条街拍美图
# coding=utf-8 from urllib.parse import urlencode import requests from requests.exceptions import Re ...
python爬虫---实现项目(二) 分析Ajax请求抓取数据
这次我们来继续深入爬虫数据,有些网页通过请求的html代码不能直接拿到数据,我们所需的数据是通过ajax渲染到页面上去的,这次我们来看看如何分析ajax 我们这次所使用的网络库还是上一节的Reques ...
分析Ajax来爬取今日头条街拍美图并保存到MongDB
前提:.需要安装MongDB 注:因今日投票网页发生变更,如下代码不保证能正常使用 #!/usr/bin/env python #-*- coding: utf-8 -*- import json i ...
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...

随机推荐

Android开发——高斯模糊效果的简单实现
0. 前言在Android开发中,经常在音乐软件中看到高斯模糊效果. 在找遍了所有高斯模糊的算法代码后,发现stackblur的Java实现是最快的.效果如下所示. 1．高斯模糊效果实现 Bit ...
EZ 2018 03 30 NOIP2018 模拟赛（六）
链接:http://211.140.156.254:2333/contest/67 转眼间上次加回来的Rating又掉完了. 这次不知为何特别水,T1想了一段时间没想出来弃了,导致后面心态炸了. T2 ...
spring cloud资料汇总
https://www.cnblogs.com/Java3y/p/9540386.html#commentform --非常好的文章,里面还有海量学习资料
Unity3D — — UGUI之简易背包
Uinity版本:2017.3 最近在学Siki老师的<黑暗之光RPG>教程,由于教程内用的是NGUI实现,而笔者本人用的是UGUI,所以在这里稍微写一下自己的实现思路(大致上和NGUI一 ...
Unity Dotween官方案例学习
本文只涉及一些案例,具体查看 DoTween 官方文档. 一. Basics public class Basics : MonoBehaviour { public Transform redCub ...
live555学习(一)通读Makefile编译live555
live555学习(一)通读Makefile编译live555 live555 编译live555 学习开源 live555学习(一)通读Makefile编译live555 前言 live555简介 ...
M1事后分析报告
在得到M1团队成绩之后,每个团队都需要编写一个事后分析报告,对于团队在M1阶段的工作做一个总结. 请在2015年11月24日上课之前根据下述博客中的模板总结前一阶段的工作,发表在团队博客上,并在课上的 ...
linux内核分析第三周
20135103王海宁 linux内核分析第三周 http://mooc.study.163.com/course/USTC-1000029000 按照课堂提供的方法,命令行一行行敲上去,我是手机缓 ...
专业实训题目需求分析(3D推箱子)
业务需求: 游戏提供主菜单让玩家进行游戏设置.帮助说明,推箱子的小人可以前后左右转动,箱子可以被上下左右的推动,要有关卡设置,障碍物设置,游戏提供背景音乐的功能,要实现3D效果. 面向的用户类型 ...
Hamburger
Bread: 我觉得舒婷解决问题的思路还是很不错的,对于java 的窗口框架也是很熟悉,打码速度也快了很多. Meat:但是我发现你在命名的时候会出现随意的现象,如果命名只有你自己看得懂的话,那么会增 ...

python学习(26)分析ajax请求抓取今日头条cosplay小姐姐图片

登陆今日头条，点击搜索，输入cosplay

python学习(26)分析ajax请求抓取今日头条cosplay小姐姐图片的更多相关文章

随机推荐

热门专题