Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息

学习目的：

　　解决AJAX请求的爬虫，网页解析库的学习，MongoDB的简单应用

正式步骤

Step1：流程分析

抓取单页内容：利用requests请求目标站点，得到单个页面的html代码，返回结果；
抓取页面详情内容：解析返回结果，得到详情页的链接，并进一步抓取详情页的信息；
下载图片并保存数据库：将图片下载到本地，把页面信息及图片url保存至MongoDB；
开启循环及多线程：对多页面内容遍历，开启多线程并提高抓取效率。

Step2：实例分析

1. 打开今日头条搜索页，搜索“中超”，查看页面的请求方法为：GET

2. 创建一个Python文件：spider_ajax.py

3.网站url信息获取

4. 打印抓取的文章超链接和抓取的html内容

# -*-  coding:utf-8 -*-

import json

from urllib.parse import urlencode

from requests.exceptions import RequestException

import requests

def get_page_html(offset,keyword):

    data = {

        'offset':offset,

        'format':'json',

        'keyword':keyword,

        'autoload':'true',

        'count':'',

        'cur_tab':1

    }

#   urlencode把字典对象自动转化为url参数，

#   快速导入，请选中以后，按alt+enter

    url = 'https://www.toutiao.com/search_content/?' + urlencode(data)

    try:

        response = requests.get(url)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        print('请求索引页失败')

        return None

def parse_page_index(html):

#因为html打印出来是json字符串格式，json.loads作用是将已编码的 JSON 字符串解码为 Python 对象

# json.dumps作用是将 Python 对象编码成 JSON 字符串

#参考http://www.runoob.com/python/python-json.html

    data = json.loads(html)

    if data and 'data' in data.keys():

        for item in data.get('data'):

            yield item.get('article_url')

def main():

    html = get_page_html(0,'中超')

#打印抓取的文章详细内容的url

    for url in parse_page_index(html):

        print(url)

#打印获取页面内容

    print(html)

if __name__ == '__main__':

    main()

后面的内容因为爬虫被封，很多信息获取不到，暂时不会，以后再补全这节内容

学习总结：

　　想爬取商业的门户网站，感觉一脸懵逼

Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息的更多相关文章

爬虫（八）：分析Ajax请求抓取今日头条街拍美图
(1):分析网页分析ajax的请求网址,和需要的参数.通过不断向下拉动滚动条,发现请求的参数中offset一直在变化,所以每次请求通过offset来控制新的ajax请求. (2)上代码 a.通过aj ...
分析ajax请求抓取今日头条关键字美图
# 目标:抓取今日头条关键字美图 # 思路: # 一.分析目标站点 # 二.构造ajax请求,用requests请求到索引页的内容,正则+BeautifulSoup得到索引url # 三.对索引url ...
python学习(26)分析ajax请求抓取今日头条cosplay小姐姐图片
分析ajax请求格式,模拟发送http请求,从而获取网页代码,进而分析取出需要的数据和图片.这里分析ajax请求,获取cosplay美女图片. 登陆今日头条,点击搜索,输入cosplay 下面查看浏览 ...
通过分析Ajax请求抓取今日头条街拍图集
代码: import os import re import json import time from hashlib import md5 from multiprocessing import ...
python3爬虫-分析Ajax，抓取今日头条街拍美图
# coding=utf-8 from urllib.parse import urlencode import requests from requests.exceptions import Re ...
python爬虫---实现项目(二) 分析Ajax请求抓取数据
这次我们来继续深入爬虫数据,有些网页通过请求的html代码不能直接拿到数据,我们所需的数据是通过ajax渲染到页面上去的,这次我们来看看如何分析ajax 我们这次所使用的网络库还是上一节的Reques ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
分析Ajax来爬取今日头条街拍美图并保存到MongDB
前提:.需要安装MongDB 注:因今日投票网页发生变更,如下代码不保证能正常使用 #!/usr/bin/env python #-*- coding: utf-8 -*- import json i ...
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...

随机推荐

AutoFac控制反转
一.AutoFac介绍 Autofac是.NET里IOC(Inversion of Control,控制反转)容器的一种,同类的框架还有Spring.NET,Unity,Castle等.可以通过NuG ...
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc4 in position 0: i报错
在程序的顶部加了下面两行就好了,中文也可以正常显示了 #!/usr/bin/env Python# coding=utf-8
HDU 6045 - Is Derek lying | 2017 Multi-University Training Contest 2
/* HDU 6045 - Is Derek lying [ 分析 ] 题意: 有N个问题, 每个问题有A,B,C三种答案,答对加一分,答错不加分给出甲乙两人的答案,给出两人的分数先x, y,问分数 ...
[Python之路] 日志操作
使用logging模块来写日志日志直接输出到准备输出 import logging logging.basicConfig(level=logging.WARNING, format="% ...
apache nginx 配置
<VirtualHost *:80> ServerAdmin test@biuuu.com DocumentRoot E:\web\OTHER\test ServerName zjh.co ...
一、Django入门
1.安装: 下载地址:https://www.djangoproject.com/download/ 原文节选: How to get Django Django is available open- ...
firefox 丢失的回话
升级了新版Firefox后如果插件被禁用的,可以在Firefox配置编辑页面(about:config页面)把 xpinstall.signatures.required首选项设为false来强制禁用 ...
Java Web项目案例之---登录注册和增删改查（jsp+servlet）
登录注册和增删改查(jsp+servlet) (一)功能介绍 1.用户输入正确的密码进行登录 2.新用户可以进行注册 3.登录后显示学生的信息表 4.可以添加学生 5.可以修改学生已有信息 6.可以删 ...
Django 详解
Django是一个开源的Web应用框架,由Python写成.采用MVC的软件设计模式,主要目标是使得开发复杂的.数据库驱动的网站变得简单.Django注重组件的重用性和“可插拔性”,敏捷开发和DRY法 ...
BZOJ1706奶牛接力跑
这个东西思路还是不错的. 解法就是把矩阵幂的加法改成取min,乘法改成加法就好,和floyed是一样的.这样的话,矩阵操作一次就相当于松弛了一次最短路. 建矩阵的过程也比较简单,可以离散化,当然下面有 ...

Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息

Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息的更多相关文章

随机推荐

热门专题