模拟ajax请求爬取微博

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Time    : 2018/9/26 10:26

# @Author  : Sa.Song

# @Desc    : 抓取崔庆才微博， 模拟ajax请求

# @File    : weiBo.py

# @Software: PyCharm

import requests

from urllib.parse import urlencode

from pyquery import PyQuery as pq

headers = {

    'Accept':'application/json, text/plain, */*',

    'Referer':'https://m.weibo.cn/u/2830678474',

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

    'X-Requested-With':'XMLHttpRequest',

}

base_url = 'https://m.weibo.cn/api/container/getIndex?'

def get_page(page): #page是分页

    parms = {

        'type':'uid',

        'value':'',

        'containerid':'',

        'page':page

    }

    url = base_url + urlencode(parms)

    try:

        response = requests.get(url=url, headers=headers)

        if response.status_code == 200:

            return response.json()

    except Exception as e:

        print('报错：', e)

def parse_message(json):

    weibo_data = []

    if json:

        items = json.get('data').get('cards')

        for item in items:

            item = item.get('mblog')

            if item == None:

                continue

            else:

                weibo_message = {}

                weibo_message['id'] = item.get('id')

                weibo_message['text'] = pq(item.get('text')).text()

                weibo_data.append(weibo_message)

    print(weibo_data)

if __name__ == '__main__':

    for i in range(100):

        json = get_page(i)

        parse_message(json)

模拟ajax请求爬取微博的更多相关文章

Ajax数据爬取－－爬取微博
Ajax Ajax,即异步的JaveScript和XML.它不是一门编程语言,而是利用JaveScript在保证页面不被刷新,页面链接不改变的情况下与服务器交换数据并更新部分网页的技术. 对于传统的网 ...
爬虫—Ajax数据爬取
一.什么是Ajax 有时候我们使用浏览器查看页面正常显示的数据与使用requests抓取页面得到的数据不一致,这是因为requests获取的是原始的HTML文档,而浏览器中的页面是经过JavaScri ...
Ajax数据爬取
Ajax的基本原理以菜鸟教程的代码为例: XMLHTTPRequest对象是JS对Ajax的底层实现: var xmlhttp; if (window.XMLHttpRequest) { // IE ...
python3爬取微博评论并存为xlsx
python3爬取微博评论并存为xlsx**由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/一.访问微博网站,找到热门推荐链接我们打开微 ...
爬虫(十)：AJAX、爬取AJAX数据
1. AJAX 1.1 什么是AJAX AJAX即“Asynchronous JavaScript And XML”(异步JavaScript和XML)可以使网页实现异步更新,就是不重新加载整个网页的 ...
爬虫学习（四）——post请求爬取
百度翻译爬取数据 import urllib.requestimport urllib.parsepost_url = "https://fanyi.baidu.com/sug"h ...
【网络爬虫】【java】微博爬虫（一）：小试牛刀——网易微博爬虫（自定义关键字爬取微博数据）（附软件源码）
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
通过scrapy，从模拟登录开始爬取知乎的问答数据
这篇文章将讲解如何爬取知乎上面的问答数据. 首先,我们需要知道,想要爬取知乎上面的数据,第一步肯定是登录,所以我们先介绍一下模拟登录: 先说一下我的思路: 1.首先我们需要控制登录的入口,重写star ...
使用 jQuery Mockjax 插件模拟 Ajax 请求
在实际的开发过程中,前端后台协商好了统一的接口,就各自开始自己的任务了.这时候我有这么一个 Ajax 请求需要从后台获取数据: $.ajax({ url: '/products/' }).done(f ...

随机推荐

小G搭积木
A小 G 搭积木文件名输入文件输出文件时间限制空间限制box.cpp box.in box.out 2s 128MB题目描述小 G 喜欢搭积木.小 G 一共有 n 块积木,并且积木只能竖着一块 ...
readonly与const的区别
readonly 关键字与 const 关键字不同.const 字段只能在该字段的声明中初始化.readonly字段可以在声明或构造函数中初始化.因此,根据所使用的构造函数,readonly字段可能具 ...
webpack.config.js====webpack-dev-server开发服务器配置
1. 安装webpack-dev-server(在指定目录下),一定要先安装完毕webpack webpack-cli之后在安装webpack-dev-server 一个基于expressjs的开发服 ...
spring事务的开启方式（编程式和声明式）
1.编程式事务:编码方式实现事务管理(代码演示为JDBC事务管理) Spring实现编程式事务,依赖于2大类,分别是上篇文章提到的PlatformTransactionManager,与模版类Tran ...
环境变量—《linux命令行与shell脚本编程大全》
环境变量部分: 1.查看全局变量:printenv/env 2.显示单个环境变量的值:echo 如echo $HOME 3.显示为某个特定进程设置的所有环境变量:set 4.设置全局变量:创建局部环境 ...
LaTeX小技巧——File ended while scanning use of \@writefile错误的
早上在修改编译论文时发现了这个问题,仔细检查代码并没发现错误,一时也找不到具体的解决办法.我一直以为是因为runaway argument的错误提示,可实际上就是因为aux文件没有完整输入,导致上次编 ...
virtualapk爬坑心得
1.宿主和插件的工程build.gradle必须是 com.android.tools.build:gradle:2.1.3 gradle-wrapper 必须是 gradle-2.14.1-all ...
github入门之更改提交操作--6
1.回溯历史版本 1.1.回溯到创建feature-A分支前 1.1.1.要让仓库的HEAD.暂存区.当前工作树回溯到指定状态,需要用到提供目标时间点的哈希值 1.1.2.回溯至未创建feature- ...
SingletonLoginUser
package cn.com.jgt.view{ import flash.errors.IllegalOperationError; /** * actionscript类的构造方法不能是priva ...
JAVA多线程编程——JAVA内存模型
一.何为“内存模型” 内存模型描述了程序中各个变量(实例域.静态域和数组元素)之间的关系,以及在实际计算机系统中将变量存储到内存和从内存中取出变量这样的底层细节,对象最终是存储在内存里面的,但是编译器 ...

模拟ajax请求爬取微博

模拟ajax请求爬取微博的更多相关文章

随机推荐

热门专题