python3使用requests爬取新浪热门微博

微博登录的实现代码来源：https://gist.github.com/mrluanma/3621775

代码实现

以下代码主要是登录成功后，爬取热闹微博的TOP 100，再保存到hotweb.html文件里边

import re

import json

import urllib.parse

import base64

import binascii

import json

import rsa

import requests

import logging

from pprint import pprint 

wbdom = r'd:\pyzone\hotwb.html';

weclient = 'ssologin.js(v1.4.5)'

FORMAT = '%(asctime)-15s %(message)s'

user_agent = (

    'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.11 (KHTML, like Gecko) '

    'Chrome/20.0.1132.57 Safari/536.11'

)

logging.basicConfig(level=logging.DEBUG, format=FORMAT)

logger = logging.getLogger('weibo')

session = requests.session()

session.headers['User-Agent'] = user_agent

def encrypt_passwd(passwd, pubkey, servertime, nonce):

    key = rsa.PublicKey(int(pubkey, 16), int('10001', 16))

    message = str(servertime) + '\t' + str(nonce) + '\n' + str(passwd)

    passwd = rsa.encrypt(message.encode(), key)

    return binascii.b2a_hex(passwd)

def wblogin(username, password):

    resp = session.get(

        'http://login.sina.com.cn/sso/prelogin.php?'

        'entry=sso&callback=sinaSSOController.preloginCallBack&'

        'su=%s&rsakt=mod&client=%s' %

        (base64.b64encode(username), weclient)

    )

    pre_login_str = re.match(r'[^{]+({.+?})', resp.content.decode('gbk')).group(1)

    pre_login = json.loads(pre_login_str)

    pre_login = json.loads(pre_login_str)

    data = {

        'entry': 'weibo',

        'gateway': 1,

        'from': '',

        'savestate': 7,

        'userticket': 1,

        'ssosimplelogin': 1,

        'su': base64.b64encode(urllib.parse.quote(username).encode()),

        'service': 'miniblog',

        'servertime': pre_login['servertime'],

        'nonce': pre_login['nonce'],

        'vsnf': 1,

        'vsnval': '',

        'pwencode': 'rsa2',

        'sp': encrypt_passwd(password, pre_login['pubkey'],

                             pre_login['servertime'], pre_login['nonce']),

        'rsakv' : pre_login['rsakv'],

        'encoding': 'gbk',

        'prelt': '115',

        'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.si'

               'naSSOController.feedBackUrlCallBack',

        'returntype': 'META'

    }

    resp = session.post(

        'http://login.sina.com.cn/sso/login.php?client=%s' % weclient,

        data=data

    )

    login_url = re.search(r'replace\([\"\']([^\'\"]+)[\"\']',

                          resp.content.decode('gbk')).group(1)

    resp = session.get(login_url)

    login_str = re.match(r'[^{]+({.+?}})', resp.content.decode('gbk'))

    if(login_str):      # result is not None

        logger.info('login success..')

        login_str = json.loads(login_str.group(1))

        pprint(login_str)

        return True

    else:

        logger.info('login fail..')

        return False

def gethotwb(url):

    f = open(wbdom, mode='a', encoding='utf-8')

    for x in range(1,11):       # page 1 to 10

        r = session.get(url + str(x))

        r.encoding = 'utf-8'

        f.write('\n<p>--------page:'+ str(x) +'---------</p>\n\n')

        f.write(json.loads(r.text)['data']['html'])

    f.close()

if __name__ == '__main__':

    flag = wblogin(b'xx@163.com', 'xx')

    if(flag):

        gethotwb('http://hot.weibo.com/ajax/feed?type=h&v=9999&page=');

总结

测试的过程中连接了翻墙的VPN，异地登录需要验证码，此时retcode=4049，登录成功是0
python各个版本之间不兼容好蛋痛

大家中秋快乐！

参考文档

requests文档 http://docs.python-requests.org/zh_CN/latest/

微博登录过程分析 http://www.cnblogs.com/pzxbc/archive/2012/02/03/2335027.html

python3使用requests爬取新浪热门微博的更多相关文章

Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...
selenium+BeautifulSoup+phantomjs爬取新浪新闻
一下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs. ...
python3爬虫-爬取新浪新闻首页所有新闻标题
准备工作:安装requests和BeautifulSoup4.打开cmd,输入如下命令 pip install requests pip install BeautifulSoup4 打开我们要爬取的 ...
Python 爬虫实例（7）—— 爬取新浪军事新闻
我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分第二zh张图片,显示需要分页, 源代码: # coding:utf-8 import json import redis i ...
python3+selenium3+requests爬取我的博客粉丝的名称
爬取目标 1.本次代码是在python3上运行通过的 selenium3 +firefox59.0.1(最新) BeautifulSoup requests 2.爬取目标网站,我的博客:https:/ ...
python2.7 爬虫初体验爬取新浪国内新闻_20161130
python2.7 爬虫初学习模块:BeautifulSoup requests 1.获取新浪国内新闻标题 2.获取新闻url 3.还没想好,想法是把第2步的url 获取到下载网页源代码再去分析源 ...
python爬取新浪股票数据—绘图【原创分享】
目标:不做蜡烛图,只用折线图绘图,绘出四条线之间的关系. 注:未使用接口,仅爬虫学习,不做任何违法操作. """ 新浪财经,爬取历史股票数据 ""&q ...
【python3】爬取新浪的栏目分类
目标地址: http://www.sina.com.cn/ 查看源代码,分析: 1 整个分类在 div main-nav 里边包含 2 分组情况:1,4一组 . 2,3一组 . 5 一组 .6一组 ...
xpath爬取新浪天气
参考资料: http://cuiqingcai.com/1052.html http://cuiqingcai.com/2621.html http://www.cnblogs.com/jixin/p ...

随机推荐

使用ROW_NUMBER进行的快速分页
DECLARE @pageSize INT ; DECLARE @pageIndex INT ; SET @pageSize = 5 SET @pageIndex =2 ; --第二页,每页显示5条数 ...
ajax跨域访问 java controller 和 cxf(webservice) 配置方式（CORS）
1. controller跨域访问,配置方式重点在这里: <mvc:cors> <mvc:mapping path="/*" allowed-origins=& ...
#ifndef#define#endif的用法
在网上看到了感觉作者总结得很好,作者辛苦了! #ifndef#define#endif的用法文件中的#ifndef 头件的中的#ifndef,这是一个很关键的东西.比如你有两个C文件,这两个C文件都 ...
Find Minimum in Rotated Sorted Array问题的困惑
今天做了两题,第二题没解出来,发现太麻烦了,放弃了……明天脑子清楚的时候再做. 第一题就是标题中的这个问题.在一个旋转排序数组中找出最小的值. 针对该问题出了两道不同要求的题目,分别是不考虑重复元素的 ...
swift入门-day02
1.函数 2.闭包 3.构造函数基础 4.重载构造函数 5.KVC构造函数 6.遍历构造函数 7.懒加载 8.只读属性 1.函数掌握函数的定义掌握外部参数的用处掌握无返回类型的三种函数定义方式 ...
phaser源码解析（一） Phaser.Utils类下shuffle方法
/** * #一个基于费雪耶茨排列洗牌方法 * A standard Fisher-Yates Array shuffle implementation. * @method Phaser.Ut ...
C#操作redis代码汇总
马上要用redis来改造现有的o2o项目了,在linux下部署了个redis,顺便研究了下代码操作,分享下代码 using System; using System.Collections.Gener ...
SDL实现按钮
是的,按钮控件很常见,几乎在每一个Windows窗体内都能找到它的身影.SDL作为一套“一套开放源代码的跨平台多媒体开发库”,自然可以实现按钮.而按钮实现的重点,就是SDL的鼠标响应事件. SDL的鼠 ...
jjQuery 源码分析1: 整体结构
目前阅读的是jQuery 1.11.3的源码,有参考nuysoft的资料. 原来比较喜欢在自己的Evernote上做学习基类,并没有在网上写技术博客的习惯,现在开始学习JS的开源代码,想跟大家多交流, ...
UVA 10066 The Twin Towers（LCS）
Problem B The Twin Towers Input: standard input Output: standard output Once upon a time, in an anci ...

python3使用requests爬取新浪热门微博

相关环境

代码实现

总结

参考文档

python3使用requests爬取新浪热门微博的更多相关文章

随机推荐

热门专题