python3使用requests爬取新浪热门微博

微博登录的实现代码来源：https://gist.github.com/mrluanma/3621775

代码实现

以下代码主要是登录成功后，爬取热闹微博的TOP 100，再保存到hotweb.html文件里边

import re

import json

import urllib.parse

import base64

import binascii

import json

import rsa

import requests

import logging

from pprint import pprint 

wbdom = r'd:\pyzone\hotwb.html';

weclient = 'ssologin.js(v1.4.5)'

FORMAT = '%(asctime)-15s %(message)s'

user_agent = (

    'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.11 (KHTML, like Gecko) '

    'Chrome/20.0.1132.57 Safari/536.11'

)

logging.basicConfig(level=logging.DEBUG, format=FORMAT)

logger = logging.getLogger('weibo')

session = requests.session()

session.headers['User-Agent'] = user_agent

def encrypt_passwd(passwd, pubkey, servertime, nonce):

    key = rsa.PublicKey(int(pubkey, 16), int('10001', 16))

    message = str(servertime) + '\t' + str(nonce) + '\n' + str(passwd)

    passwd = rsa.encrypt(message.encode(), key)

    return binascii.b2a_hex(passwd)

def wblogin(username, password):

    resp = session.get(

        'http://login.sina.com.cn/sso/prelogin.php?'

        'entry=sso&callback=sinaSSOController.preloginCallBack&'

        'su=%s&rsakt=mod&client=%s' %

        (base64.b64encode(username), weclient)

    )

    pre_login_str = re.match(r'[^{]+({.+?})', resp.content.decode('gbk')).group(1)

    pre_login = json.loads(pre_login_str)

    pre_login = json.loads(pre_login_str)

    data = {

        'entry': 'weibo',

        'gateway': 1,

        'from': '',

        'savestate': 7,

        'userticket': 1,

        'ssosimplelogin': 1,

        'su': base64.b64encode(urllib.parse.quote(username).encode()),

        'service': 'miniblog',

        'servertime': pre_login['servertime'],

        'nonce': pre_login['nonce'],

        'vsnf': 1,

        'vsnval': '',

        'pwencode': 'rsa2',

        'sp': encrypt_passwd(password, pre_login['pubkey'],

                             pre_login['servertime'], pre_login['nonce']),

        'rsakv' : pre_login['rsakv'],

        'encoding': 'gbk',

        'prelt': '115',

        'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.si'

               'naSSOController.feedBackUrlCallBack',

        'returntype': 'META'

    }

    resp = session.post(

        'http://login.sina.com.cn/sso/login.php?client=%s' % weclient,

        data=data

    )

    login_url = re.search(r'replace\([\"\']([^\'\"]+)[\"\']',

                          resp.content.decode('gbk')).group(1)

    resp = session.get(login_url)

    login_str = re.match(r'[^{]+({.+?}})', resp.content.decode('gbk'))

    if(login_str):      # result is not None

        logger.info('login success..')

        login_str = json.loads(login_str.group(1))

        pprint(login_str)

        return True

    else:

        logger.info('login fail..')

        return False

def gethotwb(url):

    f = open(wbdom, mode='a', encoding='utf-8')

    for x in range(1,11):       # page 1 to 10

        r = session.get(url + str(x))

        r.encoding = 'utf-8'

        f.write('\n<p>--------page:'+ str(x) +'---------</p>\n\n')

        f.write(json.loads(r.text)['data']['html'])

    f.close()

if __name__ == '__main__':

    flag = wblogin(b'xx@163.com', 'xx')

    if(flag):

        gethotwb('http://hot.weibo.com/ajax/feed?type=h&v=9999&page=');

总结

测试的过程中连接了翻墙的VPN，异地登录需要验证码，此时retcode=4049，登录成功是0
python各个版本之间不兼容好蛋痛

大家中秋快乐！

参考文档

requests文档 http://docs.python-requests.org/zh_CN/latest/

微博登录过程分析 http://www.cnblogs.com/pzxbc/archive/2012/02/03/2335027.html

python3使用requests爬取新浪热门微博的更多相关文章

Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...
selenium+BeautifulSoup+phantomjs爬取新浪新闻
一下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs. ...
python3爬虫-爬取新浪新闻首页所有新闻标题
准备工作:安装requests和BeautifulSoup4.打开cmd,输入如下命令 pip install requests pip install BeautifulSoup4 打开我们要爬取的 ...
Python 爬虫实例（7）—— 爬取新浪军事新闻
我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分第二zh张图片,显示需要分页, 源代码: # coding:utf-8 import json import redis i ...
python3+selenium3+requests爬取我的博客粉丝的名称
爬取目标 1.本次代码是在python3上运行通过的 selenium3 +firefox59.0.1(最新) BeautifulSoup requests 2.爬取目标网站,我的博客:https:/ ...
python2.7 爬虫初体验爬取新浪国内新闻_20161130
python2.7 爬虫初学习模块:BeautifulSoup requests 1.获取新浪国内新闻标题 2.获取新闻url 3.还没想好,想法是把第2步的url 获取到下载网页源代码再去分析源 ...
python爬取新浪股票数据—绘图【原创分享】
目标:不做蜡烛图,只用折线图绘图,绘出四条线之间的关系. 注:未使用接口,仅爬虫学习,不做任何违法操作. """ 新浪财经,爬取历史股票数据 ""&q ...
【python3】爬取新浪的栏目分类
目标地址: http://www.sina.com.cn/ 查看源代码,分析: 1 整个分类在 div main-nav 里边包含 2 分组情况:1,4一组 . 2,3一组 . 5 一组 .6一组 ...
xpath爬取新浪天气
参考资料: http://cuiqingcai.com/1052.html http://cuiqingcai.com/2621.html http://www.cnblogs.com/jixin/p ...

随机推荐

什么情况下会调用到session_destroy()
https://segmentfault.com/q/1010000000191102 首先 ... session_destory() 是一个函数 ... 这个函数在任何情况下都不会被 php 引擎 ...
Windows下ANSI、Unicode、UTF8字符编码转换
主意:输入字符串必须是以'\0'结尾,如果输入字符串没有以'\0'结尾,请手动设置,否则转换会有错误. unsigned int EncodeUtil::AnsiToUcs2( char* pAnsi ...
ASP.NET前端语法应用
字符拼接 <%# "abc" + Eval("列名").ToString() %> <%# Eval("列名"," ...
如何使用Json-lib
数组与List.Collection等都用JSONArray解析 boolean[] boolArray = new boolean[]{true,false,true}; JSONArray jso ...
ubuntu nginx 伪静态设置
简单的静态设置 1 vim nginx.conf // 修改nginx配置文件 server { .... root /usr/local/nginx/html; #nginx网站根目录 #下面这个 ...
SSL Programming Tutorial
SSL Programming Tutorial � Table of Contents [ � Index This section demonstrates the implement ...
Java中的TCP/UDP网络通信编程
127.0.0.1是回路地址,用于测试,相当于localhost本机地址,没有网卡,不设DNS都可以访问. 端口地址在0~65535之间,其中0~1023之间的端口是用于一些知名的网络服务和应用,用户 ...
服务器慢 mysql-bin.000001文件占满磁盘的原因与解决
发现 VPS 服务器上的网站反应超级慢,简单的重启.重启各主要服务,发现mysql 的反应极其不正常. 一方面是问题,这与站点访问量有关.开始时从mysql 的配置文件 my.cnf 考虑,但志文工作 ...
Http 状态码详解
状态码含义 100 客户端应当继续发送请求.这个临时响应是用来通知客户端它的部分请求已经被服务器接收,且仍未被拒绝.客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应.服务器必须在 ...
javascript第二遍基础学习笔记(一)
1.兼容xhtml方法: <script> //<![CDATA[ ... ... //]]> </script> 2.文档模式: IE5.5引入,最初包含2种:混 ...

python3使用requests爬取新浪热门微博

相关环境

代码实现

总结

参考文档

python3使用requests爬取新浪热门微博的更多相关文章

随机推荐

热门专题