scrapy模拟登录微博

http://blog.csdn.net/pipisorry/article/details/47008981

这篇文章是介绍使用scrapy模拟登录微博，并爬取微博相关内容。关于登录流程为嘛如此设置，请参考[微博登录过程分析]。

截包分析

下载软件Fiddler for .NET2查看相关登录流程信息。运行python程序访问和直接在浏览器中刷新页面都可以在fiddler中找到网络包的相关信息。

Note: fiddler是抓包用的，是独立的工具。类似这种前端登录动作，也可以用casperjs。还可以用浏览器嵌入工具HttpWatch，截包工具如Firefox的插件httpfox。

获取登录入口

微博的登录入口有好几个,其实只要登录的逻辑不变, 其它的入口也是可以的。在微博登录界面分析html源码，获得其登录界面为http://weibo.com/login.php

查看需要的postdata

登录微博前，我们要先post相关数据。打开fiddler2，再登录微博，并查看fiddler2的内容变化

图中webForms所有数据就是我们在模拟登录时需要填入的数据.这些数据中除了su、sp、rsakv、servertime、nonce是经过js处理动态生成的,其它都是个固定值(其实需要的也就只有pubkey、url、pwencode和nonce、pubkey、retcode、exectime、pcid，其它的不用加入postdata，甚至和后面的有些可以不用添加（lz未验证）),可以在代码中写死。所以你的postdata只要提交su、sp、servertime、nonce、url、pwencode和pubkey、retcode、exectime、pcid。

Note: su是js处理后的用户名；sp是js处理后的密码；servertime、nonce 、pubkey都是登录时候需要使用的，用于post信息（sp）的加密；pwnencode=rsa2是weibo登录对密码的加密方式。

获得postdata

当然上面的信息可以用抓包工具抓到，但是我们要在程序中获得这些post信息。

1. 在浏览器登录后，fiddler2会抓到另一个login.sina.com.cn下的js文件http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=&rsakt=mod&client=ssologin.js(v1.4.18)，这个js文件就是当用户输入用户名时，网页发送用户名到js文件中，js文件处理用户名并返回su、servertime、nonce、url、pwencode和rsakv、retcode、exectime、pcid这些post数据，用于后面的密码加密并提交到后续网站，在下面的textview中可以看到

Note:1. 上面的js地址是在未登录的情况下抓包得到，并且后面的&_=1441377653804%20HTTP/1.1已经被lz省略了，后面的数字实际上是str(time.time()).replace('.',
'')这个东西，对于获取postdata没用。

2. 上面url的su=部分, 这里的su是经过js处理后的用户名,在后面加入js处理后的用户名，js处理后的用户名当然是登录后得到的

2. 其实手动在浏览器中输入上面的js地址，也会得到相应的post数据输出

可以看到

如果su-为空，得到：

sinaSSOController.preloginCallBack({"retcode":0,"servertime":1441379724,"pcid":"gz-ca74a2cf2705a177abe404a62a1140d71d09","nonce":"89VNFB","pubkey":"EB2A38568661887FA180BDDB5CABD5F21C7BFD59C090CB2D245A87AC253062882729293E5506350508E7F9AA3BB77F4333231490F915F6D63C55FE2F08A49B353F444AD3993CACC02DB784ABBB8E42A9B1BBFFFB38BE18D78E87A0E41B9B8F73A928EE0CCEE1F6739884B9777E4FE9E88A1BBE495927AC4A799B3181D6442443","rsakv":"1330428213","uid":"2835992634","exectime":4})

填入js处理后的用户名得到：

sinaSSOController.preloginCallBack({"retcode":0,"servertime":1441380255,"pcid":"gz-3ab638aed06967c056296dca13e50a4a6333","nonce":"TCEW1Y","pubkey":"EB2A38568661887FA180BDDB5CABD5F21C7BFD59C090CB2D245A87AC253062882729293E5506350508E7F9AA3BB77F4333231490F915F6D63C55FE2F08A49B353F444AD3993CACC02DB784ABBB8E42A9B1BBFFFB38BE18D78E87A0E41B9B8F73A928EE0CCEE1F6739884B9777E4FE9E88A1BBE495927AC4A799B3181D6442443","rsakv":"1330428213","exectime":3})

Note: 登录后的结果，仅仅是少了一个uid，同时所有人的pubkey是一样的，因为是公钥嘛。

皮皮Blog

模拟js处理用户名及密码

浏览器中输入http://login.sina.com.cn/js/sso/ssologin.js得到这个js文件，复制内容到js编辑器中（lz是在pycharm中创建js文件格式化后查阅的）查看。

Note: 在未登录状态，浏览器中刷新登录界面http://login.sina.com.cn/signup/signin.php?entry=sso这个页面，fiddler2就可以抓到那个ssologin.js文件

查看ssologin.js的makeRequest函数：

用户名加密

从代码中我们可以知道su就是经过html字符转义再转成base64编码

python中我们可以这样转化:

def get_su(self, user_name):
    '''
    对用户名加密
    '''
    username_ = urllib.quote(user_name)  # html字符转义
]

密码加密

weibo登录对密码有两种加密方式:rsa2与wsse,我们从上面的密码加密方式pwnencode=rsa2可知, js处理走的是这一部分逻辑。(wsse逻辑是通过一个if else判断得到，但我们登录一般是rsa2，wsse是干嘛的没深究)

并且servertime, nonce, pubkey都被用上了，我们只要把这部分js在python中转义就行了。

def get_sp_rsa(self, password, pubkey, servertime, nonce):
    '''
    对密码加密，http://login.sina.com.cn/js/sso/ssologin.js中makeRequest的python实现
    '''
    # 公钥pubkey在prelogin得到,固定值
), )  # 10001对应的10进制，创建公钥
    message = ('\t').join([str(servertime), str(nonce)]) + '\n' + password
    encropy_pwd = rsa.encrypt(message, key)
    return binascii.b2a_hex(encropy_pwd)  # 将加密信息转换为16进制

Note:

1. 0x10001要转化成10进制的65537, 还有要经过servertime + +'\t' + nonce + '\n' + passwd拼接字符串再进行Rsa加密, 最后转成16进制即得到sp.

2. 使用rsa加密要安装rsa拓展包 pip install rsa

皮皮Blog

模拟登录微博

以上我们分析了如何获取post值，知道哪些数据是需要提交的，也知道怎么处理用户名和密码来获取su、sp，下面讲解如何利用这些信息模拟登录新浪微博。

1. 请求http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=&rsakt=mod&client=ssologin.js(v1.4.18)，这个相当于登录前请求相关postdata的地址，在返回的response中获取servertime,nonce,pubkey等值

def get_prelogin_data(self):
    '''
    登录前，获得之后要提交的数据
    :return:
    '''
    prelogin_url = globleOptions.prelogin_url
    post_ori_text = requests.get(prelogin_url).text
    json_data )
    json_data = json.loads(json_data)
    prelogin_data = dict(json_data)
    for key, value in prelogin_data.items():
        prelogin_data[key] = str(value)
    # print(prelogin_data)
    return prelogin_data

2. 模拟js计算加密后的用户名su、模拟js计算加密后的密码sp（加上上一步获取的pubkey、servertime、nonce）

3. 把1中得到的所有postdata与其它固定值su、sp一起提交到http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)，这个是请求登录的地址

Note: postdata要手动添加这两个数据，它们是1中返回时解析不到的，只有在抓包中看到。

post_data.update({'pwencode': 'rsa2', 'url': r'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack'})

这个地址会跳转到passport.weibo.com/wbsso/login/,response会返回我们需要的地址,用正则表达式取出这个地址并请求, 得到如下正则表达式结果则登录成功

http://passport.weibo.com/wbsso/login?ssosavestate=1472919508&url=http%3A%2F%2Fweibo.com%2Fajaxlogin.php%3Fframelogin%3D1%26callback%3Dparent.sinaSSOController.feedBackUrlCallBack%26sudaref%3Dweibo.com&ticket=*****&retcode=0

retcode=101则表示登录失败

def start_requests(self):
    '''
    获取postdata并提交到登录地址
    '''
    login_url = globleOptions.login_url
    username = globleOptions.username
    password = globleOptions.password

    post_data = self.get_postdata(username, password)
    # headers可以不用添加
    headers = globleOptions.headers

    # 将数据提交到登录地址
    return [scrapy.http.FormRequest(url=login_url, formdata=post_data, callback=self.access_new_loginurl)]

4. 还要请求上面得到的这个长地址（实际中的新登录地址），也就是得到重定位信息后，解析得到最终跳转到的新登录URL打开该URL后，服务器才会自动将用户登陆信息写入cookie，登陆成功。只有写入了cookie，后面的登录才会顺利。

def access_new_loginurl(self, response):
    '''
    获取新的登录地址并提交request访问, 自动写入cookie， 下次就可以直接访问其它网站了
    '''
    # print(response.body.decode('gb2312'))
)
    # print('new_login_url : %s ' % new_login_url)
    request = scrapy.http.Request(new_login_url)  # 如果没有callback，就默认为parse方法
    return request

5. 这时cookie已经写入，我们再访问微博相关的网页，就可以直接得到登录后的页面数据了

def parse(self, response):
    '''
    登录后的爬虫，parse方法会自动request遍历start_urls中的url
    '''
    for url in self.start_urls:
        request = scrapy.http.Request(url=url, callback=self.parse_item)
        # request = response.request.replace(url=globleOptions.redir_url, callback=self.parse_item)
        yield request

def parse_item(self, response):
    '''
    处理items
    '''
]
    # print(filename)
    filename = re.sub('/|\?', '.', filename) + '.html'
    with open(os.path.join('./TmpFiles', filename), 'wb') as html_file:
        html_page = response.body
        html_file.write(html_page)

Note:至于代码实现，可以用scrapy，也可以用python自带的urllib（当然这个明显爬取速度更快）

保存请求的cookie

只要把保存的cookie持久化到文件, scrapy每次请求时带上这个cookie就可以了。

from:http://blog.csdn.net/pipisorry/article/details/47008981

scrapy模拟登录微博的更多相关文章

利用scrapy模拟登录知乎
闲来无事,写一个模拟登录知乎的小demo. 分析网页发现:登录需要的手机号,密码,_xsrf参数,验证码实现思路: 1.获取验证码 2.获取_xsrf 参数 3.携带参数,请求登录验证码url : ...
Scrapy模拟登录信息
携带cookie模拟登录需要在爬虫里面自定义一个start_requests()的函数里面的内容: def start_requests(self): cookies = '真实有效的cookie ...
Scrapy模拟登录赶集网
1.打开赶集网登录界面,先模拟登录并抓包,获得post请求的request参数 2. 我们只需构造出上面的参数传入formdata即可参数分析: setcookie:为自动登录所传的值,不勾选时默认 ...
scrapy模拟登录
对于scrapy来说,也是有两个方法模拟登陆: 直接携带cookie 找到发送post请求的url地址,带上信息,发送请求 scrapy模拟登陆之携带cookie 应用场景: cookie过期时间很长 ...
python爬虫之scrapy模拟登录
背景: 初来乍到的pythoner,刚开始的时候觉得所有的网站无非就是分析HTML.json数据,但是忽略了很多的一个问题,有很多的网站为了反爬虫,除了需要高可用代理IP地址池外,还需要登录.例如知乎 ...
scrapy 基础组件专题（十二）：scrapy 模拟登录
1. scrapy有三种方法模拟登陆 1.1直接携带cookies 1.2找url地址,发送post请求存储cookie 1.3找到对应的form表单,自动解析input标签,自动解析post请求的u ...
Scrapy模拟登录知乎
建立项目 scrapy startproject zhihu_login scrapy genspider zhihu www.zhihu.com 编写spider 知乎的登录页url是http:// ...
Scrapy模拟登录GitHub
d: 进入D盘 scrapy startproject GitHub 创建项目 scrapy genspider github github.com 创建爬虫编辑github.py: # -*- c ...
scrapy 模拟登录后再抓取
深度好文: from scrapy.contrib.spiders.init import InitSpider from scrapy.http import Request, FormReques ...

随机推荐

Python能做些什么？
前言网上搜集到的一些python能做什么的资料,利用python能做很多事情,我们可以在多门课程中都使用Python作为我们的教学语言.比如,计算机网络.数据结构.人工智能.图像处理.软件分析与测试 ...
线程停止与volatile
1.使用标志位停止线程在Java中希望停止线程,可以使用设置标志位的方法,如下例所示: class SimpleTask implements Runnable{ private boolean s ...
Android5.0特性ToolBar
>Toolbar是什么?大概说一下它的官方介绍.Toolbar是应用的内容的标准工具栏,`可以说是Actionbar的升级版`,两者不是独立关系,要使用Toolbar还是得跟ActionBar扯 ...
[OpenCV] 编译源程序 2.4.10 以支持 CUDA
对源代码进行如下修改: H:\Software\opencv\sources\modules\gpu\src\nvidia\core\NCV.cu中添加 #include <algorithm& ...
Android TV开发总结（六）构建一个TV app的直播节目实例
请尊重分享成果,转载请注明出处:http://blog.csdn.net/hejjunlin/article/details/52966319 近年来,Android TV的迅速发展,传统的有线电视受 ...
iOS 滚动视图的复用问题解决方案
LazyScroll是什么 LazyScrollView 继承自ScrollView,目标是解决异构(与TableView的同构对比)滚动视图的复用回收问题.它可以支持跨View层的复用,用易用方式来 ...
Android简易实战教程--第三十二话《使用Lrucache和NetworkImageView加载图片》
转载本专栏每一篇博客请注明转载出处地址,尊重原创.此博客转载链接地址:小杨的博客 http://blog.csdn.net/qq_32059827/article/details/5279131 ...
JAVA进阶之旅（一）——增强for循环，基本数据类型的自动拆箱与装箱，享元设计模式,枚举的概述，枚举的应用，枚举的构造方法，枚举的抽象方法
JAVA进阶之旅(一)--增强for循环,基本数据类型的自动拆箱与装箱,享元设计模式,枚举的概述,枚举的应用,枚举的构造方法,枚举的抽象方法学完我们的java之旅,其实收获还是很多的,但是依然还有很 ...
nfc开发
很多Android设备已经支持NFC(近距离无线通讯技术)了.本文就以实例的方式,为大家介绍如何在Android系统中进行NFC开发. Android NFC开发环境使用硬件:Google Nexu ...
UNIX网络编程——通过UNIX域套接字传递描述符和 sendmsg/recvmsg 函数
在前面我们介绍了UNIX域套接字编程,更重要的一点是UNIX域套接字可以在同一台主机上各进程之间传递文件描述符. 下面先来看两个函数: #include <sys/types.h> #in ...

scrapy模拟登录微博

scrapy模拟登录微博的更多相关文章

随机推荐

热门专题