测试开发Python培训:模拟登录新浪微博-技术篇

 

一般一个初学者项目的起点就是登陆功能的自动化,而面临的项目不同实现的技术难度是不一样的,poptest在做测试开发培训中更加关注技术难点,掌握技术实现思路,提高动手能力。这里通过大家都能接触到的系统新浪微博,作为案例。

模拟登录功能比较简单,很多人在学习自动化的时候都会以登陆来作为自己的第一个学习案例,有点像开发语言中第一段代码都是helloworld!一样。登陆简单的模拟登录,直接发post请求就OK,很容易实现。 这里用新浪微博,就是技术实现复杂,涉及到很多细节。难点在于登录新浪微博时,客户端js会对发送的请求,如登陆中的用户名、密码进行加密。

第一步:分析协议内容

可以利用协议工具进行分析,在这里我们可以用火狐浏览器来进行跟踪,输入用户名后,会进行预登录,网址为:http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=ZW5nbGFuZHNldSU0MDE2My5jb20%3D&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.18)&_=1443156845536,通过响应(sinaSSOController.preloginCallBack({"retcode":0,"servertime":1443156842,"pcid":"gz-e88b75a929252baec7c12c741985eaa45627","nonce":"2L4IZ3","pubkey":"EB2A38568661887FA180BDDB5CABD5F21C7BFD59C090CB2D245A87AC253062882729293E5506350508E7F9AA3BB77F4333231490F915F6D63C55FE2F08A49B353F444AD3993CACC02DB784ABBB8E42A9B1BBFFFB38BE18D78E87A0E41B9B8F73A928EE0CCEE1F6739884B9777E4FE9E88A1BBE495927AC4A799B3181D6442443","rsakv":"1330428213","showpin":0,"exectime":16})),这里分析会发现获得四个变量,servertime、nonce、pubkey和rsakv.

新浪微博的用户名加密目前采用Base64加密算法,而新浪微博登录密码的加密算法使用RSA2,这是模拟登陆的重点,需要先创建一个rsa公钥,公钥的两个参数新浪微博都给了固定值,第一个参数是登录第一步中的pubkey,第二个参数是js加密文件中的‘10001’. 这两个值需要先从16进制转换成10进制,把10001转成十进制为65537,随后加入servertime和nonce再次加密.

第二步:模拟请求

请求网址:http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18),表单数据如下:

主要提交数据:
  su:base64加密过后的用户名
  servertime/nonce/rsakv之前预登陆获取到了
  sp是加密过户的密码

  username 经过了BASE64 计算: username = base64.encodestring( urllib.quote(username) )[:-1];
      password 经过了三次SHA1 加密, 且其中加入了 servertime 和 nonce 的值来干扰。
      即: 两次SHA1加密后, 将结果加上 servertime 和 nonce 的值, 再SHA1 算一次。

第三步:处理请求响应

提交之后: 将参数组织好, POST请求。 这之后还没有登录成功。,原因是返回的并不是微博个人主页,而是一段重定向的代码:

登录成功后retcode 的值是0 。接下来再请求这个URL,这样就成功登录到微博了。
   记得要提前build 缓存

备注:技术实现:

  cookielib: 用来保存cookies.
  urllib2: 发送请求获取网页数据,与cookielib配合,利用cookie访问.
  json:处理数据交换格式

 代码:

# -*- coding: utf-8 -*- 
######################## 
#author:Andrewseu 
#date:2015/9/23 
#login weibo 
########################

import sys 
import urllib 
import urllib2 
import cookielib 
import base64 
import re 
import json 
import rsa 
import binascii 
#import requests 
#from bs4 import BeautifulSoup

#新浪微博的模拟登陆 
class weiboLogin: 
  def enableCookies(self): 
    #获取一个保存cookies的对象 
    cj = cookielib.CookieJar() 
    #将一个保存cookies对象和一个HTTP的cookie的处理器绑定 
    cookie_support = urllib2.HTTPCookieProcessor(cj) 
    #创建一个opener,设置一个handler用于处理http的url打开 
    opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler) 
    #安装opener,此后调用urlopen()时会使用安装过的opener对象 
    urllib2.install_opener(opener)

  #预登陆获得 servertime, nonce, pubkey, rsakv 
  def getServerData(self): 
    url = 'http://login.sina.com.cn/sso/prelogin.php?      entry=weibo&callback=sinaSSOController.preloginCallBack&su=ZW5nbGFuZHNldSU0MDE2My5jb20%3D&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.18)&_=1442991685270' 
    data = urllib2.urlopen(url).read() 
    p = re.compile('(.∗)') 
    try: 
      json_data = p.search(data).group(1) 
      data = json.loads(json_data) 
      servertime = str(data['servertime']) 
      nonce = data['nonce'] 
      pubkey = data['pubkey'] 
      rsakv = data['rsakv'] 
      return servertime, nonce, pubkey, rsakv 
    except: 
      print 'Get severtime error!' 
      return None

   #获取加密的密码 
   def getP、assword(self, password, servertime, nonce, pubkey): 
      rsaPublickey = int(pubkey, 16) 
      key = rsa.PublicKey(rsaPublickey, 65537) #创建公钥 
      message = str(servertime) + '\t' + str(nonce) + '\n' + str(password) #拼接明文js加密文件中得到 
      passwd = rsa.encrypt(message, key) #加密 
      passwd = binascii.b2a_hex(passwd) #将加密信息转换为16进制。 
      return passwd

   #获取加密的用户名 
   def getUsername(self, username): 
      username_ = urllib.quote(username) 
      username = base64.encodestring(username_)[:-1] 
      return username

   #获取需要提交的表单数据 
   def getFormData(self,userName,password,servertime,nonce,pubkey,rsakv): 
      userName = self.getUsername(userName) 
      psw = self.getPassword(password,servertime,nonce,pubkey)

      form_data = { 
        'entry':'weibo', 
        'gateway':'1', 
        'from':'', 
        'savestate':'7', 
        'useticket':'1', 
        'pagerefer':'http://weibo.com/p/1005052679342531/home?from=page_100505&mod=TAB&pids=plc_main', 
        'vsnf':'1', 
        'su':userName, 
        'service':'miniblog', 
        'servertime':servertime, 
        'nonce':nonce, 
        'pwencode':'rsa2', 
        'rsakv':rsakv, 
        'sp':psw, 
        'sr':'1366*768', 
        'encoding':'UTF-8', 
        'prelt':'115', 
        'url':'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack', 
        'returntype':'META' 
       } 
    formData = urllib.urlencode(form_data) 
    return formData

    #登陆函数 
    def login(self,username,psw): 
      self.enableCookies() 
      url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)' 
      servertime,nonce,pubkey,rsakv = self.getServerData() 
      formData = self.getFormData(username,psw,servertime,nonce,pubkey,rsakv) 
      headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0'} 
      req = urllib2.Request( 
      url = url, 
      data = formData, 
      headers = headers 
      ) 
      result = urllib2.urlopen(req) 
      text = result.read() 
      print text 
      #还没完!!!这边有一个重定位网址,包含在脚本中,获取到之后才能真正地登陆 
      p = re.compile('location\.replace[\'"](.∗?)[\'"]') 
      try: 
        login_url = p.search(text).group(1) 
        print login_url 
        #由于之前的绑定,cookies信息会直接写入 
        urllib2.urlopen(login_url) 
        print "Login success!" 
      except: 
        print 'Login error!' 
        return 0

    #访问主页,把主页写入到文件中 
    url = 'http://weibo.com/u/2679342531/home?topnav=1&wvr=6' 
    request = urllib2.Request(url) 
    response = urllib2.urlopen(request) 
    text = response.read() 
    fp_raw = open("e://weibo.html","w+") 
    fp_raw.write(text) 
    fp_raw.close() 
    #print text

wblogin = weiboLogin() 
print '新浪微博模拟登陆:' 
username = raw_input(u'用户名:') 
password = raw_input(u'密码:') 
wblogin.login(username,password)

测试开发Python培训:模拟登录新浪微博-技术篇的更多相关文章

  1. 测试开发Python培训:抓取新浪微博抓取数据-技术篇

    测试开发Python培训:抓取新浪微博抓取数据-技术篇   poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...

  2. 测试开发Python培训:自动发布新浪微博-技术篇

    测试开发Python培训:自动发布新浪微博-技术篇   在前面我们教大家如何登陆,大家需要先看自动登陆新浪微博(http://www.cnblogs.com/laoli0201/articles/48 ...

  3. 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇

    测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇   在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...

  4. 测试开发Python培训:实现屌丝的图片收藏愿望(小插曲)

    测试开发Python培训:实现屌丝的图片收藏愿望(小插曲) 男学员在学习python的自动化过程中对于爬虫很感兴趣,有些学员就想能收藏一些图片,供自己欣赏.作为讲师只能是满足愿望,帮助大家实现对美的追 ...

  5. 测试开发Python培训:实现屌丝的黄色图片收藏愿望(小插曲)

    男学员在学习python的自动化过程中对于爬虫很感兴趣,有些学员就想能收藏一些情色图片,供自己欣赏.作为讲师只能是满足愿望,帮助大家实现对美的追求,http://wanimal.lofter.com/ ...

  6. 模拟登录新浪微博(Python) - 转

    Update: 如果只是写个小爬虫,访问需要登录的页面,采用填入cookie 的方法吧,简单粗暴有效,详细见:http://www.douban.com/note/264976536/模拟登陆有时需要 ...

  7. 【Python3爬虫】最新的模拟登录新浪微博教程

    一.写在前面 首先呢,由于之前重装系统,又要重新配置环境,然后还有一些别的事,导致我一直没有写爬虫了,不过现在又可以继续写了. 然后我这次说的模拟登录新浪微博呢,不是使用Selenium模拟浏览器操作 ...

  8. 用python实现模拟登录人人网

    用python实现模拟登录人人网 字数4068 阅读1762 评论19 喜欢46 我决定从头说起.懂的人可以快速略过前面理论看最后几张图. web基础知识 从OSI参考模型(从低到高:物理层,数据链路 ...

  9. Java实现模拟登录新浪微博

    毕设题目要使用到新浪微博数据,所以要爬取新浪微博的数据.一般而言,新浪微博的爬虫有两种模式:新浪官方API和模拟登录新浪微博.两种方法的异同点和适用情况就无须赘述了.前辈的文章已经非常多了.写这篇文章 ...

随机推荐

  1. MVC和三层架构

    从最开始写程序到现在,一路上听到架构这个词已经无数次了,在工作和圈子里也不停听到大家在讨论它,但是很多时候发现不少人对这个概念的理解都是很模糊的,无意间在知道上看到一个朋友的回答,感觉很不错,特转帖到 ...

  2. nodejs中异步

    nodejs中的异步 1 nodejs 中的异步存在吗? 现在有点 javascript 基础的人都在听说过 nodejs ,而只要与 javascript 打交到人都会用或者是将要使用 nodejs ...

  3. Visual Studio 2017离线安装包,百度云分流

    Visual Studio正式版发布了,然而只能在线安装.虽然官方有提供了离线的方法,但还是蛮复杂的,所以我打包了两个版本发布至百度云分享. 离线分流 地址:http://pan.baidu.com/ ...

  4. Java XML DOM解析(xPath)

    (一) XML概念 在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等.它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的 ...

  5. Flume-ng源码解析之Source组件

    如果你还没看过Flume-ng源码解析系列中的启动流程.Channel组件和Sink组件,可以点击下面链接: Flume-ng源码解析之启动流程 Flume-ng源码解析之Channel组件 Flum ...

  6. 2764: [JLOI2011]基因补全

    2764: [JLOI2011]基因补全 Time Limit: 10 Sec  Memory Limit: 128 MBSubmit: 570  Solved: 187[Submit][Status ...

  7. 关于如何介绍spring框架。

    一.介绍Spring 1.Spring是一个分层的JavaSE/EEfull-stack(一站式) 轻量级开源框架. 2.概念:轻量级的IOC(控制反转或者依赖注入).AOP(面向切面或者面向方面) ...

  8. pom.xml配置文件配置jar(不用记,快速配置)

    1:网址:http://mvnrepository.com/ 2:在搜索栏搜索要用的框架;例如spring *以下为示例

  9. 联想A7600-m刷机心得

    先来说说刷机 联想A7600-m的刷机

  10. 更改服务器的SID 加入域控制器提示SID重复

    启动Windows2008.2012进入系统后,打开“CMD窗口”并进入到"C:\windows\system32\sysprep"目录后再输入“sysprep /generali ...