Python实现北邮人论坛模拟登录

推荐去我的博客里查看这篇文章，效果更佳：
http://fuxuemingzhu.cn/2017/08/12/byrbbs-login/

模拟登录北邮人论坛可能是每个学着写爬虫的北邮人必备技能了。在网上和论坛上也有相关资料，但质量参差不齐，有些甚至不能实现模拟登录。因此，这里我使用requests库和urllib2库两种方法，分别实现了北邮人论坛的模拟登录。

教程所需环境：

Python 2.x
requests 库

requests库模拟登录北邮人论坛

教程的刚开始我们先优先使用最为方便的库:requests。

requests库的宣言是：

HTTP for Humans （给人用的 HTTP 库）

通过使用可以看出，requests库确实是当前Python处理网络请求最好用的库！强力推荐大家放弃urllib2库！

安装方式很简单：

pip install requests

安装完成之后，可以用下面的代码测试是否安装成功：

import requests

如果Python环境没有报错就说明安装成功，可以使用这个最方便的网络请求库了~

下面我们开始分析模拟登录的逻辑。

首先，打开论坛首页https://bbs.byr.cn/#!default，并且退出登录。

然后，按F12键审查元素，并且切换到Network选项卡，并且勾选上preserve log选项。现在的状态如下：

重点来了，输入用户名密码后点击登录，你应该能看到下面的信息：

可以看出向https://bbs.byr.cn/user/ajax_login.json发送了一个post请求，发送了正确的用户名密码之后，就能登录成功。

另外，经过测试得到，如果请求的头部不正确，论坛会拒绝登录，正确的方式是添加头部。必须添加下面的头部。

'x-requested-with': 'XMLHttpRequest'

下面是完整的登录代码，请输入自己的用户名和密码。

import requests

r_url = 'https://bbs.byr.cn/user/ajax_login.json'

my_header = {'x-requested-with': 'XMLHttpRequest'}

byr_data = {'id': 'fuxuemingzhu', 'passwd': '********'}

session = requests.Session()

req = session.post(r_url, data=byr_data, headers=my_header)

print(req.text)

运行结果，这说明运行代码执行成功：

{

    "id": "fuxuemingzhu",

    "user_name": "意涵团·负雪明烛 http://fuxuemingzhu.me",

    "face_url": "https://static.byr.cn/uploadFace/F/fuxuemingzhu.120.jpg",

    "face_width": 120,

    "face_height": 120,

    "gender": "m",

    "astro": "未知",

    "life": 365,

    "qq": "",

    "msn": "",

    "home_page": "http://fuxuemingzhu.me/",

    "level": "版主",

    "is_online": true,

    ......

    "ajax_code": "0005",

    "ajax_msg": "操作成功"

}

这里有必要讲一下为什么使用了Session()的方式，这样可以使用时requests库能自动保存cookies到Session中，也就是说只要程序没关闭，就可以访问其他数据！

比如，我们查一下超神的信息：

quer = session.get("https://bbs.byr.cn/user/query/zc199102.json", headers=my_header)

print(quer.text)

返回结果如下：

{

    "id": "zc199102",

    "user_name": "超byr||呐，你们的小企鹅~",

    "face_url": "https://static.byr.cn/uploadFace/Z/zc199102.502.gif",

    "face_width": 100,

    "face_height": 75,

    "gender": "m",

    "astro": "未知",

    "life": 365,

    "qq": "",

    "msn": "",

    "home_page": "",

    "level": "用户",

    "is_online": true,

    ......

    "ajax_code": "0005",

    "ajax_msg": "操作成功"

}

根据这个原理你可以查看任意用户的公开信息，或者把整个论坛爬下来。

urllib2库模拟登录北邮人论坛

urllib2库是Python自带的库，并且已经在Python3中取消。这就是我不再推荐的原因，另外下面冗长的代码也可以看出，这个库不好用。

urllib2库不支持自动管理cookies，需要导入cookielib包进行管理。因为登录的逻辑上文已经分析过，所以，这里直接贴上代码。

import cookielib

import urllib2

import urllib

auth_url = 'https://bbs.byr.cn/user/ajax_login.json'

data = {'id': '*********', 'passwd': '*********', }

post_data = urllib.urlencode(data)

my_header = {'x-requested-with': 'XMLHttpRequest'}

cookieJar = cookielib.CookieJar()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookieJar))

urllib2.install_opener(opener)

req = urllib2.Request(auth_url, post_data, headers=my_header)

b = opener.open(req)

print(str(b.read()).encode('utf-8'))

user_url = "https://bbs.byr.cn/user/query/zc199102.json"

req_user = urllib2.Request(user_url, headers=my_header)

a = opener.open(req_user)

print(str(a.read()).encode('utf-8'))

执行后应该有和requests库同样的结果。

结语

刚开始写这个模拟登录的时候还是个Python的小白，当时只会使用urllib2库，因为reqeusts库需要安装，所以就特别害怕去尝试新东西。

但是，尝试之后简直发现了新世界。requests库同时支持python2和3，这点就比urllib2方便。从上文的代码对比也能更加看出requests库的强大。

如果你没用过requests库，那么我强烈推荐你尝试，你会彻底抛弃urllib2的。

人生苦短，我用Python。如果你也在用Python，那么肯定像我一样希望节省更多的时间，因此，有更好用的东西就去尝试吧！不要害怕折腾。