使用urllib和http.cookiejar获取python老男孩学员成绩

打开http://crm.oldboyedu.com/crm/grade/single/ 鼠标右键查看源代码，可以看到我们需要post的name。如下：

这里需要在post试提交token和search_str的值，这里的token应该使用时效性的。可以一次获取，短时间内多次使用。

在没有使用cookie时提交数据报错：

这里需要加上cookie本地存储。

具体代码如下：

#!/usr/bin/env python3

__author__ = 'DSOWASP'

#encoding:UTF-8

import urllib

import urllib.parse

import http.cookiejar

import urllib.request

import prettytable

import collections

# urllib.request.urlopen(url) 返回 http.client.HTTPResponse 对象

# 设置一个cookie处理器，它负责从服务器下载cookie到本地，并且在发送请求时带上本地的cookie

cj = http.cookiejar.LWPCookieJar()

cookies_support = urllib.request.HTTPCookieProcessor(cj)

opener = urllib.request.build_opener(cookies_support,urllib.request.HTTPHandler)

urllib.request.install_opener(opener)

# get

#打开登录主页面（他的目的是从页面下载cookie，这样我们在再送post数据时就有cookie了，否则发送不成功）

# 获取网站内容

url = "http://crm.oldboyedu.com/crm/grade/single/"

h = urllib.request.urlopen(url)

# 获取csrfmiddlewaretoken

data = h.read().decode('UTF-8')

for i in data.split('\n'):

    # <form class="col-xs-12 col-sm-10 col-sm-offset-1" method="post" action="/crm/grade/single/"><input type='hidden' name='csrfmiddlewaretoken' value='QKNMJKS49GvbVBdBzADwFT2HuHxIUUcP' />

    if "csrfmiddlewaretoken" in i:

        i = i.strip().split('value')

        m = i[1].split('\'')

        token = m[1]

#构造header，一般header至少要包含一下两项。这两项是从抓到的包里分析得出的。

# header_dict={'User-Agent':\

#            'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko'}

# qq列表,为了隐私，这里已将qq号删除

qq_list = [

'xxxxx','yyyyy',...

]

# 学号列表

xuehao_list = [

 '1','2','3','4','5',

'6','7','8','9','10','11','13','14','15',

'16','17','18','19','20','21','22','23',

'24','25','26','27','28','29','30','31',

'32','33','34','35','36','37','38','39'

]

chengji_list = collections.OrderedDict()

#构造Post数据，他也是从抓大的包里分析得出的。

for qq in qq_list:

    post = {}

    post['search_str'] = qq

    post['csrfmiddlewaretoken'] = token

    # 成绩列表默认为空

    chengji_list[qq] = []

    #需要给Post数据编码

    post_data = urllib.parse.urlencode(post).encode(encoding="utf-8")

    # post

    # req = urllib.request.Request(url,data=post_data,headers=header_dict)

    req = urllib.request.Request(url,data=post_data)

    data2 = urllib.request.urlopen(req)

    # print(type(data2)) # <class 'http.client.HTTPResponse'>

    data = data2.read()

    data = data.decode('UTF-8')

    data = data.split('\n')

    # p_chegnji 如果遇到'<td>'则为True，下一行则就成绩。

    p_chengji = False

    for i in data:

        i = i.strip()

        if len(i) != 0:

            if p_chengji == True:

                chengji_list[qq].append(i)

                p_chengji = False

            # 获取成绩的的代码需要根据实际网页放回的源码而定。可以右键查看源代码来分析一种较好的方法获取到想要的值。

            if '<td>' == i:

                p_chengji = True

# 上课天数或网页上已展示的成绩列数

l = len(chengji_list[qq_list[0]])

# 打印模块头部

PrettyTlist = ['学号','QQ']

# 根据已展示的天数来扩充打印模块头部

for i in range(l):

    i = i + 1

    PrettyTlist.append('Day%d'%i)

# 添加打印模块头部'总分'

PrettyTlist.append('总分')

# 实例化打印头部

a = prettytable.PrettyTable(PrettyTlist)

# 总成绩列表，qq:总成绩

sumc_chengji_list = {}

for xueyuan,grade in chengji_list.items():

    if grade != []:

        sumc = 0

        for i in grade:

            if i == 'A+':

                sumc += 100

            elif i == 'A':

                sumc += 90

            elif i == 'B+':

                sumc += 85

            elif i == 'B':

                sumc += 80

            elif i == 'B-':

                sumc += 70

            elif i == 'C+':

                sumc += 60

            elif i == 'C':

                sumc += 50

            elif i == 'C-':

                sumc += 40

            else:

                sumc += 0

    else:

        # 如果查不到学员的成绩

        sumc = 0

        for i in range(l):

            chengji_list[xueyuan].append('N/A')

    chengji_list[xueyuan].append(sumc)

    sumc_chengji_list[xueyuan]=sumc

# [(qq,总成绩),()]

# sorted,把items()的值给lamdba,asd[0] 为qq号，asd[1]为总成绩，key表示排序的列，resverse 为True表示降序

# sorted(dic,value,reverse)

# dic为比较函数，value 为排序的对象（这里指键或键值），

# reverse：注明升序还是降序，True--降序，False--升序（默认）

sort_chengji_list = sorted(sumc_chengji_list.items(),key = lambda asd:asd[1],reverse = True)

# 生成打印列表

for xueyuan,grade in sort_chengji_list:

    add_row = [xuehao_list[qq_list.index(xueyuan)],xueyuan]

    for i in chengji_list[xueyuan]:

        add_row.append(i)

    a.add_row(add_row)

print(a)

输出结果：

使用urllib和http.cookiejar获取python老男孩学员成绩的更多相关文章

urllib的实现---timeout,获取http响应码，重定向，proxy的设置
1.Timeout设置超时只能修改Socket设置全局Timeout #! /usr/bin/env python3 import socket import urllib.request # ti ...
php使用CURL不依赖COOKIEJAR获取COOKIE的方法
本文实例讲述了php使用CURL不依赖COOKIEJAR获取COOKIE的方法.分享给大家供大家参考.具体分析如下: PHP中CURL类是一个非常牛逼的工具类,具体怎么牛逼就不啰嗦了. 对于COOKI ...
获取python的版本
import sys # Syntax sugar. _ver = sys.version_info # 获取python版本 #: Python 2.x? is_py2 = (_ver[0] == ...
python作业学员管理系统(第十二周)
作业需求: 用户角色,讲师＼学员, 用户登陆后根据角色不同,能做的事情不同,分别如下讲师视图管理班级,可创建班级,根据学员qq号把学员加入班级可创建指定班级的上课纪录,注意一节上课纪录对应多条学 ...
Day_11【集合】扩展案例1_遍历打印学生信息，获取学生成绩的最高分，获取成绩最高的学员，获取学生成绩的平均值，获取不及格的学员数量
分析以下需求,并用代码实现: 1.按照以下描述完成类的定义学生类属性: 姓名name 年龄age 成绩score 行为: 吃饭eat() study(String content)(content ...
智联招聘获取python岗位的数据
import requests from lxml import html import time import pandas as pd from sqlalchemy import create_ ...
b站滑动验证码图片的获取-python
本文仅是获取验证码图片,python+selenium实现图片的处理,算出偏移位置网上都有现成的:而由于b站的更新,图片的获取则与之前完全不同,不能直接从html中拿到过程比较曲折所以记录一下,可 ...
获取Python安装目录
>>> import sys>>> path=sys.executable>>> print (path)C:\Users\jumz-G\AppD ...

随机推荐

【Head First Java 读书笔记】（六）认识Java API
第五章使用Java函数库 ArrayList add(Object elem) remove(int index) remove(Object elem) contains(Object elem) ...
【实习项目记录】(二) JSON
介绍 JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式. 易于人阅读和编写.同时也易于机器解析和生成. 它基于JavaScript Program ...
WebApi与MVC Route 问题整理
1. 为WebAPI添加 Area后,完成了CustomControllerSelector的制定. 跟踪WebAPI底层,整理WebAPI源码后发现几个问题: 1. 使用Area的controlle ...
C# 真正完美的汉字转拼音
网上有很多说自己整理的汉字转拼音是完美的,但使用后才发现都是半吊的瓶子,问题多多. 常见的生僻字,或多音字识别,转换后简直让人感觉可怕. 主流的转换有三种:hash匹配,Npinyin,微软PinYi ...
ASP.NET -- 获取浏览器信息
1. 获取浏览器信息 private void GetBrowserInfo() { StringBuilder sb = new StringBuilder(); sb.AppendLine(str ...
dos窗口运行java文件需要jar依赖
执行java文件时候,有些里面依赖了java之外的jar,这是识别不到的,运行java命令的时候,带上jar路径: java -cp .;jar路径(加上jar名字) java文件名例:java ...
大数据处理框架之Strom：事务
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 storm-0.9 apache-flume-1.6.0 ...
连续bezier曲线的实现
需求场景一系列的坐标点,划出一条平滑的曲线 3次Bezier曲线基本上大部分绘图工具都实现了3次Bezier曲线,4个点确定一条3次Bezier曲线.以html5中的canvas为例 let ct ...
kali linux之手动漏洞挖掘三（sql注入）
服务器端程序将用户输入作为参数作为查询条件,直接拼写sql语句,并将结果返回给客户端浏览器如判断登录 select * from users where user='uname' and passw ...
python3使用newspaper快速抓取任何新闻文章正文
newspaper用于爬取各式各样的新闻网站 1,安装newspaper pip install newspaper3k 2,直接上代码 from newspaper import Article u ...

使用urllib和http.cookiejar获取python老男孩学员成绩

使用urllib和http.cookiejar获取python老男孩学员成绩的更多相关文章

随机推荐

热门专题