使用urllib和http.cookiejar获取python老男孩学员成绩

打开http://crm.oldboyedu.com/crm/grade/single/ 鼠标右键查看源代码，可以看到我们需要post的name。如下：

这里需要在post试提交token和search_str的值，这里的token应该使用时效性的。可以一次获取，短时间内多次使用。

在没有使用cookie时提交数据报错：

这里需要加上cookie本地存储。

具体代码如下：

#!/usr/bin/env python3

__author__ = 'DSOWASP'

#encoding:UTF-8

import urllib

import urllib.parse

import http.cookiejar

import urllib.request

import prettytable

import collections

# urllib.request.urlopen(url) 返回 http.client.HTTPResponse 对象

# 设置一个cookie处理器，它负责从服务器下载cookie到本地，并且在发送请求时带上本地的cookie

cj = http.cookiejar.LWPCookieJar()

cookies_support = urllib.request.HTTPCookieProcessor(cj)

opener = urllib.request.build_opener(cookies_support,urllib.request.HTTPHandler)

urllib.request.install_opener(opener)

# get

#打开登录主页面（他的目的是从页面下载cookie，这样我们在再送post数据时就有cookie了，否则发送不成功）

# 获取网站内容

url = "http://crm.oldboyedu.com/crm/grade/single/"

h = urllib.request.urlopen(url)

# 获取csrfmiddlewaretoken

data = h.read().decode('UTF-8')

for i in data.split('\n'):

    # <form class="col-xs-12 col-sm-10 col-sm-offset-1" method="post" action="/crm/grade/single/"><input type='hidden' name='csrfmiddlewaretoken' value='QKNMJKS49GvbVBdBzADwFT2HuHxIUUcP' />

    if "csrfmiddlewaretoken" in i:

        i = i.strip().split('value')

        m = i[1].split('\'')

        token = m[1]

#构造header，一般header至少要包含一下两项。这两项是从抓到的包里分析得出的。

# header_dict={'User-Agent':\

#            'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko'}

# qq列表,为了隐私，这里已将qq号删除

qq_list = [

'xxxxx','yyyyy',...

]

# 学号列表

xuehao_list = [

 '1','2','3','4','5',

'6','7','8','9','10','11','13','14','15',

'16','17','18','19','20','21','22','23',

'24','25','26','27','28','29','30','31',

'32','33','34','35','36','37','38','39'

]

chengji_list = collections.OrderedDict()

#构造Post数据，他也是从抓大的包里分析得出的。

for qq in qq_list:

    post = {}

    post['search_str'] = qq

    post['csrfmiddlewaretoken'] = token

    # 成绩列表默认为空

    chengji_list[qq] = []

    #需要给Post数据编码

    post_data = urllib.parse.urlencode(post).encode(encoding="utf-8")

    # post

    # req = urllib.request.Request(url,data=post_data,headers=header_dict)

    req = urllib.request.Request(url,data=post_data)

    data2 = urllib.request.urlopen(req)

    # print(type(data2)) # <class 'http.client.HTTPResponse'>

    data = data2.read()

    data = data.decode('UTF-8')

    data = data.split('\n')

    # p_chegnji 如果遇到'<td>'则为True，下一行则就成绩。

    p_chengji = False

    for i in data:

        i = i.strip()

        if len(i) != 0:

            if p_chengji == True:

                chengji_list[qq].append(i)

                p_chengji = False

            # 获取成绩的的代码需要根据实际网页放回的源码而定。可以右键查看源代码来分析一种较好的方法获取到想要的值。

            if '<td>' == i:

                p_chengji = True

# 上课天数或网页上已展示的成绩列数

l = len(chengji_list[qq_list[0]])

# 打印模块头部

PrettyTlist = ['学号','QQ']

# 根据已展示的天数来扩充打印模块头部

for i in range(l):

    i = i + 1

    PrettyTlist.append('Day%d'%i)

# 添加打印模块头部'总分'

PrettyTlist.append('总分')

# 实例化打印头部

a = prettytable.PrettyTable(PrettyTlist)

# 总成绩列表，qq:总成绩

sumc_chengji_list = {}

for xueyuan,grade in chengji_list.items():

    if grade != []:

        sumc = 0

        for i in grade:

            if i == 'A+':

                sumc += 100

            elif i == 'A':

                sumc += 90

            elif i == 'B+':

                sumc += 85

            elif i == 'B':

                sumc += 80

            elif i == 'B-':

                sumc += 70

            elif i == 'C+':

                sumc += 60

            elif i == 'C':

                sumc += 50

            elif i == 'C-':

                sumc += 40

            else:

                sumc += 0

    else:

        # 如果查不到学员的成绩

        sumc = 0

        for i in range(l):

            chengji_list[xueyuan].append('N/A')

    chengji_list[xueyuan].append(sumc)

    sumc_chengji_list[xueyuan]=sumc

# [(qq,总成绩),()]

# sorted,把items()的值给lamdba,asd[0] 为qq号，asd[1]为总成绩，key表示排序的列，resverse 为True表示降序

# sorted(dic,value,reverse)

# dic为比较函数，value 为排序的对象（这里指键或键值），

# reverse：注明升序还是降序，True--降序，False--升序（默认）

sort_chengji_list = sorted(sumc_chengji_list.items(),key = lambda asd:asd[1],reverse = True)

# 生成打印列表

for xueyuan,grade in sort_chengji_list:

    add_row = [xuehao_list[qq_list.index(xueyuan)],xueyuan]

    for i in chengji_list[xueyuan]:

        add_row.append(i)

    a.add_row(add_row)

print(a)

输出结果：

使用urllib和http.cookiejar获取python老男孩学员成绩的更多相关文章

urllib的实现---timeout,获取http响应码，重定向，proxy的设置
1.Timeout设置超时只能修改Socket设置全局Timeout #! /usr/bin/env python3 import socket import urllib.request # ti ...
php使用CURL不依赖COOKIEJAR获取COOKIE的方法
本文实例讲述了php使用CURL不依赖COOKIEJAR获取COOKIE的方法.分享给大家供大家参考.具体分析如下: PHP中CURL类是一个非常牛逼的工具类,具体怎么牛逼就不啰嗦了. 对于COOKI ...
获取python的版本
import sys # Syntax sugar. _ver = sys.version_info # 获取python版本 #: Python 2.x? is_py2 = (_ver[0] == ...
python作业学员管理系统(第十二周)
作业需求: 用户角色,讲师＼学员, 用户登陆后根据角色不同,能做的事情不同,分别如下讲师视图管理班级,可创建班级,根据学员qq号把学员加入班级可创建指定班级的上课纪录,注意一节上课纪录对应多条学 ...
Day_11【集合】扩展案例1_遍历打印学生信息，获取学生成绩的最高分，获取成绩最高的学员，获取学生成绩的平均值，获取不及格的学员数量
分析以下需求,并用代码实现: 1.按照以下描述完成类的定义学生类属性: 姓名name 年龄age 成绩score 行为: 吃饭eat() study(String content)(content ...
智联招聘获取python岗位的数据
import requests from lxml import html import time import pandas as pd from sqlalchemy import create_ ...
b站滑动验证码图片的获取-python
本文仅是获取验证码图片,python+selenium实现图片的处理,算出偏移位置网上都有现成的:而由于b站的更新,图片的获取则与之前完全不同,不能直接从html中拿到过程比较曲折所以记录一下,可 ...
获取Python安装目录
>>> import sys>>> path=sys.executable>>> print (path)C:\Users\jumz-G\AppD ...

随机推荐

检查Windows上安装的.net版本
cmd reg query "HKLM\Software\Microsoft\NET Framework Setup\NDP" /s /v version | findstr /i ...
C#backgroundWorker
private void button1_Click(object sender, EventArgs e) { backgroundWorker1.RunWorkerAsync(); } priva ...
Windows系统版本判定那些事儿[转]
Windows系统版本判定那些事儿转自CSDN,原文链接,我比较不要脸, 全部给复制过来了前言本文并不是讨论Windows操作系统的版本来历和特点,也不是讨论为什么没有Win9,而是从程序员角度 ...
linux下利用httpd搭建tomcat集群，实现负载均衡
公司使用运营管理平台是单点tomcat,使用量大,或者导出较大的运营数据时,会造成平台不可用,现在需要搭建tomcat集群,调研后,决定使用apache的httpd来搭建tomcat集群.以下是搭建步 ...
java并发编程（更新）
概念理解:①串行程序②并发程序: 线程安全问题: 同一进程中的所有线程共享进程中的内存地址空间.如果没有明确的同步机制来管理共享数据,那么当一个线程正在使用某个变量时,另一个线程可能同时访问这个变量, ...
题解 P2863 【[USACO06JAN]牛的舞会The Cow Prom】
题目链接赤裸裸的板子,就加一个特判就行.直接上代码 #include<stdio.h> #include<algorithm> #include<iostream> ...
基于Solr的多表join查询加速方法
前言 DT时代对平台或商家来说最有价值的就是数据了,在大数据时代数据呈现出数据量大,数据的维度多的特点,用户会使用多维度随意组合条件快速召回数据.数据处理业务场景需要实时性,需要能够快速精准的获得到需 ...
VS2017+DLib_19.17详细配置教程
最近学校布置了一个关于图像融合的作业,于是想利用Learn OpenCV 网站上的Face Morph 教程来设计一个人脸融合的Gif图,但是程序中需要用到DLib库,光是配置这个库就花费了我半天 ...
requests库和urllib包对比
python中有多种库可以用来处理http请求,比如python的原生库:urllib包.requests类库.urllib和urllib2是相互独立的模块,python3.0以上把urllib和ur ...
《Andrew Ng深度学习》笔记1
深度学习概论 1.什么是神经网络? 2.用神经网络来监督学习 3.为什么神经网络会火起来? 1.什么是神经网络? 深度学习指的是训练神经网络.通俗的话,就是通过对数据的分析与计算发现自变量与因变量的映 ...

使用urllib和http.cookiejar获取python老男孩学员成绩

使用urllib和http.cookiejar获取python老男孩学员成绩的更多相关文章

随机推荐

热门专题