广州商学院Python正方教务系统爬虫(获取个人信息成绩课表修改密码)

使用python的requests库简单爬取,使用xpath解析内容

可以获取个人信息、个人照片、成绩单和课表

github地址：https://github.com/PythonerKK/GZCC-Spider

首先使用浏览器开发者调试工具找到登录页面的准确地址：http://jwxw.gzcc.cn/default2.aspx

然后找到验证码的地址：http://jwxw.gzcc.cn/CheckCode.aspx

将验证码保存让用户输入即可

登录时发送POST请求，需要注意要提交一个叫__VIEWSTATE的字段，并且要携带cookies

发送POST后，如果登录成功则返回用户页面，判断即可

__VIEWSTATE=re.compile('name="__VIEWSTATE" value="(.*?)"').findall(data.text)[0]

resource=requests.post(login_url,data=post_data,cookies=cookies,headers=headers).text

    if '活动报名' in resource:

        print('登录成功！')

        dom_tree=etree.HTML(resource)

        name=dom_tree.xpath('//span[@id="xhxm"]/text()')

        name=name[0]

        print('欢迎回来 '+name)

        return (cookies,name.split('同')[0])

    else:

        print('登录失败！')

        exit(0)

登录成功，输出：xxx同学，你好！

接下来需要获取个人信息、个人照片、成绩单

原理同上，注意携带cookies，成绩页面获取还需要携带__VIEWSTATE字段

效果如下：

全部代码：

# -*- coding: utf-8 -*-

"""

    :author: KK

    :url: http://github.com/PythonerKK

    :copyright: © 2018 KK <705555262@qq.com.com>

    :license: MIT, see LICENSE for more details.

"""

import requests

import re

from lxml import etree

from urllib.request import quote

import csv

def login(username,password):

    '''

    登录方正教务系统（广州商学院）

    :param username: 学号

    :param password: 密码

    :return: tuple(cookies,name) 返回一个元组

    '''

    headers = {

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

    }

    login_url = 'http://jwxw.gzcc.cn/default2.aspx'

    checkcode_url = 'http://jwxw.gzcc.cn/CheckCode.aspx'

    data=requests.get(login_url)

    __VIEWSTATE=re.compile('name="__VIEWSTATE" value="(.*?)"').findall(data.text)[0]

    cookies=data.cookies

    checkcode=requests.get(checkcode_url,cookies=cookies,headers=headers)

    with open('checkcode.jpg','wb') as f:

        f.write(checkcode.content)

    code=input('请输入验证码：')

    while '-' in code:

        checkcode = requests.get(checkcode_url, cookies=cookies, headers=headers)

        with open('checkcode.jpg', 'wb') as f:

            f.write(checkcode.content)

        code = input('请重新输入验证码：')

    post_data={

        '__VIEWSTATE':__VIEWSTATE,

        'txtUserName':username,

        'Textbox1':'',

        'TextBox2':password,

        'txtSecretCode':code,

        'RadioButtonList1':'%D1%A7%C9%FA',

        'Button1':'',

        'lbLanguage':'',

        'hidPdrs':'',

        'hidsc':'',

    }

    resource=requests.post(login_url,data=post_data,cookies=cookies,headers=headers).text

    if '活动报名' in resource:

        print('登录成功！')

        dom_tree=etree.HTML(resource)

        name=dom_tree.xpath('//span[@id="xhxm"]/text()')

        name=name[0]

        print('欢迎回来 '+name)

        return (cookies,name.split('同')[0])

    else:

        print('登录失败！')

        exit(0)

def get_information(cookies,username,name):

    '''

    获取个人信息，并导出照片

    :param cookies: cookies

    :param username: 学号

    :param name: 姓名

    :return: None

    '''

    #获取用户个人信息

    headers={

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

        'Referer':'http://jwxw.gzcc.cn/xs_main.aspx?xh='+username

    }

    information_url='http://jwxw.gzcc.cn/xsgrxx.aspx?xh='+username+'&xm='+name+'&gnmkdm=N121501'

    data=requests.get(information_url,cookies=cookies,headers=headers)

    dom_tree=etree.HTML(data.text)

    sex=dom_tree.xpath('//span[@id="lbl_xb"]/text()')[0]

    born=dom_tree.xpath('//span[@id="lbl_csrq"]/text()')[0]

    id=dom_tree.xpath('//span[@id="lbl_sfzh"]/text()')[0]

    race=dom_tree.xpath('//span[@id="lbl_mz"]/text()')[0]

    polity=dom_tree.xpath('//span[@id="lbl_zzmm"]/text()')[0]

    academic=dom_tree.xpath('//span[@id="lbl_xy"]/text()')[0]

    xi=dom_tree.xpath('//span[@id="lbl_xi"]/text()')[0]

    major=dom_tree.xpath('//span[@id="lbl_zymc"]/text()')[0]

    c=dom_tree.xpath('//span[@id="lbl_pyfx"]/text()')[0]

    edu=dom_tree.xpath('//span[@id="lbl_CC"]/text()')[0]

    phone=dom_tree.xpath('//input[@name="TELNUMBER"]/@value')[0]

    school=dom_tree.xpath('//input[@name="byzx"]/@value')[0]

    dorm=dom_tree.xpath('//input[@name="ssh"]/@value')[0]

    email=dom_tree.xpath('//input[@name="dzyxdz"]/@value')[0]

    loc_code=dom_tree.xpath('//input[@name="yzbm"]/@value')[0]

    #获取用户照片

    headers_image={

        'Accept':'image/webp,image/apng,image/*,*/*;q=0.8',

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

        'Referer':'http://jwxw.gzcc.cn/xsgrxx.aspx?xh='+username+'&xm='+quote(name)+'&gnmkdm=N121501',

    }

    image_url=re.compile('img id="xszp" src="(.*?)"').findall(data.text)

    image_url='http://jwxw.gzcc.cn/'+image_url[0]

    image_url=image_url.replace('amp;','')

    image_data=requests.get(image_url,headers=headers_image,cookies=cookies)

    with open('photo.png', 'wb') as f:

        f.write(image_data.content)

        print('照片导出成功！')

    from docx import Document

    from docx.shared import Inches

    document = Document()

    document.styles['Normal'].font.name = u'黑体'

    document.add_heading(name+'的个人信息',0)

    pic = document.add_picture('photo.png', width=Inches(1.5))

    document.add_paragraph('个人资料')

    document.add_paragraph('姓名：'+name)

    document.add_paragraph('性别：' + sex)

    document.add_paragraph('出生：' + born)

    document.add_paragraph('身份证号：' + id)

    document.add_paragraph('种族：' + race)

    document.add_paragraph('政治面貌：' + polity)

    document.add_paragraph('系部：' + xi)

    document.add_paragraph('学院：' + academic)

    document.add_paragraph('专业：' + major)

    document.add_paragraph('班级：' + c)

    document.add_paragraph('学历：' + edu)

    document.add_paragraph('手机号：' + phone)

    document.add_paragraph('毕业高中：' + school)

    document.add_paragraph('宿舍号：' + dorm)

    document.add_paragraph('邮箱号：' + email)

    document.add_paragraph('邮编：' + loc_code)

    document.save(username+'个人信息.docx')

    print('个人资料导出成功！')

def get_curriculum(cookies,username,name):

    '''

    获取学生当前课表

    :param cookies:cookies

    :param username: 学号

    :param name: 姓名

    :return: None

    '''

    headers={

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

        'Referer':'http://jwxw.gzcc.cn/xs_main.aspx?xh='+username

    }

    curriculum_url='http://jwxw.gzcc.cn/xskbcx.aspx?xh='+username+'&xm='+password+'&gnmkdm=N121603'

    data=requests.get(curriculum_url,cookies=cookies,headers=headers)

    # import lxml

    # dom_tree=etree.HTML(data.text)

    # curriculum=dom_tree.xpath('//table[@id="Table1"]')

    print(data.text)

def get_score(cookies,username,name):

    '''

    获取所有考试成绩，并导出csv

    :param cookies: cookies

    :param username: 学号

    :param name: 姓名

    :return: Boolean

    '''

    headers={

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

        'Referer':'http://jwxw.gzcc.cn/xs_main.aspx?xh='+username

    }

    first_url='http://jwxw.gzcc.cn/xscjcx.aspx?xh='+username+'&xm='+name+'&gnmkdm=N121605'

    data=requests.get(first_url,cookies=cookies,headers=headers)

    viewstate=re.compile('name="__VIEWSTATE" value="(.*?)"').findall(data.text)

    viewstate=viewstate[0]

    headers={

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

        'Referer':'http://jwxw.gzcc.cn/xscjcx.aspx?xh='+username+'&xm='+quote(name)+'&gnmkdm=N121605'

    }

    print(headers)

    score_url='http://jwxw.gzcc.cn/xscjcx.aspx?xh='+username+'&xm='+name+'&gnmkdm=N121605'

    post_data={

        '__EVENTTARGET':'',

        '__EVENTARGUMENT':'',

        '__VIEWSTATE':viewstate,

        'hidLanguage':'',

        'ddlXN':'',

        'ddlXQ':'',

        'ddl_kcxz':'',

        'btn_zcj':'%C0%FA%C4%EA%B3%C9%BC%A8'

    }

    scores=requests.post(score_url,cookies=cookies,headers=headers,data=post_data)

    all=re.compile('<td>(.*?)</td><td>(\d+)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td></td><td></td>').findall(scores.text)

    for i in all:

        with open('score.csv', 'a', newline='') as f:

            try:

                csv_out=csv.writer(f,dialect='excel')

                csv_out.writerow([i[0],i[1],i[2],i[3],i[4],i[5].replace('&nbsp;',''),i[6],i[7],i[8],i[9].replace('&nbsp;',''),i[10].replace('&nbsp;',''),i[11].replace('&nbsp;',''),i[12].replace('&nbsp;','')])

            except Exception:

                print('导出失败！')

                return False

    print('成绩导出成功！')

    return True

def change_password(cookies,username,password,password1,password2):

    '''

    修改密码

    :param cookies: cookies

    :param username: 学号

    :param password: 原密码

    :param password1: 新密码

    :param password2: 再次输入新密码

    :return: None

    '''

    url='http://jwxw.gzcc.cn/mmxg.aspx?xh='+username+'&gnmkdm=N121502'

    headers={

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

        'Referer':'http://jwxw.gzcc.cn/xs_main.aspx?xh='+username

    }

    data=requests.get(url,headers=headers,cookies=cookies)

    viewstate=re.compile('name="__VIEWSTATE" value="(.*?)"').findall(data.text)

    viewstate=viewstate[0]

    postdata={

        'Button1':'%D0%DE++%B8%C4',

        '__VIEWSTATE':viewstate,

        'TextBox2':password,

        'TextBox3':password1,

        'Textbox4':password2,

    }

    data=requests.post(url,data=postdata,cookies=cookies,headers=headers)

    print('密码修改成功！')

if __name__ == '__main__':

    print('广州商学院正方教务系统登录')

    username=input('请输入学号:')

    password=input('请输入密码:')

    cookies,name=login(username,password)

    #get_information(cookies,username,name)

    #get_curriculum(cookies,username,name)

    #get_score(cookies,username,name)

    #change_password(cookies,username,password,password1=password,password2=password)

广州商学院Python正方教务系统爬虫(获取个人信息成绩课表修改密码)的更多相关文章

HttpClient+Jsoup模拟登陆贺州学院教务系统，获取学生个人信息
前言注:可能学校的教务系统已经做了升级,当前的程序不知道还能不能成功获取信息,加上已经毕业,我的账户已经被注销,试不了,在这里做下思路跟过程的记录. 在我的毕业设计中”基于SSM框架贺州学院校园二手 ...
JavaScript之正方教务系统自动化教评[插件-转载]
[声明]本插件系学院学长原创,非博主所创,发布此处,仅供学习和效仿. /** * @name:正方教务系统自动化教评-插件 * * @author:chenzhongshu * @date:2017- ...
以正方教务系统为例，用php模拟登陆抓取课表、空教室
课程格子和超级课程表这两个应用,想必大学生都很熟悉,使用自己的学号和教务系统的密码,就可以将自己的课表导入,随时随地都可以在手机上查看. 其实稍微了解一点php的话,我们也可以做一个类似这样的web ...
大学生可用来接单，利用Python实现教务系统扩容抢课！
最近一学期一次的抢课大戏又来了,几家欢乐几家愁.O(∩_∩)O哈哈~(l我每次一选就过了hah,我还是有欧的时候滴).看着他们盯着教务系统就着急,何况我们那教务系统,不想说什么.emmm 想周围的朋友 ...
课程助理For Windows（预览版，正方教务系统学生查分工具）
其实盖子已经开发了一个功能更强大的版本,但是那个版本依然基于正方系统,也就是说只要正方系统跪了或者张院士在网站上做点手脚,这个小工具就会失效. 今天给大家的版本虽然功能及其简单.界面极端丑陋,但是通过 ...
python requests模拟登陆正方教务管理系统，并爬取成绩
最近模拟带账号登陆,查看了一些他人的博客,发现正方教务已经更新了,所以只能自己探索了. 登陆: 通过抓包,发现需要提交的值需要值lt,这是个啥,其实他在访问登陆页面时就产生了 session=req ...
Python实现简单的爬虫获取某刀网的更新数据
昨天晚上无聊时,想着练习一下Python所以写了一个小爬虫获取小刀娱乐网里的更新数据 #!/usr/bin/python # coding: utf-8 import urllib.request i ...
HttpURLConnection模拟登录学校的正方教务系统
教务系统登录界面如图1-1 1-1 F12-->network查看登录教务系统需要参数: __VIEWSTAT txtUserName TextBox2 txtSecretCode Radio ...
手把手教你使用Python网络爬虫获取招聘信息
1.前言现在在疫情阶段,想找一份不错的工作变得更为困难,很多人会选择去网上看招聘信息.可是招聘信息有一些是错综复杂的.而且不能把全部的信息全部罗列出来,以外卖的58招聘网站来看,资料整理的不清晰. ...

随机推荐

WebKit的Platform接口部分
转载请注明出处:http://www.cnblogs.com/fangkm/p/3787977.html WebKit中解析.渲染网页的过程中需要一些功能,比如: socket连接.URL资源请求的实 ...
函数表达式（JavaScript高程笔记）
函数声明特点:函数声明提升(执行代码之前解析器会先读取函数声明,并使其在执行任何代码之前可用,意味着可以把函数声明放在调用语句之后) function functionName(arg0,arg1) ...
对象属性键值[key]属性问题
1,obj[key]此时key代表是循环中的一个变量. var obj = {key:3,key1:1,key2:2,key3:3,toSting:4}; for (key in obj) { con ...
PHP如何批量更新MYSQL中的数据
最近项目需要用到批量更新数据库里的数据,在网上找了一下这方面的例子,觉得这个还不错,分享给大家. 在这个业务里里面涉及到了更新两张数据表,那么大家是不是会想到非常简单,马上上代码 $sql ,type ...
HTML5 简单归纳 -- 前端知识（一）
HTML5简介 1.h5不是一个新语言,它是HTML语言第五次重大修改--版本 2. 2014年 h5 3.支持:目前所有的主流浏览器都支持h5,IE8以下不支持 4.特性: a:抛弃了h4中不 ...
phpstudy集成下Apache配置部署https安全证书
一..先申请到安全证书.(腾讯云或者阿里云申请免费1年的安全证书),怎么申请这里也说下(以腾讯云为例): 1.登录腾讯云QQ或微信登录都行,第一次登录要通过实名认证,点击[产品]---[ss证书l] ...
dubbo 图片服务器（FastDFS） redis solr ActiveMQ等简单配置使用
一.dubbo 项目基于soa的架构,表现层和服务层是不同的工程.所以要实现商品列表查询需要两个系统之间进行通信. 1.1如何实现远程通信? 1.Webservice:效率不高基于soap协议.项目中 ...
基于 Web 的 Go 语言 IDE - Wide 1.5.2 发布！
这个版本由热心的开源贡献者加入了韩语支持,欢迎各位 gophers 加入到 Wide 的开源开发中.另外,这个版本还改进了 Playground,使其更稳定和易用.目前黑客派社区已经支持嵌入 Wide ...
Nginx的rewrite(地址重定向)剖析
1.rewrite语法: 指令语法:rewrite regex replacement[flag]; 默认值:none 应用位置:server.location.if rewrite是实现URL重定向 ...
Net Core通用主机项目报错程序不包含适合于入口点的静态Main
Net Core通用主机的介绍: https://docs.microsoft.com/zh-cn/aspnet/core/fundamentals/host/generic-host?view=as ...

广州商学院Python正方教务系统爬虫(获取个人信息成绩课表修改密码)

使用python的requests库简单爬取,使用xpath解析内容

可以获取个人信息、个人照片、成绩单和课表

广州商学院Python正方教务系统爬虫(获取个人信息成绩课表修改密码)的更多相关文章

随机推荐

热门专题