03爬虫爬取hfutxc成绩

 #-*- coding:utf-8 -*-

 # -*- coding: utf-8 -*-

 #encoding:utf-8

 import urllib

 import urllib2

 import cookielib

 import re

 class SDU:

     def __init__(self):

         self.loginUrl = 'http://222.195.8.201/pass.asp'

         self.gradeUrl = 'http://222.195.8.201/student/asp/Select_Success.asp'

         self.cookies = cookielib.CookieJar()

         self.postdata = urllib.urlencode({

             'UserStyle':'student',

             'user':'',

             'password':'#######'

          })

         self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies))

     def getPage(self):

         request  = urllib2.Request(

             url = self.loginUrl,

             data = self.postdata)

         result = self.opener.open(request)

         result = self.opener.open(self.gradeUrl)

         return result.read().decode('gbk')

         #打印登录内容

         #print result.read().decode('gbk')

     def getGrades(self):

           #获得本学期成绩页面

           page = self.getPage()

           #正则匹配

           myItems = re.findall('<TR bgcolor.*?<TD>.*?</TD>.*?<TD>(.*?)</TD>.*?<TD align="center">.*?</TD>.*?<TD align="center">(.*?)</TD>.*?</TR>',page,re.S)

           for item in myItems:

               print item[0]+'  '+item[1].strip()+' '

               #self.credit.append(item[0].encode('gbk'))

               #self.grades.append(item[1].encode('gbk'))

           #self.getGrade()

 sdu = SDU()

 sdu.getPage()

 sdu.getGrades()

03爬虫爬取hfutxc成绩的更多相关文章

用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
使用scrapy爬虫,爬取17k小说网的案例-方法一
无意间看到17小说网里面有一些小说小故事,于是决定用爬虫爬取下来自己看着玩,下图这个页面就是要爬取的来源. a 这个页面一共有125个标题,每个标题里面对应一个内容,如下图所示下面直接看最核心spi ...
python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
如何使用robots禁止各大搜索引擎爬虫爬取网站
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来 ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
简单的python爬虫--爬取Taobao淘女郎信息
最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...

随机推荐

数据库解析IP，时间戳
#解析IP SELECT INET_NTOA('168494269'); #解析时间戳 SELECT FROM_UNIXTIME('1505458308');
NPOI操作Excel(一)--NPOI基础
用C#读取Excel的方法有很多中,由于近期工作需要,需要解析的Excel含有合并单元格以及背景色等特殊要求,故在网上查了一些关于读Excel的方法的优缺点,觉得NPOI能满足我的需要,所以搜索了一些 ...
饮冰三年-人工智能-Python-11之HelloWorld
1:安装不在介绍,下载软件下一步即可,配置环境变量(Python37会默认配置环境变量的) D:\Programs\Python\Python37\Scripts\;D:\Programs\Pytho ...
python多线程爬取-今日头条的街拍数据（附源码加思路注释）
这里用的是json+re+requests+beautifulsoup+多线程 1 import json import re from multiprocessing.pool import Poo ...
ubuntu 手动更新源以及使用sudo update与upgrade的作用及区别
一.今天更新一下我的ubuntu系统,用了几个源发现不怎么好用上网查了一下发现有说阿里云的源挺好用然后我试了一下下载速度还挺快,下面分享一下怎么手动添加源列表 1.最好先做一下备份 sudo c ...
linux服务器上简单命令
linux命令 1.ifconfig 查看设置ip: 2.连接另一台linux 命令 ssh; 3.查看尾部新追加内容 tail -f; 4.ln -s 原命令新命令路径: 5.创建一个空文件 ...
Project 2013 安装找不到office.zh cn的解决办法
先按照百度的办法,去“C:\Users\<你的电脑名>\AppData\Local\Temp\”下找类似“OWPFD24.tmp”的文件夹,结果发现并没有这个文件夹 , 没办法,自己硬着头 ...
cuda by example【读书笔记1】
cuda 1. 以前用OpenGL和DirectX API简介操作GPU,必须了解图形学的知识,直接操作GPU要考虑并发,原子操作等等,cuda架构为此专门设计.满足浮点运算,用裁剪后的指令集执行通用 ...
__attribute__ ((default)) 和 __attribute__ ((hidden))
制作一个共享库 /* a.h */ int func(); /* a.c */ #include <stdio.h> #include "a.h" int func() ...
ip访问网站和localhost访问网站中top使用
对于相对定位,使用margin-top不用简单使用top. top在localhost中能正常显示,在ip访问时会出现多余空白. margin-top不管是localhost中还是ip中都能正常显示.

03爬虫 爬取hfutxc成绩

03爬虫 爬取hfutxc成绩的更多相关文章

随机推荐

热门专题

03爬虫爬取hfutxc成绩

03爬虫爬取hfutxc成绩的更多相关文章