03爬虫爬取hfutxc成绩

 #-*- coding:utf-8 -*-

 # -*- coding: utf-8 -*-

 #encoding:utf-8

 import urllib

 import urllib2

 import cookielib

 import re

 class SDU:

     def __init__(self):

         self.loginUrl = 'http://222.195.8.201/pass.asp'

         self.gradeUrl = 'http://222.195.8.201/student/asp/Select_Success.asp'

         self.cookies = cookielib.CookieJar()

         self.postdata = urllib.urlencode({

             'UserStyle':'student',

             'user':'',

             'password':'#######'

          })

         self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies))

     def getPage(self):

         request  = urllib2.Request(

             url = self.loginUrl,

             data = self.postdata)

         result = self.opener.open(request)

         result = self.opener.open(self.gradeUrl)

         return result.read().decode('gbk')

         #打印登录内容

         #print result.read().decode('gbk')

     def getGrades(self):

           #获得本学期成绩页面

           page = self.getPage()

           #正则匹配

           myItems = re.findall('<TR bgcolor.*?<TD>.*?</TD>.*?<TD>(.*?)</TD>.*?<TD align="center">.*?</TD>.*?<TD align="center">(.*?)</TD>.*?</TR>',page,re.S)

           for item in myItems:

               print item[0]+'  '+item[1].strip()+' '

               #self.credit.append(item[0].encode('gbk'))

               #self.grades.append(item[1].encode('gbk'))

           #self.getGrade()

 sdu = SDU()

 sdu.getPage()

 sdu.getGrades()

03爬虫爬取hfutxc成绩的更多相关文章

用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
使用scrapy爬虫,爬取17k小说网的案例-方法一
无意间看到17小说网里面有一些小说小故事,于是决定用爬虫爬取下来自己看着玩,下图这个页面就是要爬取的来源. a 这个页面一共有125个标题,每个标题里面对应一个内容,如下图所示下面直接看最核心spi ...
python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
如何使用robots禁止各大搜索引擎爬虫爬取网站
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来 ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
简单的python爬虫--爬取Taobao淘女郎信息
最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...

随机推荐

linux ssh远程免密码登入
首先登入一台linux服务器,此台做为母机(即登入其他linux系统用这台做为入口):执行一行命令生成key文件:ssh-keygen -t rsa 2 在母机上,进入/roo/.ssh目录,找到id ...
ajax beforeSend 写的显示隐藏代码不执行
ajax如果要写像下方格式 $.ajax({ url: ajaxurl, type: 'POST', dataType: 'json', async:true, data: { }, beforeSe ...
js call() 笔记
var ctrl = function() {}; ctrl.view = function() { return { show: function() { console.log("vie ...
Python入门:求1-2+3-4+5...99的所有数的和
num =1 sum =0 while num <=99: if num % 2 ==1: sum = sum + num num =num +1 print(sum) 2.求1-2+3-4+5 ...
install memcached for ubuntu
Memcached安装 1.先下载安装libevent 安装 libevent# tar zxvf libevent-1.4.9-stable.tar.gz# cd libevent-1.4.9-st ...
CDOJ 1965 连通域统计【DFS】
求连通域个数,简单题 #include <bits/stdc++.h> using namespace std; const int INF = 0x3f3f3f3f; typedef l ...
JSP基础知识➣客户端请求与服务端响应（三）
JSP客户端请求浏览器请求服务器端,信息头的一些重要内容,在以后的网络编程中将会经常见到这些信息: Accept:指定浏览器或其他客户端可以处理的MIME类型.它的值通常为 image/png 或 ...
python全栈开发day87~91-整个流程梳理、CRM功能、知识点梳理
1.流程 1. stark组件 1. 启动 2.注册 3.url设计 4.视图函数设计 1.展示数据头 2.展示数据 3.list_display功能实现 4.list_display_links 功 ...
python全栈开发day82-modelForm
1.jsonp内容 from django.shortcuts import render # Create your views here. def upload(request): if requ ...
根据关键字找进程id
#!/usr/bin/pythonimport subprocessimport sysimport loggingimport os gameproc = "jd_5.py" d ...

03爬虫 爬取hfutxc成绩

03爬虫 爬取hfutxc成绩的更多相关文章

随机推荐

热门专题

03爬虫爬取hfutxc成绩

03爬虫爬取hfutxc成绩的更多相关文章