用Python实现一个爬取XX大学电费通知的小脚本

内容简要

　　　1分析网站

　　　2简单爬取

　　　3进阶自定义爬取

　　　4保存进数据库

学校基础设施太差，宿舍电量过低提醒虽然贴在楼下，但是作为低头一族，经常忘记看提醒导致宿舍酣战时突然黑屏，为了避免这种尴尬的场景以及强化PY学习，我决定制作一个简单的爬虫。

首先我通过学校的微信公众号找到了一个十分隐蔽的查低电量提醒网站。它的界面是这样的：

手机适应的页面当然在电脑上会有一些崩=。=，但是不要介意，我们要的是功能。下面是查询到的界面

虽然看起来low而且经常不更新，但是它至少能用。于是我决定用它来制作低电量提醒查询脚本。审查元素，我们可以发现

<form action="/houqin/store/findone.action" method="post" enctype="multipart/form-data" id="form22">

                      <input type="hidden" name="kindId" value="9">

      <div>

          <table style="width:100%;border-collapse:collapse;height:70px;border-collapse:collapse;">

              <tbody><tr>

                   <td style="width:30%;">

                       <table style="width:100%;border-collapse:collapse;">

                           <tbody><tr style="width:100%;height:50px;">

                               <td style="padding-left:3px;">

                                   <font face="宋体" color="#4682B4" size="3"><strong>&nbsp;&nbsp;宿舍区域</strong></font>

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                           <tr style="width:100%;height:50px;">

                               <td style="padding-left:3px;">

                                   <font face="宋体" color="#4682B4" size="3"><strong>&nbsp;&nbsp;楼号</strong></font>

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                           <tr style="width:100%;height:50px;">

                               <td style="padding-left:3px;">

                                   <font face="宋体" color="#4682B4" size="3"><strong>&nbsp;&nbsp;宿舍号</strong></font>

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                           <tr style="width:100%;height:50px;">

                               <td style="padding-left:3px;">

                                   <font face="宋体" color="#4682B4" size="3"><strong>&nbsp;&nbsp;截止时间</strong></font>

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                           <tr style="width:100%;height:50px;">

                               <td style="padding-left:3px;">

                                   <font face="宋体" color="#4682B4" size="3"><strong>&nbsp;&nbsp;剩余电量</strong></font>

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                           <tr style="width:100%;height:50px;">

                               <td style="padding-left:3px;">

                                   <font face="宋体" color="#4682B4" size="3"><strong>&nbsp;&nbsp;</strong></font>

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                       </tbody></table>

                   </td>

                   <td style="width:70%;">

                       <table style="width:100%;border-collapse:collapse;" id="taet"> 

                           <tbody><tr style="width:100%;height:50px;">

                               <td>

                                   <input type="text" name="search.text0" id="text0" value="" style="border: 2 solid #FAF0E6; width:80%;height:40px;font-size: 17px;font-weight: 800;color:#4682B4">

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                           <tr style="width:100%;height:50px;">

                               <td>

                                   <input type="text" name="search.text1" id="text1" value="" style="border: 2 solid #FAF0E6; width:80%;height:40px;font-size: 17px;font-weight: 800;color:#4682B4">

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                           <tr style="width:100%;height:50px;">

                               <td>

                                   <input type="text" name="search.text2" id="text2" value="" style="border: 2 solid #FAF0E6; width:80%;height:40px;font-size: 17px;font-weight: 800;color:#4682B4">

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                           <tr style="width:100%;height:50px;">

                               <td>

                                   <input type="text" name="search.text3" id="text3" value="" style="border: 2 solid #FAF0E6; width:80%;height:40px;font-size: 17px;font-weight: 800;color:#4682B4">

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                           <tr style="width:100%;height:50px;">

                               <td>

                                   <input type="text" name="search.text4" id="text4" value="" style="border: 2 solid #FAF0E6; width:80%;height:40px;font-size: 17px;font-weight: 800;color:#4682B4">

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                           <tr style="width:100%;height:50px;">

                               <td>

                                   <input type="text" name="search.text5" id="text5" value="" style="border: 2 solid #FAF0E6; width:80%;height:40px;font-size: 17px;font-weight: 800;color:#4682B4">

                               </td>

                           </tr>

                           <tr style="height:20px;"></tr>

                       </tbody></table>

                   </td>

               </tr>

               <tr style="height:40px;"></tr>

               <tr style="width:100%;height:70px;background:#FFFFFF;">

                   <td colspan="2" align="center">

                   <input type="button" onclick="subhdhp();" value="提交" style="width:80%;height:40px;background:#4682B4;color:#FFFFFF; font-size:17px;font-weight:900; border: 0px;">

                   </td>

               </tr>

          </tbody></table>

      </div>

  <br>

  <br><br>

</form>

完整表单信息

简化重要的部分，可以看出，这个表单有用的信息有如下代码：

<form action="/houqin/store/findone.action" method="post" enctype="multipart/form-data" id="form22">

  <input type="hidden" name="kindId" value="9">

    <div>

              <table >

            <tbody>

                                    <tr>

                                 <td >

              <table  id="taet">

                            <tbody><tr >

                                <td>

                                    <input type="text" name="search.text0" id="text0" value="">

                                </td>

                            </tr>

                            <tr>

                                <td>

                                    <input type="text" name="search.text1" id="text1" value="">

                                </td>

                            </tr>

                            <tr >

                                <td>

                                    <input type="text" name="search.text2" id="text2" value="">

                                </td>

                            </tr>

                            <tr>

                                <td>

                                    <input type="text" name="search.text3" id="text3" value="">

                                </td>

                            </tr>

                            <tr>

                               <td>

                                    <input type="text" name="search.text4" id="text4" value="">

                               </td>

                            </tr>

                            <tr></tr>

                            <tr>

                                <td>

                                    <input type="text" name="search.text5" id="text5" value="">

                                </td>

                            </tr>

                        </tbody></table>

                    </td>

                </tr>

                <tr>

                    <td colspan="2" align="center">

                   <input type="button" onclick="subhdhp();" value="提交">

                    </td>

                </tr>

           </tbody></table>

       </div></form>

简化版HTML

提取完以后感觉难度就降低了不少。但是只用填前3个空就能查询到。我觉得后几个空可能会设定一些防止爬取的障碍，我使用审查元素中自带的查询network功能看了一下。在一个post方法中我找到了如下数据：

------WebKitFormBoundaryOJwEBCeqt5bb9jEZ

Content-Disposition: form-data; name="kindId"

9

------WebKitFormBoundaryOJwEBCeqt5bb9jEZ

Content-Disposition: form-data; name="search.text0"

北区

------WebKitFormBoundaryOJwEBCeqt5bb9jEZ

Content-Disposition: form-data; name="search.text1"

3

------WebKitFormBoundaryOJwEBCeqt5bb9jEZ

Content-Disposition: form-data; name="search.text2"

537

------WebKitFormBoundaryOJwEBCeqt5bb9jEZ

Content-Disposition: form-data; name="search.text3"

------WebKitFormBoundaryOJwEBCeqt5bb9jEZ

Content-Disposition: form-data; name="search.text4"

------WebKitFormBoundaryOJwEBCeqt5bb9jEZ

Content-Disposition: form-data; name="search.text5"

------WebKitFormBoundaryOJwEBCeqt5bb9jEZ--

Post 数据

这跟我之前见到的post格式不同，上网查了一下，这是一种叫做multipart/form-data格式的post，它能把post信息以二进制形式发送过去，所以还能用来传送文件。做个小脚本还能学到这样的新知识。阅历+1.

根据它的基本信息。我写了如下的代码来post并抓取得到的网页全内容

# -*- coding: utf-8 -*-

import urllib2

import urllib

url='http://hqsz.ouc.edu.cn/houqin/store/findone.action'

boundary='---------------------------12174501422663' #分隔符

data = []

data.append('--'+boundary)

data.append('Content-Disposition: form-data; name="kindId" ')

data.append('')

data.append('9 ' )

data.append('--'+boundary)

data.append('Content-Disposition: form-data; name="search.text0" ')

data.append('')

data.append('北区 ')

data.append('--'+boundary)

data.append('Content-Disposition: form-data; name="search.text1" ')

data.append('')

data.append('3 ')

data.append('--'+boundary)

data.append('Content-Disposition: form-data; name="search.text2" ')

data.append('')

data.append('537 ')

data.append('--'+boundary)

data.append('Content-Disposition: form-data; name="search.text3" ')

data.append('')

data.append('')

data.append('--'+boundary)

data.append('Content-Disposition: form-data; name="search.text4" ')

data.append('')

data.append('')

data.append('--'+boundary)

data.append('Content-Disposition: form-data; name="search.text5" ')

data.append('')

data.append('')

data.append('--'+boundary+'--')

data.append('')

httpbody='\r\n'.join(data)

print type(httpbody)

content_type='multipart/form-data; boundary=%s' %boundary

print content_type

req = urllib2.Request(url,httpbody)

req.add_header("Accept","text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:46.0) Gecko/20100101 Firefox/46.0")

req.add_header("Referer","http://hqsz.ouc.edu.cn/houqin/store/findmessage.action?kindId=9")

req.add_header("Content-Type", content_type )

req.add_header("Accept-Language","zh-CN,en-US;q=0.7,en;q=0.3")

req.add_header("Accept-Encoding","gzip, deflate")

req.add_header("Connection","keep_alive")

response = urllib2.urlopen(req)

html = response.read()

print html

抓取网页

这段代码分为2个部分，前半部分是表单生成。后半部分是模拟浏览器头，虽然这个网站并不会检测，但是为了学习还是要写这一部分强化记忆。对于表单生成这部分，我得到了如下的公式：对于multipart/form-data这样的信息一般可以用如下格式：

这其中的data.append('')是必加的，图省事省略掉就错了。

这样的代码只能针对一个人的，不能由用户输入，这样感觉很不好，于是我选择加上用户输入。先把以上函数封装成一个函数Search_e(eara,house,room);

之后在py中调用这个函数就行了，代码如下：

# -*- coding: utf-8 -*-

# encoding: utf-8

import urllib2,re

import urllib

def Search_e(eara,house,room):

    #post的目标地址

    url='http://hqsz.ouc.edu.cn/houqin/store/findone.action'

    #设置post的数据

    boundary='---------------------------12174501422663' #分隔符

    data = []

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="kindId"')

    data.append('')

    data.append('' )

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text0"')

    data.append('')

    data.append(eara)

    #查询房间所在区域

    #data.append('北区')

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text1"')

    data.append('')

    #查询房间所在的楼号

    data.append(house)

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text2"')

    data.append('')

    #查询房间的房间号

    data.append(room)

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text3"')

    data.append('')

    data.append('')

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text4"')

    data.append('')

    data.append('')

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text5"')

    data.append('')

    data.append('')

    data.append('--'+boundary+'--')

    data.append('')

    httpbody='\r\n'.join(data)

    #以上部分就是查询信息的表单

    content_type='multipart/form-data; boundary=%s' %boundary

    #print data    #检验表单数据

    req = urllib2.Request(url,httpbody)

    req.add_header("Content-Type", content_type )

    req.add_header("Accept-Language","zh-CN,en-US;q=0.7,en;q=0.3")

    req.add_header("Accept-Encoding","gzip, deflate")

    #req.add_header("Connection","keep_alive")

    response = urllib2.urlopen(req)

    html = response.read()

    unicodePage=html.decode("utf-8")

    pattern=ur"<strong>([\s\S]*?)<\/strong>"

    result=re.findall(pattern,unicodePage,re.S)

    try:

        if(result[11]):

            print u"剩余电量",result[11],u"请及时交电费"

    except:

        print u"电量充足"

eara=raw_input("请输入区域(北区，东区，南区):")

eara=eara.decode('gbk').encode('utf-8')  #将输入的Gbk字符转化为utf-8字符

house=raw_input("请输入楼号(例如1号楼：1):")

room=raw_input("请输入房间号(例如110房间:110):")

Search_e(eara,house,room)

用户自定义友好

光查询还不能满足我，我还想知道最近的用电情况，我决定把他们保存在数据库中进行分析。

于是我更换了如下代码，

# -*- coding: utf-8 -*-

# encoding:utf-8

import urllib2,re

import urllib

import MySQLdb as db

def Search_e(eara,house,room):

    #post的目标地址

    url='http://hqsz.ouc.edu.cn/houqin/store/findone.action'

    #设置post的数据

    boundary='---------------------------12174501422663' #分隔符

    data = []

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="kindId"')

    data.append('')

    data.append('' )

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text0"')

    data.append('')

    #data.append(eara)

    #查询房间所在区域

    data.append('北区')

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text1"')

    data.append('')

    #查询房间所在的楼号

    data.append(house)

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text2"')

    data.append('')

    #查询房间的房间号

    data.append(room)

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text3"')

    data.append('')

    data.append('')

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text4"')

    data.append('')

    data.append('')

    data.append('--'+boundary)

    data.append('Content-Disposition: form-data; name="search.text5"')

    data.append('')

    data.append('')

    data.append('--'+boundary+'--')

    data.append('')

    httpbody='\r\n'.join(data)

    #以上部分就是查询信息的表单

    content_type='multipart/form-data; boundary=%s' %boundary

    #print data    #检验表单数据

    req = urllib2.Request(url,httpbody)

    req.add_header("Content-Type", content_type )

    req.add_header("Accept-Language","zh-CN,en-US;q=0.7,en;q=0.3")

    req.add_header("Accept-Encoding","gzip, deflate")

    #req.add_header("Connection","keep_alive")

    response = urllib2.urlopen(req)

    html = response.read()

    unicodePage=html.decode("utf-8")

    pattern=ur"<strong>([\s\S]*?)<\/strong>"

    result=re.findall(pattern,unicodePage,re.S)

    try:

        return result[11]

    except:

        return '20.0'

connection = db.connect(host='localhost',user='root',passwd='root',db='oucect',port=3306,init_command='set names utf8')

cursor = connection.cursor()

cursor.execute("select * from rooms");

result = cursor.fetchall()

cursor.close()

connection.close()

print result

for item in result:

    aera=item[3]

    house = item[1]

    room = item[2]

    num=Search_e(aera,house,room)

    connection = db.connect(host='localhost',user='root',passwd='root',db='oucect',port=3306,init_command='set names utf8')

    cursor = connection.cursor()

    cursor.execute("update rooms set ect = "+num+" where id="+str(item[0]));

    connection.commit();

    cursor.close();

    connection.close();

保存数据库版本

现在这样就可以保存进数据库了，但是这个网站几乎是7-5天更新一次，我现在还不会计划任务爬取网页进行分析，我要学习的还有很多，现在一个用C#写出来的自动发邮件的小程序已经完成。我相信我就能够一点一点变成大神的。

用Python实现一个爬取XX大学电费通知的小脚本的更多相关文章

python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学目标:爬取最好大学网前50名大学代码如下: import requests from bs4 import Beautiful ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...

随机推荐

5、SQL Server数据库、T-SQL
SQL Server数据库基础一.安装SQL Server数据库 setup.exe->安装->全新SQL Server独立安装或向现有安装添加功能->输入序列号->下一步- ...
js和java MD5加密
项目中用到js MD5加密和后台java MD5加密,刚开始加密后两个不一致,网上找了好久终于找到一个啦,记下来: md5.js /* * A JavaScript implementation of ...
iOS中如何切换到发短信、打电话、发邮件
我们在做APP的时候,难免会遇到需要调用短信,电话等程序的时候.如美团. 当然,这些都只是一些简单的方法就可以实现,但是时间久了也会淡忘,所以想写这边博客.一是为了再捡起来复习一下,另一个相当于留个备 ...
mybatis支持属性使用驼峰的命名
数据库字段,我们一般都用下划线分隔但是Model中的属性,一般用驼峰命名如果需要自动映射,则配置mybatis-config.xml文件 <settings> <setting ...
php开发环境
php一般使用xampp(apache+mysql+php+perl)部署,下载地址https://www.apachefriends.org/zh_cn/index.html.本文不用集成包,搭建P ...
网络存储技术(3) based on zt
各种术语介绍一 ESCON 1991 年,IBM公司在S/390服务器中推出了ESCON(Enterprise System Connection)技术.它是基于光纤介质,最大传输速率达1 ...
highcharts 柱状图动态加载
highcharts柱状图动态加载 (1):导入样式 <script type="text/javascript" src="<%=request.getCo ...
ffmpeg基础
背景知识ffmpeg是一款领先的流媒体处理框架,支持编码,解码,转码等功能并可以在linux, Mac OS X, Microsoft Windows编译运行,用它做播放器的有:ffplay,射手播放 ...
jQuery iframe之间相互调用
,子iframe内调用父类函数方法: window.parent.func(); ,子Iframe中获取父界面的元素: $("#xx", window.parent.documen ...
MD5在java中的使用
MD5是什么? MD5是message-digest algorithm 5(信息-摘要算法)的缩写,被广泛用于加密和解密技术上,它可以说是文件的"数字指纹".任何一个文件,无论是 ...

用Python实现一个爬取XX大学电费通知的小脚本

用Python实现一个爬取XX大学电费通知的小脚本的更多相关文章

随机推荐

热门专题