python动态网页爬取——四六级成绩批量爬取

需求：

　　四六级成绩查询网站我所知道的有两个：学信网（http://www.chsi.com.cn/cet/）和99宿舍（http://cet.99sushe.com/），这两个网站采用的都是动态网页。我使用的是学信网，好了，网站截图如下：

网站的代码如下：

 <form method="get" name="form1" id="form1" action="/cet/query">

 <table border="0" align="center" cellpadding="0" cellspacing="0">

 <tr><td align="right">准考证号：</td><td align="left"><input name="zkzh" value="112008000463141" id="zkzh" type="text" size="18" maxlength="15" class="input_text input_t_l" /></td>

   <td align="left" class="font12 color666">请输入15位准考证号</td>

 </tr>

 <tr><td align="right">姓名：</td><td align="left"><input name="xm" value="啊啊" id="xm" type="text" size="18" maxlength="50" class="input_text input_t_l" /></td>

   <td align="left" class="font12 color666">姓名超过3个字，可只输入前3个</td>

 </tr>

 <tr><td align="center">&nbsp;</td>

   <td colspan="2" align="left"><input type="submit" id="submitCET" class="btn_blue" value="查询" /></td>

   </tr>

 </table>

 </form>

由图中可以看出表单提交的链接为/cet/query，即：http://www.chsi.com.cn/cet/query，好了，填写表单和结果如下：

但是，点击查看源代码之后发现，没有成绩，即代码仍是上面那个，之后按F12查看代码：

 <TBODY><TR>

 <TH>姓名：</TH>

 <TD>XXXX</TD></TR>

 <TR>

 <TH>学校：</TH>

 <TD>XXXXXX</TD></TR>

 <TR>

 <TH>考试类别：</TH>

 <TD>英语四级</TD></TR>

 <TR>

 <TH>准考证号：</TH>

 <TD>120135151100101</TD></TR>

 <TR>

 <TH>考试时间：</TH>

 <TD>2015年06月</TD></TR>总分：</TH><TD class=fontBold vAlign="top"><SPAN class=colorRed>403 </SPAN><BR><SPAN class=color666>听力：</SPAN> 132 <BR><SPAN class=color666>阅读：</SPAN> 147 <BR><SPAN class=color666>写作与翻译：</SPAN> 124 </TD></TR>

该代码显示了成绩，可以知道，该网站使用的是动态网页，用的JavaScript或者Ajax.js还是其他的我就不知道了0.0。上面为需求。

　　前言：使用过BeautifulSoup爬取过，但是BeautifulSoup是爬取不了动态网页的，上各种论坛找各种资料，用了n种东西，scapy,pyqt等等，走了真心不少弯路，不是不行，应该是我不会用，最终用了selenium和phantomjs，这两个应该也是目前最流行的爬虫模块了吧。

一、导入selenium和phantomjs

 from selenium import webdriver

 driver = webdriver.PhantomJS(executable_path='D:\phantomjs-2.1.1-windows\phantomjs.exe')

 driver.get(url)

 driver.find_element_by_id('zkzh').send_keys(i)

 driver.find_element_by_id('xm').send_keys(xm)

 driver.find_elements_by_tag_name('form')[1].submit()

　　代码说明：

　　3.selenium可以加载很多驱动，比如Chrome、FireFox等，这里需要有这两个浏览器和驱动才行，折腾了一下，网上说Phantomjs是较好的了

　　5、6、7分别是准考证号，姓名和提交

二、字符处理

提交之后就可以直接查找了:

 print driver.find_element_by_xpath("//tr[3]/td[1]").text

 print driver.find_element_by_xpath("//tr[6]/td[1]").text

　　代码说明：

　　1.查看姓名

　　2.查看分数及其具体成绩

　　打印之后为：

姓名

403

听力

132

阅读

147

写作

142

　　之后要对分数进行字符串处理，选取各部分的数字，这里我们采用re模块：

 import re

 m = re.findall(r'(\w*[0-9]+)\w*', chuli2)

　　其中m是数组，输出的是["403","132","147","142"]

三、数据库

　　我们学校也不知说很渣还是人性化，反正公布了全校的四六级准考证号，当然，是excel的，需要导入mysql数据库，打开Excel之后，我发现微软大法和Oracle真是牛逼啊，Excel365居然有mysql workbench连接部分

数据库代码如下：

 import MySQLdb

 conn = MySQLdb.Connect(host='localhost', user='root', passwd='root', db='cet', port=3306, charset='utf8')

 cur = conn.cursor()

 curr = conn.cursor()

 cur.execute("select name from cet.cet where zkzh=(%s)" % i)

 xm = cur.fetchone()[0]

 print "Name is " + xm

 sqltxt = "update cet.cet set leibie=(%s),zongfen=(%s),tingli=(%s),yuedu=(%s),xiezuo=(%s) WHERE zkzh=(%s)" % (

             ss, m[0], m[1], m[2], m[3], i)

 cur.execute(sqltxt)

 conn.commit()

 cur.close()

 conn.close()

　　代码说明：

　　3.python连接数据库代码

　　6.连接数据库取得姓名部分

　　9.这行我好无语啊，使用‘“+ss+”’这样的写法一直报错，最终找了半天资料，这个写法我不太喜欢，但是凑合着用吧。

　　12.记得一定要提交事务！！！commit（）！！！不然是没有效果的

四、使用代理服务器（保留以后写）

　　运行了一段时间之后，大概抓了几百人的吧，然后就出现要求验证码了，解决办法只能处理验证码或者使用代理服务器了，这部分继续加强学习再弄出来了↖(^ω^)↗

五、源代码和效果

 # encoding=utf8

 import MySQLdb

 import re

 import time

 from selenium import webdriver

 # connect mysql,get zkxh and xm

 conn = MySQLdb.Connect(host='localhost', user='root', passwd='root', db='cet', port=3306, charset='utf8')

 cur = conn.cursor()

 curr = conn.cursor()

 url = 'http://www.chsi.com.cn/cet/query'

 def kaishi(i):

     print i,

     print " start"

     try:

         cur.execute("select name from cet.cet where zkzh=(%s)" % i)

         xm = cur.fetchone()[0]

         print "Name is " + xm

         driver = webdriver.PhantomJS(executable_path='D:\phantomjs-2.1.1-windows\phantomjs.exe')

         driver.get(url)

         driver.find_element_by_id('zkzh').send_keys(i)

         driver.find_element_by_id('xm').send_keys(xm)

         driver.find_elements_by_tag_name('form')[1].submit()

         driver.set_page_load_timeout(10)

         leibie = driver.find_element_by_xpath("//tr[3]/td[1]").text

         leibie2 = str(leibie.encode("utf-8"))

         ss = ""

         if leibie2.decode("utf-8") == '英语四级'.decode("utf-8"):

             ss = 4

         else:

             ss = 6

         # zongfen = driver.find_element_by_xpath("//tr[6]/th[1]").text

         # print zongfen

         # print "===="

         chuli = driver.find_element_by_xpath("//tr[6]/td[1]").text

         print chuli

         chuli2 = str(chuli.encode("utf-8"))

         m = re.findall(r'(\w*[0-9]+)\w*', chuli2)

         sqltxt = "update cet.cet set leibie=(%s),zongfen=(%s),tingli=(%s),yuedu=(%s),xiezuo=(%s) WHERE zkzh=(%s)" % (

             ss, m[0], m[1], m[2], m[3], i)

         cur.execute(sqltxt)

         conn.commit()

         print str(i) + " finish"

     except Exception, e:

         print e

         driver.close()

         time.sleep(10)

         kaishi(i)

 # for j1 in range(1201351511001, 1201351512154):

 for j1 in range(1201351511007, 1201351512154):

     for j2 in range(0, 3):

         for j3 in range(0, 10):

             j = str(j1) + str(j2) + str(j3)

             if str(j2) + str(j3) == "":

                 print "0.0"

             elif str(j2) + str(j3) == "":

                 kaishi(str(j1) + str(j2) + str(j3))

                 j4 = str(j1) + ""

                 kaishi(j4)

             else:

                 kaishi(j)

 print "END!!!"

 cur.close()

 conn.close()

参考资料：

1.http://my.oschina.net/u/2420420/blog/489205?fromerr=MX68uajh

2.http://www.cnblogs.com/hearzeus/p/5157016.html

总结：python的字符串处理细节真的很重要，动不动就输出错误，还有IDE的编码不一样，记得还有个系统编码，字符编码，环境编码，数据库编码等等都要一致！！！

ps后记：1.这几天别人各种同学聚会，然而，自己也总是那么“幸运”，中学所碰到的班级对外特活跃特团结的样子，但是初中高中毕业那么久了，聚会是几乎没有过。。。。昨晚梦见了那些人那些事，也不知道他们怎么样了。昨天有一篇新闻报道了一大学一宿舍毕业20年，年年聚会的那样子真好。

2.对于爱情的烦恼，莫过于明明很喜欢却发现自己和她完全不是一个“世界”的人，然后也很少找她说话，再然后就是用“嗯”“哦”来回复她的主动聊天，再然后联系越来越少，再然后连门都不敢出了，怕这个世界，有时虽然也会自嘲“活该孤独终老”，但是有啥办法呢？过年了，回到家，过着越来越淡的年，看着一同长大的人，吃着几十年一样的菜和饭，难不得矫情一下。

python动态网页爬取——四六级成绩批量爬取的更多相关文章

四六级成绩还可以这样查？Python助你装B一步到位！！！
昨天有很多同学在朋友圈秀六级成绩一个个都如(sang)此(jin)优(tian)秀(liang) 当然也有悲催的哥们对于上面这位老弟我只能说:骚呢,兄弟这种事都能赶上,必须点赞一.需求分析 ...
Python动态网页爬虫-----动态网页真实地址破解原理
参考链接:Python动态网页爬虫-----动态网页真实地址破解原理
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
【Python网络爬虫四】通过关键字爬取多张百度图片的图片
最近看了女神的新剧<逃避虽然可耻但有用>,同样男主也是一名程序员,所以很有共鸣被大只萝莉萌的一脸一脸的,我们来爬一爬女神的皂片. 百度搜索结果:新恒结衣本文主要分为4个部分: 1.下载 ...
scrapy 动态网页处理——爬取鼠绘海贼王最新漫画
简介 scrapy是基于python的爬虫框架,易于学习与使用.本篇文章主要介绍如何使用scrapy爬取鼠绘漫画网海贼王最新一集的漫画. 源码参见:https://github.com/liudaol ...
R语言爬取动态网页之环境准备
在R实现pm2.5地图数据展示文章中,使用rvest包实现了静态页面的数据抓取,然而rvest只能抓取静态网页,而诸如ajax异步加载的动态网页结构无能为力.在R语言中,爬取这类网页可以使用RSele ...
爬虫（三）通过Selenium + Headless Chrome爬取动态网页
一.Selenium Selenium是一个用于Web应用程序测试的工具,它可以在各种浏览器中运行,包括Chrome,Safari,Firefox 等主流界面式浏览器. 我们可以直接用pip inst ...

随机推荐

java编写冒泡排序
int[] arry={7,1,6,5,3,4,9,8,2}; for(int a=0;a<arry.length;a++) { for(int b=a+1;b<arry.length;b ...
mysql自动备份维护shell脚本 (copy)
#!/bin/bash #Mysql 自动备份压缩并上传到指定ftp #设想每天凌晨3点备份mysql #编辑crontab配置文件 # * * * backupmysql.sh #压缩并以&qu ...
关于InnoDB的Next-Key lock
最近一段时间在准备新员工培训的材料,本来打算介绍介绍概念就OK的,但是既然写了事务的章节,就特别想介绍一下锁,介绍了锁,就忍不住想介绍一下Next-Key Lock. 大家知道,标准的事务隔离级别有R ...
JAVA 基本运算符（摘）
(搞自:Java经典入门教程) http://wenku.baidu.com/link?url=IoWI58cD5vzeHN-NL4pN7Gren-RfzydrhjDlETAByC9L-9ANinyL ...
学习OpenStack之 (4)： Linux 磁盘、分区、挂载、逻辑卷管理 (Logical Volume Manager)
0. 背景: inux用户安装Linux操作系统时遇到的一个常见的难以决定的问题就是如何正确地评估各分区大小,以分配合适的硬盘空间.普通的磁盘分区管理方式在逻辑分区划分好之后就无法改变其大小,当一个逻 ...
HDU 5130 Signal Interference --计算几何,多边形与圆的交面积
题意: 求所有满足PB <= k*PA 的P所在区域与多边形的交面积. 解法: 2014广州赛区的银牌题,当时竟然没发现是圆,然后就没做出来,然后就gg了. 圆的一般式方程: 设A(x1,y1) ...
AC日记——向量点积计算 openjudge 1.6 09
09:向量点积计算总时间限制: 1000ms 内存限制: 65536kB 描述在线性代数.计算几何中,向量点积是一种十分重要的运算. 给定两个n维向量a=(a1,a2,...,an)和b=(b ...
读Java面向对象编程(孙卫琴)
2.1创建Java源文件 Java应用由一个或多个扩展名为".java"的文件构成,这些文件被称为Java源文件,从编译的角度,则被称为编译单元. 本章包含两个Java源文件:Do ...
php base64 原理
#include <stdio.h> #include <stdlib.h> #include <string.h> static const char base6 ...
iptables详细说明
一:前言防火墙,其实说白了讲,就是用于实现Linux下访问控制的功能的,它分为硬件的或者软件的防火墙两种.无论是在哪个网络中,防火墙工作的地方一定是在网络的边缘.而我们的任务就是需要去定义到底防火墙 ...

python动态网页爬取——四六级成绩批量爬取

python动态网页爬取——四六级成绩批量爬取的更多相关文章

随机推荐

热门专题