使用正则表达式和urllib模块爬取最好大学排名信息

题目

使用urllib模块编程实现爬取网站的大学排名。
(网址：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html)
（1）获取网站页面，分析代码结构特征；
（2）处理页面，提取相关信息；
（3）解析数据，输出结果。

代码实现

Python3

import urllib.request

import re

# 获取指定url的源码信息

def getHTMLText(url):

    try:

        response = urllib.request.urlopen(url, timeout=30)

        html = response.read().decode('utf-8')

        return html

    except:

        return "access the web error!"

    return ""

# 根据具体结构匹配需要的排名信息，最终以列表的形式返回

def fullTextToSchoolList(html):

    # 正则匹配所有学校名称

    reg2 = r'<td><div align="left">(.*?)</div></td>'

    # 匹配排名信息

    reg = r'<td>(.*?)</td>'

    reg = re.compile(reg)

    reg2 = re.compile(reg2)

    ulists=re.findall(reg,html)

    unames=re.findall(reg2,html)

    # 将学校名称替换到一个list中

    i=1

    j=0

    while i < len(ulists):

        ulists[i]=unames[j]

        j=j+1

        i=i+4

    # 返回学校排名信息的列表

    return ulists

# 格式化输出结果

def printSchoolList(ulist):

    print("{:^9}\t{:^13}\t{:^10}\t{:^6}".format("排名", "学校名称","省市","总分"))

    print('========================================================================')

    i=0

    while i < len(ulist):

        rank = ulist[i] # 排名

        uname = ulist[i+1] # 学校名

        city = ulist[i+2] # 所在城市

        totalScore = ulist[i+3] # 总评分

        print("{:^10}\t{:^13}\t{:^10}\t{:^6}".format(rank, uname, city,totalScore)) # 格式化输出

        i=i+4

# main函数

def main():

    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'

    html = getHTMLText(url)

    ulist = fullTextToSchoolList(html)

    printSchoolList(ulist)

# 执行main函数

if __name__ == '__main__':

    main()

执行结果

其实使用BeautifulSoup模块实现起来更简单，更容易定位排名信息并获取指定标签体的内容。

另一种使用BeautifulSoup库爬取排名

url = "http://www.zuihaodaxue.cn/BCSR/jisuanjikexueyujishu2019.html"URL变成了2019的。这个最后爬取的内容和上面的一个是不同的。

代码实现

"""

定向爬取最好大学计算机展业排名信息，并输出到控制台

1. getHTMLText(url)

2. fullTextToSchoolList

3. printSchoolList

"""

from bs4 import BeautifulSoup

import requests

import bs4

def getHTMLText(url):

    try:

        r = requests.get(url,timeout=30)

        r.raise_for_status()

        # 注意编码方式

        r.encoding=r.apparent_encoding

        return r.text

    except:

        return "access the web error!"

    return ""

# 将提取后的结果追加到ulist列表中去

def fullTextToSchoolList(ulist,html):

    soup = BeautifulSoup(html,"html.parser")

    for tr in soup.find('tbody').children:

        if isinstance(tr,bs4.element.Tag):

            tds = tr('td')

            try:

                td0 = tds[0].string

                td2 = tds[2].string

                td3 = tds[3].string

                ulist.append([td0,td2,td3])

            except:

                pass

def printSchoolList(ulist,num):

    print("{:^10}\t{:^6}\t{:^10}".format("排名","百分段","学校名称"))

    for i in range(num):

        u = ulist[i]

        print("{:^10}\t{:^13}\t{:^10}".format(u[0], u[1], u[2]))

def main():

    uinfo = []

    url = "http://www.zuihaodaxue.cn/BCSR/jisuanjikexueyujishu2019.html"

    html = getHTMLText(url)

    fullTextToSchoolList(uinfo,html)

    printSchoolList(uinfo,20) # 只输出前20学校

if __name__ == '__main__':

    main()

输出结果

以上有错误的地方，欢迎评论指出！！！

使用正则表达式和urllib模块爬取最好大学排名信息的更多相关文章

python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学目标:爬取最好大学网前50名大学代码如下: import requests from bs4 import Beautiful ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
py3+requests+re+urllib，爬取并下载不得姐视频
实现原理及思路请参考我的另外几篇爬虫实践博客 py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/UncleYong/p/6892688. ...
爬虫——URL模块爬取糗事百科段子
最简单的爬取网页找有用信息,难点应该是正则锁定有用信息部分,看了一些其他大神的正则,最后还是决定按照自己理解写一个,果然我头脑相对简单,写出来的粗糙而易理解,也完成了自己想要的需求,就这样了~ # - ...
Python爬虫实战（一）使用urllib库爬取拉勾网数据
本笔记写于2020年2月4日.Python版本为3.7.4,编辑器是VS code 主要参考资料有: B站视频av44518113 Python官方文档 PS:如果笔记中有任何错误,欢迎在评论中指出, ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
python学习(23)requests库爬取猫眼电影排行信息
本文介绍如何结合前面讲解的基本知识,采用requests,正则表达式,cookies结合起来,做一次实战,抓取猫眼电影排名信息. 用requests写一个基本的爬虫排行信息大致如下图网址链接为ht ...

随机推荐

CF392B Tower of Hanoi
题目链接. Description 三塔汉诺塔问题,给一个 \(3 \times 3\) 的矩阵 \(t\),\(t_{i, j}\) 表示从 \(i\) 塔移动一个盘子到 \(j\) 塔的花费. 初 ...
题解-[SDOI2014]数数
[SDOI2014]数数这题的前置知识是AC自动机和dp,前置题目是 [JSOI2007]文本生成器,前置题目我写的题解题解-[JSOI2007]文本生成器.我的讲解假设你做过上面那道题. 这题比 ...
AcWing 295. 清理班次
这题显然跟区间覆盖是一样的,而且值域在 \(1000000\) 以内,不用离散化,直接贪心求解即可. 具体地:设 \(nxt[i]\) 为从值域 \(i\) 出发,能到达最远的右端点. 一段段地跳 ...
使用Swiper快速实现3D效果轮播
最近经常接到轮播图3D效果的需求, 特在此记录一下以备之后使用. 具体实现效果如下: 在这里介绍两种使用方式, 一种原生的html+php后端渲染, 一种是使用vue. 原生实现引入首先我们介绍原 ...
WPF TextBox 实现CornerRadius圆角
<Grid Background="Gray" Height="230" Width="229"> <Border Cor ...
mysql难题收录
1.计算相邻两行的年龄的差距表中的数据如下 select (s.age-(select age from stu where id - s.id = 1)) from stu as s; selec ...
remmina 软件rdp协议链接windows失败
remmina 1.42 链接 win10 提示失败......其他版本win还没有测试过. 忘记了在那个论坛有是说加密问题,照着改确实可以.具体原因是默认设置加密方式这一项不知道为什么不起作用,手 ...
DRF对Django请求响应做了技术升级
Django视图是用来处理请求和响应的,Django默认是按Form和Template来设计的,如果要处理以JSON格式为主的RESTful API,那么就需要对Django请求和响应的处理代码进行优 ...
MySQL中的 ”SELECT FOR UPDATE“ 一次实践
背景最近工作中遇到一个问题,两个不同的线程会对数据库里的一条数据做修改,如果不加锁的话,会得到错误的结果. 就用了MySQL中for update 这种方式来实现本文主要测试主键.唯一索引和普通索 ...
7. 丈母娘嫌我不懂K8s的Service概念，让我去面壁
文章目录怎么跟你说 Service的出现,就是解决ip不固定的问题 ,怎么解决呢 ? 听小刘慢慢道来当Pod宕机后重新生成时,其IP等状态信息可能会变动,Service会根据Pod的Label对 ...

使用正则表达式和urllib模块爬取最好大学排名信息

题目

代码实现

执行结果

另一种使用BeautifulSoup库爬取排名

代码实现

使用正则表达式和urllib模块爬取最好大学排名信息的更多相关文章

随机推荐

热门专题