Python爬虫实战：2017中国最好大学排名

抓取内容：

从最好大学网上抓取中国前10的大学排名、大学名称、总分，并数据格式左对齐。 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html

首先，看下网站的Robots协议，没有找到相关协议，可以抓取。 http://www.zuihaodaxue.cn/robots.txt

接下来开始整理思路：

获取网页信息
填充列表数据
输出列表数据，并进行格式化
输出结果

完整代码：

 import requests
 from bs4 import BeautifulSoup
 import bs4

 # 获取网页信息的通用框架
 def getHtmlText(url):
     try:
         r = requests.get(url, timeout = 30)
         r.raise_for_status()
         r.encoding = r.apparent_encoding
         return r.text
     except:
         return '爬取失败'

 # 填充列表
 def fillUnivList(ulist, html):
     soup = BeautifulSoup(html, 'lxml')
     for tr in soup.find('tbody').children:
         # 检查网页代码可以发现数据都储存在tboyd标签中，这里需要对tbody的儿子节点进行遍历
         if isinstance(tr, bs4.element.Tag):
             # 检测标签类型，如果不是bs4库支持的Tag类型，就过滤掉，这里需要先导入bs4库
             tds = tr('td')
             # 解析出tr标签中的td标签后，将其储存在列表tds中
             ulist.append([tds[0].string, tds[1].string, tds[3].string])
             # 我们需要的是排名、学校名称和总分

 # 格式化后，输出列表数据
 def printUnivList(ulist, num):
     tplt = '{:<10}\t{:<10}\t{:<10}'
     # 定义输出模板为变量tplt，\t为横向制表符，<为左对齐，10为每列的宽度
     print(tplt.format('排名','学校名称','总分'))
     # format()方法做格式化输出
     for i in range(num):
         u = ulist[i]
         print(tplt.format(u[0],u[1],u[2]))

 def main():
     uinfo = []
     url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html'
     html = getHtmlText(url)
     fillUnivList(uinfo, html)
     printUnivList(uinfo, 10)
     # 选取前10所学校信息
 main()

运行结果：

操作环境：Mac，Python 3.6，PyCharm 2016.2

参考资料：中国大学MOOC课程《Python网络爬虫与信息提取》

----- End -----

更多精彩内容关注我公众号：杜王丹

作者：杜王丹，互联网产品经理

Python爬虫实战：2017中国最好大学排名的更多相关文章

python爬虫抓取中国最好大学排名1 清华大学北京 94.0 100.0 97.70% 清华大学 2 北京大学
import requests from bs4 import BeautifulSoup import bs4.element r=requests.get("http://www.zui ...
Python爬虫实战七之计算大学本学期绩点
大家好,本次为大家带来的项目是计算大学本学期绩点.首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的 ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...

随机推荐

C# winform单元格的formatted值的类型错误 DataGridView中CheckBox列运行时候System.FormatException异常
在DataGridView手动添加了CheckBox列;在窗体Show的时候,遇到一个错误:错误如下: DataGridView中发生一下异常:System.FormatException:单元格的F ...
datagridview 获取选中行的索引
C# CODE for (int i = 0; i < this.dataGridView1.SelectedRows.Count; i++)//遍历所有选中的行 { this.dataGrid ...
PHP判断用户是否手机访问
自定义的函数如下: $agent = check_wap(); if( $agent ) { header('Location: http://www.nowamagic.net'); exit; } ...
vagrant特性——基于docker开发环境（docker和vagrant的结合）-0-简介
原文https://www.hashicorp.com/blog/feature-preview-docker-based-development-environments Feature Previ ...
UMI开源项目
本文主要围绕UMI是什么及其特征.安装应用.模板例子等四个方面内容来讲解UMI,希望能够对初学者有所启发. 一. UMI是什么 UMI是可插拔的企业级反应应用程序框架. 二. 特征特征
JAVA springmvc参数
一.简单参数: package jd.com.contronller; import jd.com.projo.goods; import org.springframework.stereotype ...
java中线程的几种状态和停止线程的方法
1.线程的状态图需要注意的是:线程调用start方法是使得线程到达就绪状态而不是运行状态 2.停止线程的两种方法 1)自然停止:线程体自然执行完毕 2)外部干涉:通过线程体标识 1.线程类中定义线程 ...
用pyinstaller把python代码打包成exe可执行文件
优点: 1. pyinstaller 是跨平台的可以用在linux和windows系统上 2. 操作非常简单,几个命令就搞定了,这个比py2exe容易用多了缺点: 1. 打包后的体积过大,因为要带p ...
20155232《网络对抗》Exp5 MSF基础应用
20155232<网络对抗>Exp5 MSF基础应用基础问题回答用自己的话解释什么是exploit,payload,encode. exploit:就是利用可能存在的漏洞对目标进行攻击 ...
20155317王新玮《网络对抗》Exp2 后门原理与实践
20155317王新玮<网络对抗>Exp2 后门原理与实践一.实验内容 (1)使用netcat获取主机操作Shell,cron启动 (2)使用socat获取主机操作Shell, 任务计划 ...

Python爬虫实战：2017中国最好大学排名

Python爬虫实战：2017中国最好大学排名的更多相关文章

随机推荐

热门专题