Python 中国大学排名定向爬虫

代码来自于中国大学Mooc北京理工大学Pythont教学团队：https://www.icourse163.org/learn/BIT-1001870001#/learn/content?type=detail&id=1211970249&cid=1215042961

1.函数版

#中国大学定向爬虫

import requests

from bs4 import BeautifulSoup

import bs4

def getHTMLText(url):

    try:

        r = requests.get(url, timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return ""

def fillUnivList(ulist, html):

    soup = BeautifulSoup(html, "html.parser")

    for tr in soup.find('tbody').children:

        if isinstance(tr, bs4.element.Tag):

            tds = tr('td')

            ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num):

    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

    print(tplt.format("排名","学校名称","总分",chr(12288)))

    for i in range(num):

        u=ulist[i]

        print(tplt.format(u[0],u[1],u[2],chr(12288)))

def main():

    uinfo = []

    #url = 'https://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'

    url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html'

    html = getHTMLText(url)

    fillUnivList(uinfo, html)

    printUnivList(uinfo, 20) # 20 univs

main()

2.修改无函数版用于学习

#中国大学定向爬虫

import requests

from bs4 import BeautifulSoup

import bs4

ulist = []

url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html'

try:

    r = requests.get(url, timeout=30)

    r.raise_for_status()

    r.encoding = r.apparent_encoding

except:

    print("爬取失败")

html = r.text

soup = BeautifulSoup(html, "html.parser")

for tr in soup.find('tbody').children:

    if isinstance(tr, bs4.element.Tag):

       tds = tr('td')

       ulist.append([tds[0].string, tds[1].string, tds[3].string])

tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

print(tplt.format("排名","学校名称","总分",chr(12288))) #使得中文对齐

num = 20

for i in range(num): #打印前20名

    u=ulist[i]

    print(tplt.format(u[0],u[1],u[2],chr(12288)))

print("爬取完毕")

Python 中国大学排名定向爬虫的更多相关文章

python网络爬虫-中国大学排名定向爬虫
爬虫定向爬取中国大学排名信息 #!/usr/bin/python3 import requests from bs4 import BeautifulSoup import bs4 #从网络上获取大学 ...
Python之爬虫-中国大学排名
Python之爬虫-中国大学排名 #!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import Be ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
python爬虫入门---第二篇：获取2019年中国大学排名
我们需要爬取的网站:最好大学网我们需要爬取的内容即为该网页中的表格部分: 该部分的html关键代码为: 其中整个表的标签为<tbody>标签,每行的标签为<tr>标签,每行中 ...
python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学目标:爬取最好大学网前50名大学代码如下: import requests from bs4 import Beautiful ...
Python淘宝商品比价定向爬虫
1.项目基本信息目标: 获取淘宝搜索页面的信息,提取其中的商品名称和价格理解: 淘宝的搜索接口.翻页的处理很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道 ...
2014年QS世界大学排名
新浪教育[微博]讯近日2014QS世界大学排行榜发布,榜单前十强均为英美名校.其中麻省理工大学以绝对优势位居榜首:英国剑桥大学及帝国理工学院并列排名第二:哈佛大学较去年而言名次略微下降,跌至第四. ...
python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
Python爬虫实战：2017中国最好大学排名
抓取内容: 从最好大学网上抓取中国前10的大学排名.大学名称.总分,并数据格式左对齐. http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html 首先 ...

随机推荐

markdown（typora）基本语法
目录 * 标题 * 加粗 * 斜体 * 高亮 * 上标 * 下标 * 代码引用(>式和```式) * 代码引入(`式) * 插入链接(链接显示) * 插入链接(连接描述显示) * 插入图片(链接 ...
python pyinstaller 打包exe报错
今天用python 使用pyinstaller打包exe出现错误环境pyqt5 + python3.6 在导入pyqt5包之前加上如下代码 import sysimport osif hasattr ...
Java多线程编程（三）线程间通信
线程是操作系统中独立的个体,但这些个体如果不经过特殊的处理就不能成为一个整体.线程间的通信就是成为整体的必用方案之一,可以说,使线程间进行通信后,系统之间的交互性会更强大,在大大提高CPU利用率的同时 ...
Andriod Studio设置类默认签名模板
spring源码学习（二）
本篇文章,来介绍finishBeanFactoryInitialization(beanFactory);这个方法:这个方法主要是完成bean的实例化,invokeBeanFactoryPostPro ...
Docker之构建上下文详解
昨天写了使用 Dockerfile 定制镜像.其中构建上下文这一块没有写,今天把这一块单独拿出来写一下. Docker镜像构建简单说下构建镜像步骤: cd Dockerfile 所在目录; 执行 d ...
明解C语言入门篇第三章答案
练习3-1 #include <stdio.h> int main() { int x; int y; puts("请输入两个整数."); printf("整 ...
超简单让.NET Core开发者快速拥有CI/CD的能力-Docker版本
超简单让.NET Core开发者快速拥有CI/CD的能力-Docker版本前言上一篇自动化测试,全面且详细的介绍了从零开始到发布版本的步骤,这是传统的方式,本次为大家带来的是如何在5分钟内使用上d ...
[2018-01-12] laravel--路由(路由与控制器)
路由只用来接收请求目前我们大致了解了laravel,在开始一个Http程序需要先定义路由.之前的例子中,我们的业务逻辑都是在路由里实现的,这对于简单的网站或web应用没什么问题,当我们需要扩大规模, ...
最新JetBrainsPyCharm自动部署Python(Django,tornado等)项目至远程服务器
每次开发Python项目时,对于所有Python开发人员来说,最枯燥的不是修改代码,而是实时将自己的代码上传至远程服务器,进行测试或者部署,本人最初开发也是这样,通过使用Xshell 5,WinSCP ...

Python 中国大学排名定向爬虫

Python 中国大学排名定向爬虫的更多相关文章

随机推荐

热门专题