python_大学排名爬取

逻辑思路是什么？

　　1. 获取页面

　　2. 处理页面，提取信息

　　3. 格式输出

先走面向过程编程：

　　1. 要定义3个函数，对应以上三个过程

　　2. 在__main__函数中传入参数，并执行以上三个过程

#!/usr/bin/python3

import bs4

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

    '''获取页面'''

    try:

        r = requests.get(url, timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return ""

def fillUnivList(ulist, html):

    '''处理页面'''

    soup = BeautifulSoup(html, "html.parser")

    for tr in soup.find('tbody').children:

        if isinstance(tr, bs4.element.Tag):

            tds = tr('td')

            ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num):

    '''格式输出页面'''

    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

    print(tplt.format("排名", "学校名称", "总分", chr(12288)))

    for i in range(num):

        u = ulist[i]

        print(tplt.format(u[0], u[1], u[2], chr(12288)))

if __name__ == '__main__':

    uinfo = []

    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'

    html = getHTMLText(url)

    fillUnivList(uinfo, html)

    printUnivList(uinfo, 20)                #  输出20个大学排名

如何走向面向对象？

　　1. 输入： url ？+ 想要获得几条信息？

　　2. 输出：格式化信息

　　3. 对于获取页面和处理页面为私有方法，不应该暴露

#!/usr/bin/python3

import requests

import bs4

from bs4 import BeautifulSoup

class SchoolMessage(object):

    '''爬取大学排名'''

    def __init__(self, url, number):

        self.url = url

        self.number = number

    def __get_html(self):

        '''获得页面'''

        try:

            r = requests.get(self.url,timeout=30)

            r.raise_for_status()

            r.encoding = r.apparent_encoding

            return r.text

        except:

            return '1'

    def __get_message(self):

        '''获得信息'''

        info = []

        html = self.__get_html()

        if html is not '1':

            soup = BeautifulSoup(html, 'html.parser')

            for i in soup.find('tbody').children:

                if isinstance(i, bs4.element.Tag):

                    tds = i('td')

                    info.append([tds[0].string, tds[1].string, tds[2].string])

            return info

        else:

            return '1'

    def get_message(self):

        '''格式化输出信息'''

        info = self.__get_message()

        if info is not '1':

            temp = "{0:^10}\t{1:{3}^10}\t{2:^10}"

            print(temp.format("排名", "学校名称", "总分", chr(12288)))

            for i in range(self.number):

                u = info[i]

                print(temp.format(u[0], u[1], u[2], chr(12288)))

        else:

            print('爬取失败')

if __name__ == '__main__':

    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'

    school_1 = SchoolMessage(url, 10)

    school_1.get_message()

所需要的环境：

　　python 3.5

　　requests 库

　　beautifulsoup 库

python_大学排名爬取的更多相关文章

python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学目标:爬取最好大学网前50名大学代码如下: import requests from bs4 import Beautiful ...
Python爬虫练习：爬取800多所大学学校排名、星级等
前言国内大学最新排名,北大反超,浙大仅第四,中科大跌至第八时隔五年,"双一流"大学即将迎来首次大考,这也是继改变高校评断标准之后,第一次即将以官方对外发布,自然是引来了许多人的 ...
使用正则表达式和urllib模块爬取最好大学排名信息
题目使用urllib模块编程实现爬取网站的大学排名. (网址:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html) (1)获取网站页面,分析代 ...
python3----练习题(爬取电影天堂资源,大学排名,淘宝商品比价)
import requests import re url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html' for n in range ...
python爬虫-上期所持仓排名数据爬取
摘要:笔记记录爬取上期所持仓数据的过程,本次爬取使用的工具是python,使用的IDE是pycharm 一.查看网页属性,分析数据结构在浏览器中打开上期所网页,按F12或者选择表格文字-右键-审查元 ...
中国大学MOOC课程信息爬取与数据存储
版权声明:本文为博主原创文章,转载请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js ...
python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
用Python实现一个爬取XX大学电费通知的小脚本
内容简要 1分析网站 2简单爬取 3进阶自定义爬取 4保存进数据库学校基础设施太差,宿舍电量过低提醒虽然贴在楼下,但是作为低头一族,经常忘记看提醒导致宿舍酣战时突然黑屏,为了避免这种尴尬的场景以及强 ...

随机推荐

JDK1.8中HashMap实现
JDK1.8中的HashMap实现跟JDK1.7中的实现有很大差别.下面分析JDK1.8中的实现,主要看put和get方法. 构造方法的时候并没有初始化,而是在第一次put的时候初始化 putVal方 ...
Juicer模板引擎使用笔记
关于Juicer:Juicer 是一个高效.轻量的前端 (Javascript) 模板引擎,使用 Juicer 可以是你的代码实现数据和视图模型的分离(MVC). 除此之外,它还可以在 Node.js ...
Windows资源
Windows资源是一种二进制数据,由链接器链接进程序成为程序的一部分,通过资源的方式可以很方便的对应用程序进行扩展.在Windows中资源可以是系统自定义的,也可以是用户自定义的.在VC++中资源是 ...
【译】巧用CSS变量实现自动前缀
转:https://www.h5jun.com/post/autoprefixing-with-css-variables-lea-verou.html 最近,当我在制作 markapp.io 这个小 ...
[整理]vimtutor章节小结
第一讲小结 1. 光标在屏幕文本中的移动既可以用箭头键,也可以使用 hjkl 字母键. h (左移) j (下行) k (上行) l (右移) 2. 欲进入 Vim 编辑器(从命令行提示符),请输入: ...
linux连接mysql 出现Access denied for user 'root'@'localhost'(using password: YES)错误解决方案
linux连接mysql /usr/local/mysql/bin/mysql -uroot -p 输入密码出现Access denied for user 'root'@'localhost'(us ...
Django模板中的数字自增
Django框架的模板提供了{% for %} 标签来进行循环例如对集合进行循环是比较简单的 {% for row in v1 %} <div>{{row.name}}</div& ...
javascript初识
1.什么是js 基于对象和事件驱动并且具有相对安全性的客户端脚本语言,由网景公司开发. 2.js数据类型 1.基本数据类型 undefined,null,number,boolean,st ...
Python中的数据类型以及他们的方法
数据类型: 1)int i = 100 print(i.bit_length()) ''' bit_length 1 0000 0001 1 2 0000 0010 2 3 0000 0011 2 2 ...
CSS基础之盒子模型及浮动布局
盒模型谈到盒模型,有经验的小伙伴一定滚瓜烂熟,无非就是内容(content).填充(padding).边框(border).边界(margin): 这些属性我们可以把它转移到我们日常生活中的盒子( ...

python_大学排名爬取

python_大学排名爬取的更多相关文章

随机推荐

热门专题