Python 爬虫-获得大学排名

2017-07-29 23:20:24

主要技术路线：requests+bs4+格式化输出

import requests

from bs4 import BeautifulSoup

url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html'

def gethtml(url):

    # 打开网页有风险，需要使用try-except语句进行风险控制

    kv = {'user-agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0'}

    try:

        r = requests.get(url,headers=kv)

        r.raise_for_status()   # 如果打开失败，则会抛出一个HttpError异常

        # encoding是从header中分析出来的编码方式，apparent_encoding是 从内容分析出的编码方式

        r.encoding=r.apparent_encoding

        return r

    except:

        print("打开失败")

        return -1

def gettext(r):

    soup = BeautifulSoup(r.text,'html.parser')

    #print(soup.prettify())

    tr = soup('tr')

    ls = list()

    lst = list()

    for i in range(4):

        th = tr[0]('th')

        lst.append(th[i].string)

    ls.append(lst)

    for i in range(1,len(tr)):

        td = tr[i]('td')

        lst=list()

        lst.append(i)

        for k in range(1,4):

            lst.append(td[k].string)

        ls.append(lst)

    return ls

def printtext(ls):

    for i in ls:

         print('{0:^10}\t{1:{3}^10}\t{2:^10}'.format(i[0],i[1],i[2],chr(12288)))

if __name__ =='__main__':

    r = gethtml(url)

    ls = gettext(r)

    printtext(ls)

Python 爬虫-获得大学排名的更多相关文章

Python之爬虫-中国大学排名
Python之爬虫-中国大学排名 #!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import Be ...
python网络爬虫-中国大学排名定向爬虫
爬虫定向爬取中国大学排名信息 #!/usr/bin/python3 import requests from bs4 import BeautifulSoup import bs4 #从网络上获取大学 ...
python爬虫-上期所持仓排名数据爬取
摘要:笔记记录爬取上期所持仓数据的过程,本次爬取使用的工具是python,使用的IDE是pycharm 一.查看网页属性,分析数据结构在浏览器中打开上期所网页,按F12或者选择表格文字-右键-审查元 ...
python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
Python爬虫实战：2017中国最好大学排名
抓取内容: 从最好大学网上抓取中国前10的大学排名.大学名称.总分,并数据格式左对齐. http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html 首先 ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
Python爬虫练习：爬取800多所大学学校排名、星级等
前言国内大学最新排名,北大反超,浙大仅第四,中科大跌至第八时隔五年,"双一流"大学即将迎来首次大考,这也是继改变高校评断标准之后,第一次即将以官方对外发布,自然是引来了许多人的 ...
python爬虫入门---第二篇：获取2019年中国大学排名
我们需要爬取的网站:最好大学网我们需要爬取的内容即为该网页中的表格部分: 该部分的html关键代码为: 其中整个表的标签为<tbody>标签,每行的标签为<tr>标签,每行中 ...
Python爬虫入门教程 30-100 高考派大学数据抓取 scrapy
1. 高考派大学数据----写在前面终于写到了scrapy爬虫框架了,这个框架可以说是python爬虫框架里面出镜率最高的一个了,我们接下来重点研究一下它的使用规则. 安装过程自己百度一下,就能找到 ...

随机推荐

bug管理工具为开发者工作带来哪些改变？
BUG管理工具的主要功能是对软件开发测试过程中出现的BUG进行跟踪管理,提高开发者的工作效率与工作质量. 在实际工作中,如果没有bug管理工具的帮助,就可能会出现如下一系列的影响: 1.软件测试人员将 ...
apache源码安装
1.apr和apr-util,下载地址: http://apr.apache.org/download.cgi yum install gcc yum install libtool yum inst ...
Python 为什么要用yield
可能听说过,带有 yield 的函数在 Python 中被称之为 generator(生成器),何谓 generator ?我们先抛开 generator,以一个常见的编程题目来展示 yield 的概 ...
Linux基础命令---swapoff
swapoff 关闭交换分区,同时可以刷新交换分区的缓存.关闭交换分区后,使用free指令查看内存,swap数值会减少.此命令的适用范围:RedHat.RHEL.Ubuntu.CentOS.SUSE. ...
PowerDesigner 教程
摘自:http://www.cnblogs.com/advocate/p/3730027.html 目标:本文主要介绍PowerDesigner中概念数据模型 CDM的基本概念. 一.概念数据模型概述 ...
20145304 网络对抗技术逆向与Bof基础
20145304 网络对抗技术逆向与Bof基础实践目标学习以下两种方法,运行正常情况下不会被运行的代码: 手工修改可执行文件,改变程序执行流程,直接跳转到getShell函数. 利用foo函数的 ...
20165310 预备作业3 Linux安装及学习
预备作业3 Linux安装及学习安装虚拟机之前在win7系统下通过EasyBCD安装过Ubuntu虚拟机,这次阅读<基于VirtualBox虚拟机安装Ubuntu图文教程>又学习到了一 ...
CSAPP 第三章读书笔记
程序的机器级表示 AT&T与Intel格式的汇编代码我们的表述是ATT(根据"AT&T"命名的, AT&T是运营贝尔实验室多年的公司)格式的汇编代码,这 ...
arch/manjaro linux configuration
0. Installation SystemConfiguration: # 启动时选择第二项boot(non-free),Manjaro自带的驱动精灵会帮你安装好所需驱动,笔记本双显卡则会帮你安装b ...
浅入浅出JS中的eval及json
声明: 首先声明一下,本人是JS新手,所以不敢说深入,只是把最近对eval的学习经验拿出来跟大家分享,如果您是高手可略去不看. 适合读者: 对JS中的eval一知半解,不知eval是如何把字符串转换为 ...

Python 爬虫-获得大学排名

Python 爬虫-获得大学排名的更多相关文章

随机推荐

热门专题