python网络爬虫-中国大学排名定向爬虫

爬虫定向爬取中国大学排名信息

#!/usr/bin/python3

import requests

from bs4 import BeautifulSoup

import bs4 

#从网络上获取大学排名网页内容

def get_HTML_text(url):

    try:

        r=requests.get(url,    timeout=)

        r.raise_for_status()

        r.encoding=r.apparent_encoding

        return r.text

    except:

        return '该网页请求连接失败'

#提取指定网页内容信息到合适的数据结构(二维列表存储信息)

def fill_university_list(list_info,html):

    count=

    soup=BeautifulSoup(html,'html.parser')

    for tr in soup.find('tbody').children:

        if isinstance(tr,bs4.element.Tag): #过滤body标签的子标签的字符串类型（非Tag类型）

            count+=

            tds=tr('td')

            list_info.append([tds[].string,tds[].string,tds[].string,tds[].string,tds[].string])

    return count

#利用数据结构展示并输出结果

def print_university_list(list_info,num):

    tplt='{0:^5}{1:{5}^20}{2:^17}{3:^5}{4:^18}'

    print(tplt.format('学校排名','学校名称','评分','所属类型','所在地域',chr()))

    for i in range(num):

        u=list_info[i]

        print(tplt.format(u[],u[],u[],u[],u[],chr()))

if __name__=="__main__":

    list_info=[]

    url='http://www.gaokaopai.com/paihang-otype-2.html?f=1&ly=bd&city=&cate=&batch_type='

    html=get_HTML_text(url)

    num=fill_university_list(list_info,html)

    print_university_list(list_info,num)

python网络爬虫-中国大学排名定向爬虫的更多相关文章

Python 中国大学排名定向爬虫
代码来自于中国大学Mooc北京理工大学Pythont教学团队:https://www.icourse163.org/learn/BIT-1001870001#/learn/content?type=d ...
Python之爬虫-中国大学排名
Python之爬虫-中国大学排名 #!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import Be ...
python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学目标:爬取最好大学网前50名大学代码如下: import requests from bs4 import Beautiful ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
【python】下载中国大学MOOC的视频
[python]下载中国大学MOOC的视频脚本目标: 输入课程id和cookie下载整个课程的视频文件,方便复习时候看网站的反爬机制分析: 分析数据包的目的:找到获取m3u8文件的路径 1. 从第 ...
python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
python爬虫入门---第二篇：获取2019年中国大学排名
我们需要爬取的网站:最好大学网我们需要爬取的内容即为该网页中的表格部分: 该部分的html关键代码为: 其中整个表的标签为<tbody>标签,每行的标签为<tr>标签,每行中 ...
python （2）xpath与定向爬虫
内容来自:极客学院,教学视频: 写在前面: 提取Item 选择器介绍我们有很多方法从网站中提取数据.Scrapy 使用一种叫做 XPath selectors的机制,它基于 XPath表达式. 这是 ...
Python 爬虫-获得大学排名
2017-07-29 23:20:24 主要技术路线:requests+bs4+格式化输出 import requests from bs4 import BeautifulSoup url = 'h ...

随机推荐

org.springframework.cache.interceptor.SimpleKey cannot be cast to java.lang.String
springboot整合redis时,使用@Cacheable注解,如果方法的key参数为空,就会报org.springframework.cache.interceptor.SimpleKey ca ...
Spring-Data-JPA尝鲜：快速搭建CRUD+分页后台实例
前言:由于之前没有接触过Hibernate框架,但是最近看一些博客深深被它的"效率"所吸引,所以这就来跟大家一起就着一个简单的例子来尝尝Spring全家桶里自带的JPA的鲜 Spr ...
pins-模块内的代码及资源隔离方案
随着项目的不断迭代,复杂的业务模块及项目自身的基础技术组件迅速扩张,以往基于单个模块的项目往往显得过于臃肿.代码目录结构,包名混乱,代码模块职责不清晰,耦合度高,不便维护.基础公共组件没有抽取并剥离干 ...
安装Mysql时端口号3306被占用,解决方法
当我们在卸载mysql数据库重新安装的时候,会出现端口号3306被占用的情况有两种解决方案: 一:可以不使用3306端口,也可以换成别的端口,如3307,3308等等二:可以打开命令窗口 1.wi ...
Java 处理PDF图章（印章）——图片图章、动态图章
图章(印章)是一种在合同.票据.公文等文件中表明法律效应.部门机关权威的重要指示物,常见于各种格式的文件.文档中.对于纸质文档可以手动盖章,但对于电子文档,则需要通过特定的方法来实现.本篇文档分享通过 ...
【error】Gradle sync failed: Unable to start the daemon process.【已解决】
---恢复内容开始--- 在克隆GIT项目后,Android Studio 报错: Gradle sync failed: Unable to start the daemon process. Th ...
win10彻底禁用自动更新，win10怎样彻底关闭自动更新，永久关闭win10自动更新，win10更新助手
首先,请广大win10受害者原谅小菜用一个如此长的标题来吸引你们,为了尽最大努力帮助那些饱受win10自动更新折磨的朋友们,小菜不得已出此下策,望见谅! windows 10是一个神奇的操作系统,当你 ...
eShopOnContainers 知多少[2]：Run起来
环境准备 Win10(开启Hyper-V) .NET Core SDK Docker for Windows VS2017 or VS Code Git SQL Server Management S ...
中国四大骨干网与十大ISP服务商
1.骨干网几台计算机连接起来,互相可以看到其他人的文件,这叫局域网,整个城市的计算机都连接起来,就是城域网,把城市之间连接起来的网就叫骨干网.这些骨干网是国家批准的可以直接和国外连接的互联网.其他有 ...
微信小程序中转义字符的处理
在微信小程序开发过程中,有时候会用到常用的一些特殊字符如:‘<’.‘>’.‘&’.‘空格’等,微信小程序同样支持对转义字符的处理,下面提供两种方法用来处理微信小程序中转义字符的处理 ...

python网络爬虫-中国大学排名定向爬虫

python网络爬虫-中国大学排名定向爬虫的更多相关文章

随机推荐

热门专题