python网络爬虫-中国大学排名定向爬虫

爬虫定向爬取中国大学排名信息

#!/usr/bin/python3

import requests

from bs4 import BeautifulSoup

import bs4 

#从网络上获取大学排名网页内容

def get_HTML_text(url):

    try:

        r=requests.get(url,    timeout=)

        r.raise_for_status()

        r.encoding=r.apparent_encoding

        return r.text

    except:

        return '该网页请求连接失败'

#提取指定网页内容信息到合适的数据结构(二维列表存储信息)

def fill_university_list(list_info,html):

    count=

    soup=BeautifulSoup(html,'html.parser')

    for tr in soup.find('tbody').children:

        if isinstance(tr,bs4.element.Tag): #过滤body标签的子标签的字符串类型（非Tag类型）

            count+=

            tds=tr('td')

            list_info.append([tds[].string,tds[].string,tds[].string,tds[].string,tds[].string])

    return count

#利用数据结构展示并输出结果

def print_university_list(list_info,num):

    tplt='{0:^5}{1:{5}^20}{2:^17}{3:^5}{4:^18}'

    print(tplt.format('学校排名','学校名称','评分','所属类型','所在地域',chr()))

    for i in range(num):

        u=list_info[i]

        print(tplt.format(u[],u[],u[],u[],u[],chr()))

if __name__=="__main__":

    list_info=[]

    url='http://www.gaokaopai.com/paihang-otype-2.html?f=1&ly=bd&city=&cate=&batch_type='

    html=get_HTML_text(url)

    num=fill_university_list(list_info,html)

    print_university_list(list_info,num)

python网络爬虫-中国大学排名定向爬虫的更多相关文章

Python 中国大学排名定向爬虫
代码来自于中国大学Mooc北京理工大学Pythont教学团队:https://www.icourse163.org/learn/BIT-1001870001#/learn/content?type=d ...
Python之爬虫-中国大学排名
Python之爬虫-中国大学排名 #!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import Be ...
python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学目标:爬取最好大学网前50名大学代码如下: import requests from bs4 import Beautiful ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
【python】下载中国大学MOOC的视频
[python]下载中国大学MOOC的视频脚本目标: 输入课程id和cookie下载整个课程的视频文件,方便复习时候看网站的反爬机制分析: 分析数据包的目的:找到获取m3u8文件的路径 1. 从第 ...
python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
python爬虫入门---第二篇：获取2019年中国大学排名
我们需要爬取的网站:最好大学网我们需要爬取的内容即为该网页中的表格部分: 该部分的html关键代码为: 其中整个表的标签为<tbody>标签,每行的标签为<tr>标签,每行中 ...
python （2）xpath与定向爬虫
内容来自:极客学院,教学视频: 写在前面: 提取Item 选择器介绍我们有很多方法从网站中提取数据.Scrapy 使用一种叫做 XPath selectors的机制,它基于 XPath表达式. 这是 ...
Python 爬虫-获得大学排名
2017-07-29 23:20:24 主要技术路线:requests+bs4+格式化输出 import requests from bs4 import BeautifulSoup url = 'h ...

随机推荐

spring boot sharding-jdbc实现分佈式读写分离和分库分表的实现
分布式读写分离和分库分表采用sharding-jdbc实现. sharding-jdbc是当当网推出的一款读写分离实现插件,其他的还有mycat,或者纯粹的Aop代码控制实现. 接下面用spring ...
这年头做开源项目，被冷嘲热讽，FreeSql 0.0.4
FreeSql 项目大概在20天前想着要做的,今天发布0.0.4在群里被一位大神讽刺. 这位无名氏哥们的观点,先声明这不是找安慰的文章,更加不是报复打击的目的. 1 所以这个比EF好在哪里 2 毕竟E ...
Fundebug支付宝小程序BUG监控插件更新至0.2.0，新增test()方法，报错增加Page数据
摘要: 0.2.0新增fundebug.test()方法,同时报错增加了Page数据. Fundebug提供专业支付宝小程序BUG监控服务,可以第一时间为您捕获生存环境中小程序的异常.错误或者BUG, ...
小程序顶部navbar（非Slider）
wxml(该导航栏的实现原理是当你要显示哪个view在最前端的时候隐藏其他的view):  <view class="navbar& ...
Sublime中文乱码解决方案
1.首先按下ctrl+shift+P按键,将会出现输入框,其中输入install package. 一般情况下会在安装完成后直接出现输入框,输入ConvertToUtf8即可: 2.若未直接出现输入框 ...
OutOfMemoryError/OOM/内存溢出异常实例分析--堆内存溢出
Java堆内存溢出只要不断创建对象,并且保证GC Roots到对象之间有可达路径来避免垃圾回收机制清除这些对象, 那么在对象数量到达最大堆的容量限制后就会产生内存溢出异常,代码如下: import ...
http-server安装及运行
vue项目打包后会生成一个dist目录,我们想要直接运行dist目录...除了复制静态文件到服务器nginx目录下,然后启动nginx来启动项目, 另外一个办法就是安装http-server 直接启动 ...
this指针的初运用
this一般运用场景: 1.位于函数中,谁调用指向谁 var make = "Mclaren"; var model = "720s" function ful ...
再谈AbstractQueuedSynchronizer1：独占模式
关于AbstractQueuedSynchronizer JDK1.5之后引入了并发包java.util.concurrent,大大提高了Java程序的并发性能.关于java.util.concurr ...
Linux 桌面玩家指南：06. 优雅地使用命令行及 Bash 脚本编程语言中的美学与哲学
特别说明:要在我的随笔后写评论的小伙伴们请注意了,我的博客开启了 MathJax 数学公式支持,MathJax 使用$标记数学公式的开始和结束.如果某条评论中出现了两个$,MathJax 会将两个$之 ...

python网络爬虫-中国大学排名定向爬虫

python网络爬虫-中国大学排名定向爬虫的更多相关文章

随机推荐

热门专题