python之中国大学爬虫

 #!/usr/bin/env python3

 #-*- coding:utf-8 -*-

 ############################

 #File Name: zuihaodaxuepaiming.py

 #Author: frank

 #Mail: frank0903@aliyun.com

 #Created Time:2018-05-15 21:45:55

 ############################

 import requests

 from bs4 import BeautifulSoup

 #1. 获取html页面的内容

 def getHTMLText(url):

     try:

         r = requests.get(url)

         r.raise_for_status()

         #r.encoding = r.apparent_encoding

         r.encoding = 'utf-8'

         return r.text

     except:

         print("爬取异常")

         return ""

 #2. 从html页面内容中爬取大学排名信息, (排名，学校名称，总分)

 def getUnivInfo(uLst, html):

     soup = BeautifulSoup(html, "lxml")

     #获取排名中的大学的数量

     print(len(soup.tbody.find_all("tr", recursive=False)))

     #列出tbody的子节点

     #for tag in soup.tbody.find_all('tr', recursive=False):

     #    #print("name:{},type:{}".format(tag.name, type(tag)))

     #    print(tag.td.string)

     for tr in soup.tbody.find_all('tr', recursive=False,limit=1):

         tds = tr('td')

         #print(tr.prettify())

         #print(tds)

         #print(tds[0].string,tds[1].string, tds[3].string)

         uLst.append([tds[0].string,tds[1].string, tds[3].string])

 #3. 显示排名信息

 #def printUnivInfo(uLst, num):

 #    print("{0:^10}\t{1:{3}^10}\t{2:^10}".format("排名","学校名称","总分",chr(12288)))

 #    for uni in uLst[0:num]:

 #        print("{0:^10}\t{1:{3}^10}\t{2:^10}".format(uni[0],uni[1],uni[2],chr(12288)))

 def printUnivInfo(uLst, num):

     ptstr = "{0:^10}\t{1:{3}^10}\t{2:^10}"

     print(ptstr.format("排名","学校名称","总分",chr(12288)))

     for uni in uLst[0:num]:

         print(ptstr.format(uni[0],uni[1],uni[2],chr(12288))) #中文字符的空格填充 chr(12288)

 def main():

     url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html"

     uLst = []

     html = getHTMLText(url)

     #print(html)

     print("getHTMLText")

     getUnivInfo(uLst, html)

     print("getUnivInfo")

     printUnivInfo(uLst, 10)

 main()

该实例主要是针对 requests 和 BeautifulSoup的应用。

python之中国大学爬虫的更多相关文章

Python之爬虫-中国大学排名
Python之爬虫-中国大学排名 #!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import Be ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
python网络爬虫-中国大学排名定向爬虫
爬虫定向爬取中国大学排名信息 #!/usr/bin/python3 import requests from bs4 import BeautifulSoup import bs4 #从网络上获取大学 ...
Python 中国大学排名定向爬虫
代码来自于中国大学Mooc北京理工大学Pythont教学团队:https://www.icourse163.org/learn/BIT-1001870001#/learn/content?type=d ...
【python】下载中国大学MOOC的视频
[python]下载中国大学MOOC的视频脚本目标: 输入课程id和cookie下载整个课程的视频文件,方便复习时候看网站的反爬机制分析: 分析数据包的目的:找到获取m3u8文件的路径 1. 从第 ...
中国大学MOOC课程信息爬取与数据存储
版权声明:本文为博主原创文章,转载请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js ...
关于python的中国历年城市天气信息爬取
一.主题式网络爬虫设计方案(15分)1.主题式网络爬虫名称关于python的中国城市天气网爬取 2.主题式网络爬虫爬取的内容与数据特征分析爬取中国天气网各个城市每年各个月份的天气数据, 包括最高城 ...
中国大学MOOC课程信息之数据分析可视化一
版权声明:本文为博主原创文章,转载请注明出处:https://blog.csdn.net/sc2079/article/details/82263391 9月2日更:中国大学MOOC课程信息之数据分 ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...

随机推荐

nginx bind() to 0.0.0.0:**** failed (13: Permission denied)
nginx 启动失败,日志里面报错信息如下: Starting nginx: nginx: [emerg] bind() to 0.0.0.0:**** failed (13: Permission ...
iOS:UIResponser控件的介绍(响应者)
UIResponser响应者控件知识: 在iOS中不是任何对象都能处理事件,只有继承了UIResponser的对象才能接收并处理事件.我们称之为“响应者对象” UIApplication,UIV ...
soap-学习
1. SOAP 是一种简单的基于 XML 的协议,它使应用程序通过 HTTP 来交换信息. 简单的说:SOAP是用于访问网络服务的协议. 2. 什么是SOAP SOAP 指简易对象访问协议 SOAP ...
[转载]Delphi事件的广播
https://blog.csdn.net/dropme/article/details/975736 明天就是五一节了,辛苦了好几个月,借此机会应该尽情放松一番.可是想到Blog好久没有写文章,似乎 ...
流畅的python第十二章继承的优缺点学习记录
子类化内置类型的缺点多重集成和方法解析顺序 tkinter
how to use coffee script
TABLE OF CONTENTS TRY COFFEESCRIPT ANNOTATED SOURCE CoffeeScript is a little language that compiles ...
【C#】：浅谈反射机制【转】
http://blog.csdn.net/lianjiangwei/article/details/47207875 什么是反射? 反射提供了封装程序集.模块和类型的对象(Type 类型).可以使用反 ...
使用 session_destroy() 销毁session文件时报 Trying to destroy uninitialized session 错误解决办法
在使用 sessio_destroy() 销毁session文件的时候,必须要先使用session_start() 来开启session 后才能删除session文件
桌面轻量级数据库的选择：Access、SQLite、自己编写？
1. Access我们做小项目的时候特别是小的MIS系统一般也都要用数据库来保存数据.经观察大部分的小系统都是用Access数据库,有的系统为了掩盖数据库的类型,把数据文件后缀名改了,其实只要改回到m ...
使用git-svn迁移SVN至GitLab
使用git-svn迁移SVN至GitLab 1.安装git和git-svn 后面的步骤中对git版本有一定要求,通过yum安装的git版本较低,这里进行编译安装 [root@DevTest ~]# y ...

python之中国大学爬虫

python之中国大学爬虫的更多相关文章

随机推荐

热门专题