Python爬虫入门教程 38-100 教育部高校名单数据爬虫 scrapy

爬前叨叨

今天要爬取一下正规大学名单，这些名单是教育部公布具有招生资格的高校名单，除了这些学校以外，其他招生的单位，其所招学生的学籍、发放的毕业证书国家均不予承认，也就是俗称的野鸡大学！

网址是 https://daxue.eol.cn/mingdan.shtml 爬取完毕之后，我们进行一些基本的数据分析，套路如此类似，哈哈

这个小项目采用的是scrapy，关键代码

import scrapy

from scrapy import Request,Selector

class SchoolSpider(scrapy.Spider):

    name = 'School'

    allowed_domains = ['daxue.eol.cn']

    start_urls = ['https://daxue.eol.cn/mingdan.shtml']

    def parse(self, response):

        select = Selector(response)

        links = select.css(".province>a")

        for item in links:

            name = item.css("::text").extract_first()

            link = item.css("::attr(href)").extract_first()

            if name in ["河南","山东"]:

                yield Request(link,callback=self.parse_he_shan,meta={"name" : name})

            else:

                yield Request(link,callback=self.parse_school,meta={"name" : name})

注意到几个问题，第一个所有的页面都可以通过第一步抓取到

但是里面出现了两个特殊页面，也就是山东和河南

北京等学校

河南等学校

对于两种不同的排版，我们采用2个方法处理，细节的地方看代码就可以啦！

尤其是下面对字符串的处理，你要仔细的查阅~

    # 专门为河南和山东编写的提取方法

    def parse_he_shan(self,response):

        name = response.meta["name"]

        data = response.css(".table-x tr")

        for item in data:

            school_name = item.css("td:not(.tmax)::text").extract()

            if len(school_name)>0:

                for s in school_name:

                    if len(s.strip())>0:

                        if len(s.split("."))==1:

                            last_name = s.split(".")[0]

                        else:

                            last_name = s.split(".")[1]  # 最终获取到的名字

                        yield {

                            "city_name": name,

                            "school_name": last_name,

                            "code": "",

                            "department": "",

                            "location": "",

                            "subject": "",

                            "private": ""

                        }

    # 通用学校提取

    def parse_school(self,response):

        name = response.meta["name"]

        schools = response.css(".table-x tr")[2:]

        for item in schools:

            school_name = item.css("td:nth-child(2)::text").extract_first()

            code =  item.css("td:nth-child(3)::text").extract_first()

            department = item.css("td:nth-child(4)::text").extract_first()

            location = item.css("td:nth-child(5)::text").extract_first()

            subject = item.css("td:nth-child(6)::text").extract_first()

            private = item.css("td:nth-child(7)::text").extract_first()

            yield {

                "city_name":name,

                "school_name":school_name,

                "code":code,

                "department":department,

                "location":location,

                "subject":subject,

                "private":private

            }

运行代码，跑起来，一会数据到手。O(∩_∩)O哈哈~

查看专科学校和本科学校数量差别

因为河南和山东数据的缺失，需要踢出这两个省份

import pymongo

import numpy as np

import pandas as pd

from pandas import Series,DataFrame

import matplotlib.pyplot as plt

client = pymongo.MongoClient("localhost",27017)

schools = client["school"]

collection = schools["schools"]

df = DataFrame(list(collection.find()))

df = df[df["code"]!=""]

# 汇总本科和专业

df.groupby(["subject"]).size()

结果显示，数量基本平衡

subject

专科    1240

本科    1121

dtype: int64

查看各省排名

rank = df.groupby(by="city_name").size()

rank = rank.sort_values(ascending=False)

# 设置中文字体和负号正常显示

plt.rcParams['font.sans-serif'] = ['SimHei']

plt.rcParams['axes.unicode_minus'] = False

plt.figure(figsize=(12,8),dpi=80)

plt.subplot(1,1,1)

x = np.arange(len(rank.index))

y = rank.values

rect = plt.bar(left=x,height=y,width=0.618,label="学校数目",align="center",color="#03a9f4",edgecolor="#03a9f4",)

plt.xticks(x,rank.index,rotation=45,fontsize=9)

plt.yticks(np.arange(0,180,10))

plt.xlabel("城市")

plt.ylabel("大学数量")

plt.legend(loc = "upper right")

## 编辑文本

for r in rect:

    height = r.get_height() # 获取高度

    plt.text(r.get_x()+r.get_width()/2,height+1,str(height),size=6,ha="center",va="bottom")

plt.show()

好好研究这部分代码，咱已经开始慢慢的在爬虫中添加数据分析的内容了，我会尽量把一些常见的参数写的清晰一些

江苏和广东大学真多~

Python爬虫入门教程 38-100 教育部高校名单数据爬虫 scrapy的更多相关文章

Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...
Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy
爬前叨叨全站爬虫有时候做起来其实比较容易,因为规则相对容易建立起来,只需要做好反爬就可以了,今天咱们爬取知乎.继续使用scrapy当然对于这个小需求来说,使用scrapy确实用了牛刀,不过毕竟本博客 ...
Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...
Python爬虫入门教程 21-100 网易云课堂课程数据抓取
写在前面今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...
Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
Python学习入门教程，字符串函数扩充详解
因有用户反映,在基础文章对字符串函数的讲解太过少,故写一篇文章详细讲解一下常用字符串函数.本文章是对:程序员带你十天快速入门Python,玩转电脑软件开发(三)中字符串函数的详解与扩充. 如果您想学习 ...

随机推荐

Java单例模式(Singleton)以及实现
一. 什么是单例模式因程序需要,有时我们只需要某个类同时保留一个对象,不希望有更多对象,此时,我们则应考虑单例模式的设计. 二. 单例模式的特点 1. 单例模式只能有一个实例. 2. 单例类必须创建 ...
关于loadrunner使用web_add_header添加HTTP信息头（比如Content-Type，token等）和使用
关于loadrunner使用web_add_header添加HTTP信息头(比如Content-Type,token等)和使用 1.web_add_header添加HTTP信息头(比如Content- ...
Robot Framework自动化_环境搭建以及第一个用例
Robot Framework自动化_环境搭建以及第一个脚本培训老师:肖能尤 2016/06/07 课程目的一.Robot framework 环境搭建以及第一个脚本课程内容 1 安装前准 ...
Xamarin.Android 使用AsyncTask提示上传动态
我们有时候会通过WebServices上传数据,如果信息量过大并没有提示,用户会觉得是死机,或是系统崩溃,这时候我们可以用到AsyncTask(异步任务)来提示上传信息,例如:正在上传数据... 这里 ...
【转】搭建自己的 sentry 服务
1. 安装 docker 首先要确认你的 Ubuntu 版本是否符合安装 Docker 的前提条件.如果没有问题,你可以通过下边的方式来安装 Docker : 使用具有 sudo 权限的用户来登录你的 ...
Myeclipse按包装SVN
最简单步骤:把features和plugins直接放到Myeclipse安装包的dropins中,从新启动eclipse即可 features和plugins下载地址:http://pan.baidu ...
ActiveMQ的消息持久化机制
为了避免意外宕机以后丢失信息,需要做到重启后可以恢复消息队列,消息系统一般都会采用持久化机制. ActiveMQ的消息持久化机制有JDBC,AMQ,KahaDB和LevelDB,无论使用哪种持久化方式 ...
MySQL提示“too many connections”的解决办法
今天生产服务器上的MySQL出现了一个不算太陌生的错误"Too many connections".平常碰到这个问题,我基本上是修改/etc/my.cnf的max_connecti ...
SSM-Spring-14：Spring中默认自动代理DefaultAdvisorAutoProxyCreator
------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- 默认自动代理DefaultAdvisorAutoProxyCreator 本处没有什么要讲的,放原代码 ISo ...
sql server 死锁排查
记得以前客户在使用软件时,有偶发出现死锁问题,因为发生的时间不确定,不好做问题的重现,当时解决问题有点棘手了. 现总结下查看死锁的常用二种方式: 第一种是图形化监听: sqlserver --> ...