爬前叨叨

今天要爬取一下正规大学名单,这些名单是教育部公布具有招生资格的高校名单,除了这些学校以外,其他招生的单位,其所招学生的学籍、发放的毕业证书国家均不予承认,也就是俗称的野鸡大学

网址是 https://daxue.eol.cn/mingdan.shtml 爬取完毕之后,我们进行一些基本的数据分析,套路如此类似,哈哈

这个小项目采用的是scrapy,关键代码

import scrapy
from scrapy import Request,Selector class SchoolSpider(scrapy.Spider):
name = 'School'
allowed_domains = ['daxue.eol.cn']
start_urls = ['https://daxue.eol.cn/mingdan.shtml'] def parse(self, response):
select = Selector(response)
links = select.css(".province>a") for item in links:
name = item.css("::text").extract_first()
link = item.css("::attr(href)").extract_first() if name in ["河南","山东"]:
yield Request(link,callback=self.parse_he_shan,meta={"name" : name})
else:
yield Request(link,callback=self.parse_school,meta={"name" : name})

注意到几个问题,第一个所有的页面都可以通过第一步抓取到

但是里面出现了两个特殊页面,也就是山东和河南

北京等学校

河南等学校

对于两种不同的排版,我们采用2个方法处理,细节的地方看代码就可以啦!

尤其是下面对字符串的处理,你要仔细的查阅~

    # 专门为河南和山东编写的提取方法
def parse_he_shan(self,response):
name = response.meta["name"]
data = response.css(".table-x tr")
for item in data:
school_name = item.css("td:not(.tmax)::text").extract() if len(school_name)>0:
for s in school_name:
if len(s.strip())>0:
if len(s.split("."))==1:
last_name = s.split(".")[0]
else:
last_name = s.split(".")[1] # 最终获取到的名字
yield {
"city_name": name,
"school_name": last_name,
"code": "",
"department": "",
"location": "",
"subject": "",
"private": ""
} # 通用学校提取
def parse_school(self,response):
name = response.meta["name"] schools = response.css(".table-x tr")[2:] for item in schools: school_name = item.css("td:nth-child(2)::text").extract_first()
code = item.css("td:nth-child(3)::text").extract_first()
department = item.css("td:nth-child(4)::text").extract_first()
location = item.css("td:nth-child(5)::text").extract_first()
subject = item.css("td:nth-child(6)::text").extract_first()
private = item.css("td:nth-child(7)::text").extract_first()
yield {
"city_name":name,
"school_name":school_name,
"code":code,
"department":department,
"location":location,
"subject":subject,
"private":private
}

运行代码,跑起来,一会数据到手。O(∩_∩)O哈哈~

查看专科学校和本科学校数量差别

因为河南和山东数据的缺失,需要踢出这两个省份

import pymongo
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt client = pymongo.MongoClient("localhost",27017)
schools = client["school"]
collection = schools["schools"] df = DataFrame(list(collection.find())) df = df[df["code"]!=""]
# 汇总本科和专业
df.groupby(["subject"]).size()

结果显示,数量基本平衡

subject
专科 1240
本科 1121
dtype: int64

查看各省排名

rank = df.groupby(by="city_name").size()
rank = rank.sort_values(ascending=False) # 设置中文字体和负号正常显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False plt.figure(figsize=(12,8),dpi=80)
plt.subplot(1,1,1) x = np.arange(len(rank.index))
y = rank.values
rect = plt.bar(left=x,height=y,width=0.618,label="学校数目",align="center",color="#03a9f4",edgecolor="#03a9f4",) plt.xticks(x,rank.index,rotation=45,fontsize=9)
plt.yticks(np.arange(0,180,10)) plt.xlabel("城市")
plt.ylabel("大学数量") plt.legend(loc = "upper right") ## 编辑文本 for r in rect:
height = r.get_height() # 获取高度 plt.text(r.get_x()+r.get_width()/2,height+1,str(height),size=6,ha="center",va="bottom") plt.show()

好好研究这部分代码,咱已经开始慢慢的在爬虫中添加数据分析的内容了,我会尽量把一些常见的参数写的清晰一些

江苏和广东大学真多~

Python爬虫入门教程 38-100 教育部高校名单数据爬虫 scrapy的更多相关文章

  1. Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy

    爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...

  2. Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy

    爬前叨叨 全站爬虫有时候做起来其实比较容易,因为规则相对容易建立起来,只需要做好反爬就可以了,今天咱们爬取知乎.继续使用scrapy当然对于这个小需求来说,使用scrapy确实用了牛刀,不过毕竟本博客 ...

  3. Python爬虫入门教程 23-100 石家庄链家租房数据抓取

    1. 写在前面 作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...

  4. Python爬虫入门教程 21-100 网易云课堂课程数据抓取

    写在前面 今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...

  5. Python爬虫入门教程 15-100 石家庄政民互动数据爬取

    石家庄政民互动数据爬取-写在前面 今天,咱抓取一个网站,这个网站呢,涉及的内容就是 网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...

  6. Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分

    1. Python爬虫入门教程 爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...

  7. Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分

    1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...

  8. Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy

    爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下 一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒 数据分析 官方网址为 https://www.clouderwor ...

  9. Python学习入门教程,字符串函数扩充详解

    因有用户反映,在基础文章对字符串函数的讲解太过少,故写一篇文章详细讲解一下常用字符串函数.本文章是对:程序员带你十天快速入门Python,玩转电脑软件开发(三)中字符串函数的详解与扩充. 如果您想学习 ...

随机推荐

  1. C/C++静态代码安全检查工具

    静态代码安全检查工具是一种能够帮助程序员自动检测出源程序中是否存在安全缺陷的软件.它通过逐行分析程序的源代码,发现软件中潜在的安全漏洞.本文针对 C/C++语言程序设计中容易存在的多种安全问题,分别分 ...

  2. 最详细的JavaWeb开发基础之java环境搭建(Windows版)

    阅读文本大概需要 3 分钟. 首先欢迎大家来学习JavaWeb,在这里会给你比较详细的教程,从最基本的开始,循序渐进的深入.会让初学者的你少踩很多坑(大实话),如果你已经掌握了JavaWeb开发的基础 ...

  3. java(二、基础语法和基本数据类型)

    Java 基础语法 一个Java程序可以认为是一系列对象的集合,而这些对象通过调用彼此的方法来协同工作.下面简要介绍下类.对象.方法和实例变量的概念. 对象:对象是类的一个实例,有状态和行为.例如,一 ...

  4. C#现代代码风格指南

    参考资料: asp.net 主页仓库 代码风格 -- 一般原则 最通用的指导原则是我们使用所有的VS默认设置的代码格式,除了我们把系统命名空间放在其他命名空间之前(这在VS中是默认的,但是在VS的更新 ...

  5. TensorFlow源码安装

    前言 TensorFlow如果能二进制包安装,我真的不想选择自己编译,但是情况不由人,好不容易找到一台服务器,CPU不支持AVX指令集,安装的release版本运行到import tensorflow ...

  6. oracle的事务级别

    ooracle的事务级别是不提交的,如果在sql语句中插入数据,如果不提交(commit).在程序里面试读不出来数据的.长时间不用oracle竟然忘了这些东西,特此记下.方便以后查看

  7. 使用Coding Pages托管网站

    作者:荒原之梦 Coding官网: https://coding.net Coding Pages官网页面: https://coding.net/pages/ 具体过程如下: 1 注册Coding账 ...

  8. 你不知道的JavaScript--Item22 Date对象全解析

    本篇主要介绍 Date 日期和时间对象的操作. 1. 介绍 1.1 说明 Date对象,是操作日期和时间的对象.Date对象对日期和时间的操作只能通过方法. 1.2 属性 无: Date对象对日期和时 ...

  9. 玩转CSS3(二)---CSS3实现瀑布布局

    请珍惜小编劳动成果,该文章为小编原创,转载请注明出处. 觉得腾讯微博微频道里的那种布局方式很好,在这里利用CSS3简单的实现了一下. 先上一张效果图: 代码: pubu.css /* CSS Docu ...

  10. Java 读书笔记 (五) 目标数据类型转换

    数据类型转换必须满足如下规则: 不能对boolean类型进行类型转换 不能把对象类型转换成不相关类的对象  //那不同类的对象可以用同一个名字命名吗?根据作用域原则,可以吧? 把容量大的转换为容量小的 ...