项目目标:

Boston Public Schools Geo数据是来自于Boston地区的公共学校的数据,具体描述了学校的坐标,名字,类型等。基于此数据,我们可以学习一些基本的Python数据分析的方法。例如,研究学校的分布情况,类型统计等。

数据集介绍:

数据集的介绍如下,其中比较重要的字段有X,Y坐标,ADDRESS地址,ZIPCODE,School类型

Data columns (total 21 columns):
X 131 non-null float64
Y 131 non-null float64
OBJECTID_1 131 non-null int64
OBJECTID 131 non-null int64
BLDG_ID 131 non-null int64
BLDG_NAME 131 non-null object
ADDRESS 131 non-null object
CITY 131 non-null object
ZIPCODE 131 non-null int64
CSP_SCH_ID 131 non-null int64
SCH_ID 131 non-null int64
SCH_NAME 131 non-null object
SCH_LABEL 131 non-null object
SCH_TYPE 131 non-null object
SHARED 131 non-null object
COMPLEX 131 non-null object
Label 131 non-null int64
TLT 131 non-null int64
PL 131 non-null object
POINT_X 131 non-null float64
POINT_Y 131 non-null float64

关键代码实现:

  1. 加载数据

    schools = pd.read_csv('../input/Public_Schools.csv')
    schools.info()

    可以看到数据字段如下,一共有21个字段,其中有9个Object类型,4个float64, 8个int64

    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 131 entries, 0 to 130
    Data columns (total 21 columns):
    X 131 non-null float64
    Y 131 non-null float64
    OBJECTID_1 131 non-null int64
    OBJECTID 131 non-null int64
    BLDG_ID 131 non-null int64
    BLDG_NAME 131 non-null object
    ADDRESS 131 non-null object
    CITY 131 non-null object
    ZIPCODE 131 non-null int64
    CSP_SCH_ID 131 non-null int64
    SCH_ID 131 non-null int64
    SCH_NAME 131 non-null object
    SCH_LABEL 131 non-null object
    SCH_TYPE 131 non-null object
    SHARED 131 non-null object
    COMPLEX 131 non-null object
    Label 131 non-null int64
    TLT 131 non-null int64
    PL 131 non-null object
    POINT_X 131 non-null float64
    POINT_Y 131 non-null float64
    dtypes: float64(4), int64(8), object(9)
    memory usage: 21.6+ KB


    2.接下来,探索数据的缺失值

    schools.isnull().any() 

    可以看到,数据没有缺失值

     X False
    Y False
    OBJECTID_1 False
    OBJECTID False
    BLDG_ID False
    BLDG_NAME False
    ADDRESS False
    CITY False
    ZIPCODE False
    CSP_SCH_ID False
    SCH_ID False
    SCH_NAME False
    SCH_LABEL False
    SCH_TYPE False
    SHARED False
    COMPLEX False
    Label False
    TLT False
    PL False
    POINT_X False
    POINT_Y False
    dtype: bool
  2. 接下来,Count frequency of schools in each city

     schools_per_city = schools['CITY'].value_counts()
    sns.set()
    plt.rcParams['figure.figsize'] = [20, 7]
    sns.barplot(x=schools_per_city.index, y=schools_per_city.get_values())

可以看到不同地区的公立学校不同数量

  1. 按照ZIPCode统计学校情况

     school_zipcode = schools['ZIPCODE'].value_counts() sns.set() 
    2 sns.barplot(x=school_zipcode.index, y=school_zipcode.get_values())

未完待续~  欢迎大家关注我的公众号,“思享会Club”,获取该内容资源。

Python数据分析实战-Boston Public Schools GEO数据分析-Part1的更多相关文章

  1. Python数据分析实战视频教程【小蚊子数据分析实战课程】

    点击了解更多Python课程>>> Python数据分析实战视频教程[小蚊子数据分析实战课程] [课程概述] Python数据分析实战' 适用人群:适合需提升竞争力.提升工作效率.喜 ...

  2. 万字长文,Python数据分析实战,使用Pandas进行数据分析

    文章目录 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家 ...

  3. Python数据分析实战

    Python数据分析实战(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/1nlHM1IW8MYg3z79TUwIsWg 提取码:ux8t 复制这段内容后打开百度网盘手 ...

  4. 【python数据分析实战】电影票房数据分析(一)数据采集

    目录 1.获取url 2.开始采集 3.存入mysql 本文是爬虫及可视化的练习项目,目标是爬取猫眼票房的全部数据并做可视化分析. 1.获取url 我们先打开猫眼票房http://piaofang.m ...

  5. 【python数据分析实战】电影票房数据分析(二)数据可视化

    目录 图1 每年的月票房走势图 图2 年票房总值.上映影片总数及观影人次 图3 单片总票房及日均票房 图4 单片票房及上映月份关系图 在上一部分<[python数据分析实战]电影票房数据分析(一 ...

  6. 向大家介绍我的新书:《基于股票大数据分析的Python入门实战》

    我在公司里做了一段时间Python数据分析和机器学习的工作后,就尝试着写一本Python数据分析方面的书.正好去年有段时间股票题材比较火,就在清华出版社夏老师指导下构思了这本书.在这段特殊时期内,夏老 ...

  7. 基于股票大数据分析的Python入门实战(视频教学版)的精彩插图汇总

    在我写的这本书,<基于股票大数据分析的Python入门实战(视频教学版)>里,用能吸引人的股票案例,带领大家入门Python的语法,数据分析和机器学习. 京东链接是这个:https://i ...

  8. MySQL数据分析实战-朱元禄-专题视频课程

    MySQL数据分析实战-496人已学习 课程介绍        本套课程由知名数据分析博主jacky老师录制,深入浅出讲解MySQL数据分析,从实战角度出发,帮助大家制胜职场!课程收益    1.学会 ...

  9. 《MySQL数据分析实战》八句箴言前四句解析

    大家好,我是jacky朱元禄,很高兴继续跟大家学习<MySQL数据分析实战>,从本节课程开始,jacky将从SQL语句入手,给大家解析八句箴言: 不管三七二十一,先把数据show来看: 数 ...

随机推荐

  1. ES6系列文章 异步神器async-await

    关于异步处理,ES5的回调使我们陷入地狱,ES6的Promise使我们脱离魔障,终于.ES7的async-await带我们走向光明.今天就来学习一下 async-await. async-await和 ...

  2. ssm框架基础搭建

    1项目搭建环境  windows10+eclipse4.8+tomcat7+jdk1.7 2.使用maven搭建 1)首先eclipse配置好maven环境 2)file--new--other 3) ...

  3. MyBatis之properties配置

    这些属性都是可外部配置且可动态替换的,既可以在典型的 Java 属性文件中配置,亦可通过 properties 元素的子元素来传递.例如: <properties resource=" ...

  4. oracle cascade用法

    原文地址:https://www.cnblogs.com/moyijian/p/9940323.html#4111551 级联删除,比如你删除某个表的时候后面加这个关键字,会在删除这个表的同时删除和该 ...

  5. mint-ui message box 问题;

    当引用 mint-ui message box 的 出现的问题,我暂时是不知道为什么: 官网是这样写的: 于是 我也这么做的:(这里用小写,具体我也不清楚,毕竟文档上写的也不是很清楚,但是只有这样写, ...

  6. [Doctrine Migrations] 数据库迁移组件的深入解析一:安装与使用

    场景分析 团队开发中,每个开发人员对于数据库都修改都必须手动记录,上线时需要人工整理,运维成本极高.而且在多个开发者之间数据结构同步也是很大的问题.Doctrine Migrations组件把数据库变 ...

  7. python3 安装pyhanlp方法

    直接pip install pyhanlp的时候会提示缺少Microsoft Visual c++环境, 其实没有Microsoft Visual c++环境也是可以的, 可以先安装jpype1,然后 ...

  8. Java学习笔记二十八:Java中的接口

    Java中的接口 一:Java的接口: 接口(英文:Interface),在JAVA编程语言中是一个抽象类型,是抽象方法的集合,接口通常以interface来声明.一个类通过继承接口的方式,从而来继承 ...

  9. 手搓一个C语言简单计算器。

    #include <stdio.h> void xing(int shu); void biaoti(int kong,char * title); void zhuyemian(char ...

  10. VINS(六)边缘化

    通常的边缘化是将联合概率分布分解为边缘概率分布和条件概率分布的过程,这样可以将Sliding Window中较旧的状态边缘化出Sliding Window,同时保留其信息.并且保证了对应H海塞矩阵的稀 ...