Python数据分析实战-Boston Public Schools GEO数据分析-Part1
项目目标:
Boston Public Schools Geo数据是来自于Boston地区的公共学校的数据,具体描述了学校的坐标,名字,类型等。基于此数据,我们可以学习一些基本的Python数据分析的方法。例如,研究学校的分布情况,类型统计等。
数据集介绍:
数据集的介绍如下,其中比较重要的字段有X,Y坐标,ADDRESS地址,ZIPCODE,School类型
Data columns (total 21 columns):
X 131 non-null float64
Y 131 non-null float64
OBJECTID_1 131 non-null int64
OBJECTID 131 non-null int64
BLDG_ID 131 non-null int64
BLDG_NAME 131 non-null object
ADDRESS 131 non-null object
CITY 131 non-null object
ZIPCODE 131 non-null int64
CSP_SCH_ID 131 non-null int64
SCH_ID 131 non-null int64
SCH_NAME 131 non-null object
SCH_LABEL 131 non-null object
SCH_TYPE 131 non-null object
SHARED 131 non-null object
COMPLEX 131 non-null object
Label 131 non-null int64
TLT 131 non-null int64
PL 131 non-null object
POINT_X 131 non-null float64
POINT_Y 131 non-null float64
关键代码实现:
加载数据
schools = pd.read_csv('../input/Public_Schools.csv')
schools.info()可以看到数据字段如下,一共有21个字段,其中有9个Object类型,4个float64, 8个int64
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 131 entries, 0 to 130
Data columns (total 21 columns):
X 131 non-null float64
Y 131 non-null float64
OBJECTID_1 131 non-null int64
OBJECTID 131 non-null int64
BLDG_ID 131 non-null int64
BLDG_NAME 131 non-null object
ADDRESS 131 non-null object
CITY 131 non-null object
ZIPCODE 131 non-null int64
CSP_SCH_ID 131 non-null int64
SCH_ID 131 non-null int64
SCH_NAME 131 non-null object
SCH_LABEL 131 non-null object
SCH_TYPE 131 non-null object
SHARED 131 non-null object
COMPLEX 131 non-null object
Label 131 non-null int64
TLT 131 non-null int64
PL 131 non-null object
POINT_X 131 non-null float64
POINT_Y 131 non-null float64
dtypes: float64(4), int64(8), object(9)
memory usage: 21.6+ KB
2.接下来,探索数据的缺失值schools.isnull().any()
可以看到,数据没有缺失值
X False
Y False
OBJECTID_1 False
OBJECTID False
BLDG_ID False
BLDG_NAME False
ADDRESS False
CITY False
ZIPCODE False
CSP_SCH_ID False
SCH_ID False
SCH_NAME False
SCH_LABEL False
SCH_TYPE False
SHARED False
COMPLEX False
Label False
TLT False
PL False
POINT_X False
POINT_Y False
dtype: bool接下来,Count frequency of schools in each city
schools_per_city = schools['CITY'].value_counts()
sns.set()
plt.rcParams['figure.figsize'] = [20, 7]
sns.barplot(x=schools_per_city.index, y=schools_per_city.get_values())
可以看到不同地区的公立学校不同数量
- 按照ZIPCode统计学校情况
school_zipcode = schools['ZIPCODE'].value_counts() sns.set()
2 sns.barplot(x=school_zipcode.index, y=school_zipcode.get_values())
未完待续~ 欢迎大家关注我的公众号,“思享会Club”,获取该内容资源。
Python数据分析实战-Boston Public Schools GEO数据分析-Part1的更多相关文章
- Python数据分析实战视频教程【小蚊子数据分析实战课程】
点击了解更多Python课程>>> Python数据分析实战视频教程[小蚊子数据分析实战课程] [课程概述] Python数据分析实战' 适用人群:适合需提升竞争力.提升工作效率.喜 ...
- 万字长文,Python数据分析实战,使用Pandas进行数据分析
文章目录 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家 ...
- Python数据分析实战
Python数据分析实战(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/1nlHM1IW8MYg3z79TUwIsWg 提取码:ux8t 复制这段内容后打开百度网盘手 ...
- 【python数据分析实战】电影票房数据分析(一)数据采集
目录 1.获取url 2.开始采集 3.存入mysql 本文是爬虫及可视化的练习项目,目标是爬取猫眼票房的全部数据并做可视化分析. 1.获取url 我们先打开猫眼票房http://piaofang.m ...
- 【python数据分析实战】电影票房数据分析(二)数据可视化
目录 图1 每年的月票房走势图 图2 年票房总值.上映影片总数及观影人次 图3 单片总票房及日均票房 图4 单片票房及上映月份关系图 在上一部分<[python数据分析实战]电影票房数据分析(一 ...
- 向大家介绍我的新书:《基于股票大数据分析的Python入门实战》
我在公司里做了一段时间Python数据分析和机器学习的工作后,就尝试着写一本Python数据分析方面的书.正好去年有段时间股票题材比较火,就在清华出版社夏老师指导下构思了这本书.在这段特殊时期内,夏老 ...
- 基于股票大数据分析的Python入门实战(视频教学版)的精彩插图汇总
在我写的这本书,<基于股票大数据分析的Python入门实战(视频教学版)>里,用能吸引人的股票案例,带领大家入门Python的语法,数据分析和机器学习. 京东链接是这个:https://i ...
- MySQL数据分析实战-朱元禄-专题视频课程
MySQL数据分析实战-496人已学习 课程介绍 本套课程由知名数据分析博主jacky老师录制,深入浅出讲解MySQL数据分析,从实战角度出发,帮助大家制胜职场!课程收益 1.学会 ...
- 《MySQL数据分析实战》八句箴言前四句解析
大家好,我是jacky朱元禄,很高兴继续跟大家学习<MySQL数据分析实战>,从本节课程开始,jacky将从SQL语句入手,给大家解析八句箴言: 不管三七二十一,先把数据show来看: 数 ...
随机推荐
- 【LightOJ 1081】Square Queries(二维RMQ降维)
Little Tommy is playing a game. The game is played on a 2D N x N grid. There is an integer in each c ...
- Mac连接Linux服务器
1.终端命令 a).打开Mac的命令终端 b).输入ssh -p 22 root@101.200.86.233 它会提示你输入密码,输入正确的密码之后,你就发现已经登陆成功了.(22: 端口号 roo ...
- ps命令 百度+加自己的理解
ps故为process status的缩写,即为进程状态的命令, ps命令详解, 1)ps a 显示现行终端机下的所有程序,包括其他用户的程序.2)ps -A 显示所有程序.3)ps c 列出程序时, ...
- 用JQ实现的一个简单轮播
<!DOCTYPE html><html><head> <meta charset="utf-8"> <title>lb ...
- WEB中需求分析应该考虑的问题
一. 针对用户群体要考虑因素 1.用户年龄 2.选择素材 3.网站布局 4.颜色搭配 5. 用户体验及动效 6.功能便捷 用户需求.用户兴趣爱好.性格.职业.教育水平高低.消费观念.PC端和移动端哪一 ...
- react基本demo详解
一.react的优势 1.React速度很快:它并不直接对DOM进行操作,引入了一个叫做虚拟DOM的概念,安插在javascript逻辑和实际的DOM之间,性能好. 2.跨浏览器兼容:虚拟DOM帮助我 ...
- thinkphp5 toArray()报错
//DB操作返回是数组.模型直接操作返回是对象 //对象类型转换数组 //打开 database.php 增加或修改参数 'resultset_type' => '\think\Collecti ...
- Centos7 Redis3.0 集群搭建备忘
(要让集群正常工作至少需要3个主节点,在这里我们要创建6个redis节点,其中三个为主节点,三个为从节点,对应的redis节点的ip和端口对应关系如下) 127.0.0.1:7000 127.0.0. ...
- 【数据结构】线性表&&顺序表详解和代码实例
喜欢的话可以扫码关注我们的公众号哦,更多精彩尽在微信公众号[程序猿声] 01 预备知识 1.0 什么是线性表? 线性表(List)是零个或者多个数据元素的有限序列. 首先它是一个序列.里面的元素是有顺 ...
- 爬取 StackOverFlow 上有关于 Python 的问题
给定起始页面以及爬取页数,要求得到每一个问题的标题.票数.回答数.查看数 stackflow <- function(page){ url <- "http://stackove ...