人口分析实战（利用jupyter）

1.项目需求

2.开始操作

2.1导入我们所需要的包

2.2导入数据、查看原始数据

2.3对数据进行清洗

2.4对数据进行处理

1.项目需求

需求：
- 导入文件，查看原始数据
- 将人口数据和各州简称数据进行合并
- 将合并的数据中重复的abbreviation列进行删除
- 查看存在缺失数据的列
- 找到有哪些state/region使得state的值为NaN，进行去重操作
- 为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN
- 合并各州面积数据areas
- 我们会发现area(sq.mi)这一列有缺失数据，找出是哪些行
- 去除含有缺失数据的行
- 找出2010年的全民人口数据
- 计算各州的人口密度
- 排序，并找出人口密度最高的州

2.开始操作

2.1导入我们所需要的包

import numpy as np

import pandas as pd

from pandas import DataFrame

2.2导入数据、查看原始数据

#导入文件，查看原始数据

abb = pd.read_csv('./data/state-abbrevs.csv') #state(州的全称)abbreviation（州的简称）

area = pd.read_csv('./data/state-areas.csv') #state州的全称，area (sq. mi)州的面积

pop = pd.read_csv('./data/state-population.csv')#state/region简称，ages年龄，year时间，population人口数量

#将人口数据和各州简称数据进行合并

abb_pop = pd.merge(abb,pop,left_on='abbreviation',right_on='state/region',how='outer')

abb_pop.head()

输出结果为：

2.3对数据进行清洗

#将合并的数据中重复的abbreviation列进行删除

abb_pop.drop(labels='abbreviation',axis=1,inplace=True)

输出结果为：

#查看存在缺失数据的列

#方式1：isnull，notll，any，all

abb_pop.isnull().any(axis=0)

#state,population这两列中是存在空值

输出结果为：

2.4对数据进行处理

#1.1将USA对应的行数据找出（行数据中就存在state的空值）

abb_pop['state/region'] == 'USA'

abb_pop.loc[abb_pop['state/region'] == 'USA']#将usa对应的行数据取出

输出结果为：

#1.2将USA对应的全称空对应的行索引取出

indexs = abb_pop.loc[abb_pop['state/region'] == 'USA'].index

abb_pop.iloc[indexs]

abb_pop.loc[indexs,'state'] = 'United States'

#2.可以将PR的全称进行赋值

abb_pop['state/region'] == 'PR'

abb_pop.loc[abb_pop['state/region'] == 'PR'] #PR对应的行数据

indexs = abb_pop.loc[abb_pop['state/region'] == 'PR'].index

#合并各州面积数据areas

abb_pop_area = pd.merge(abb_pop,area,how='outer')

#我们会发现area(sq.mi)这一列有缺失数据，找出是哪些行

abb_pop_area['area (sq. mi)'].isnull()

abb_pop_area.loc[abb_pop_area['area (sq. mi)'].isnull()] #空对应的行数据

indexs = abb_pop_area.loc[abb_pop_area['area (sq. mi)'].isnull()].index

#去除含有缺失数据的行

abb_pop_area.drop(labels=indexs,axis=0,inplace=True)

#找出2010年的全民人口数据(基于df做条件查询)

abb_pop_area.query('ages == "total" & year == 2010')

输出结果为：

#计算各州的人口密度(人口除以面积)

abb_pop_area['midu'] = abb_pop_area['population'] / abb_pop_area['area (sq. mi)']

abb_pop_area

输出结果为：

人口分析实战（利用jupyter）的更多相关文章

Weblogic CVE-2020-2551漏洞复现&CS实战利用
Weblogic CVE-2020-2551漏洞复现 Weblogic IIOP 反序列化漏洞原理 https://www.anquanke.com/post/id/199227#h3-7 http ...
Druid未授权访问实战利用
Druid未授权访问实战利用最近身边的同学都开始挖src了,而且身边接触到的挖src的网友也是越来越多.作者也是在前几天开始了挖src之路.惊喜又遗憾的是第一次挖src就挖到了一家互联网公司的R ...
机器学习实战------利用logistics回归预测病马死亡率
大家好久不见,实战部分一直托更,很不好意思.本文实验数据与代码来自机器学习实战这本书,倾删. 一:前期代码准备 1.1数据预处理还是一样,设置两个数组,前两个作为特征值,后一个作为标签.当然这是简单 ...
项目实战利用Python来看美国大选
一.项目介绍首先分析美国总统竞选这个项目是一个烂大街的项目,但是他的确是一个适合Python新手入门的数据处理项目. 本人在大二刚刚学习了Python数据处理,学习时间不超过5个小时,但是已经可以完 ...
实战--利用SVM对基因表达标本是否癌变的预测
利用支持向量机对基因表达标本是否癌变的预测 As we mentioned earlier, gene expression analysis has a wide variety of applic ...
实战--利用HierarchicalClustering 进行基因表达聚类分析
利用建立分级树对酵母基因表达数据进行聚类分析一.原理根据基因表达数据,得出距离矩阵 ↓ 最初,每个点都是一个集合每次选取距离最小的两个集合,将他们合并,然后更新这个新集合与其它点的距离新集合与 ...
实战--利用Lloyd算法进行酵母基因表达数据的聚类分析
背景:酵母会在一定的时期发生diauxic shift,有一些基因的表达上升,有一些基因表达被抑制,通过聚类算法,将基因表达的变化模式聚成6类. ORF Name R1.Ratio R2.Ratio ...
JSON Hijacking实战利用
0×01漏洞的挖掘一般挖掘的过程中,burpsuite代理的History做寻找,过滤多余不可能存在漏洞的一些链接,如下图所示: 我们在返回包中json格式发现了如下的敏感信息(用户Id,用户名,用 ...
爬虫实战--利用Scrapy爬取知乎用户信息
思路: 主要逻辑图:
Spring Boot + Redis实战-利用自定义注解+分布式锁实现接口幂等性
场景不管是传统行业还是互联网行业,我们都需要保证大部分操作是幂等性的,简单点说,就是无论用户点击多少次,操作多少遍,产生的结果都是一样的,是唯一的.而今次公司的项目里,又被我遇到了这么一个幂等性的问 ...

随机推荐

[COCI 2023/2024 #2] Zatopljenje 题解
UPDATE on 2024.4.25 改掉奇怪压行码风,并稍作排版. 前言题目链接:洛谷. 题目分析首先发现区间中的个数等于 \(\texttt{高度大于 x 的位置的个数} - \texttt ...
被怼了：acks=all消息也会丢失？
消息队列是面试中一定会被问到的技术模块,虽然它在面试题占比不及并发编程和数据库,但也属于面试中的关键性问题.所以今天我们就来看一道,MQ 中高频,但可能会打破你以往认知的一道面试题. 所谓的关键问题指 ...
Java基础之数值类型之间的转换
经常需要将一种数值类型转换为另一种数值类型.下图给出了数值类型之间的合法转换. 在图中有 6 个实心箭头,表示无信息丢失的转换:有 3 个虚箭头, 表示可能有精度损失的转换. 例如,123 45 ...
AtCoder Beginner Contest 311
Toyota Programming Contest 2023#4(AtCoder Beginner Contest 311) A - First ABC (atcoder.jp) 记录一下\(ABC ...
Logtrick
logtrick的用法与实战 logtrick是我从灵神视频中学习到的,此文章介绍logtrick用法与实践,以及灵神视频中未提到的,我本人总结出来的小技巧用法 logtrick通常用于求子数组( ...
强！34.1K star! 再见Postman，新一代API测试利器，功能强大、颜值爆表！
1.引言在当今的互联网时代,API(应用程序编程接口)已经成为连接不同软件系统的桥梁.作为一名开发者,掌握API测试技能至关重要.市面上的API测试工具琳琅满目,今天我们要介绍的是一款开源.跨平台的 ...
CDH添加es服务
地址:https://blog.csdn.net/guoliduo/article/details/105072857 注意:目前只支持cdh5.x的版本安装es,cdh6.x暂不支持.
Linux 常见编辑器
命令行编辑器 Vim Linux 上最出名的编辑器当属 Vim 了.Vim 由 Vi 发展而来,Vim 的名字意指 Vi IMproved,表示 Vi 的升级版.Vim 对于新手来说使用比较复杂,不过 ...
Session的运行机制
浏览器通过web访问服务器,服务器的web服务开启后,第一步就是开启session,这也是session的第一阶段: session_start() 这个函数的作用:开启session,然后根据以前设 ...
github代理加速
终端命令行支持终端命令行 git clone , wget , curl 等工具下载.支持 raw.githubusercontent.com , gist.github.com , gist.gi ...

人口分析实战（利用jupyter）

1.项目需求

2.开始操作

2.1导入我们所需要的包

2.2导入数据、查看原始数据

2.3对数据进行清洗

2.4对数据进行处理

人口分析实战（利用jupyter）的更多相关文章

随机推荐

热门专题