2003031120—廖威—Python数据分析五一假期作业

项目	要求
课程班级博客链接	20级数据班（本）
这个作业要求链接	Python数据分析五一假期作业
博客名称	2003031120—廖威—Python数据分析五一假期作业
要求	每道题要有题目,代码(使用插入代码,不会插入代码的自己查资料解决，不要直接截图代码！！),截图（只截运行结果）。

一、分析1996~2015年人口数据特征间的关系（1题50分，共50分）

考查知识点：掌握pyplot常用的绘图参数的调节方法；掌握子图的绘制方法；掌握绘制图形的保存与展示方法；掌握散点图和折线图的作用与绘制方法。

需求说明：

人口数据总共拥有6个特征，分别为年末总人口、男性人口、女性人口、城镇人口、乡村人口和年份。查看各个特征随着时间推移发生的变化情况可以分析出未来男女人口比例、城乡人口变化的方向。

截图如下：

要求：

（1）使用NumPy库读取人口数据。

（2）创建画布，并添加子图。

（3）在两个子图上分别绘制散点图和折线图。

（4）保存，显示图片。

（5）分析未来人口变化趋势

代码：

#导入模块

import numpy as np

import matplotlib.pyplot as plt

#使⽤numpy库读取⼈⼝数据

data=np.load("D:/Users/ASUS/Desktop/populations.npz",allow_pickle=True)#读取文件，返回输入数组

print(data.files)#查看⽂件中的数组

print(data['data'])

print(data['feature_names'])

plt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示

plt.rcParams['axes.unicode_minus'] = False# 防止字符无法显示

name=data['feature_names']#提取其中的feature_names数组，视为数据的标签

values=data['data']#提取其中的data数组，视为数据的存在位置

#设置画布

p1=plt.figure(figsize=(12,12))#确定画布⼤⼩

pip1=p1.add_subplot(2,1,1)#创建⼀个两⾏⼀列的⼦图并开始绘制

#在⼦图上绘制散点图

plt.scatter(values[0:20,0],values[0:20,1])#,marker='8',color='red'

plt.ylabel('总人口（万⼈）')

plt.legend('年末')

plt.title('1996~2015年末与各类人口散点图')

pip2=p1.add_subplot(2,1,2)#绘制⼦图2

plt.scatter(values[0:20,0],values[0:20,2])#,marker='o',color='yellow'

plt.scatter(values[0:20,0],values[0:20,3])#,marker='D',color='green'

plt.scatter(values[0:20,0],values[0:20,4])#,marker='p',color='blue'

plt.scatter(values[0:20,0],values[0:20,5])#,marker='s',color='purple'

plt.xlabel('时间')

plt.ylabel('总人口（万人）')

plt.xticks(values[0:20,0])

plt.legend(['男性','女性','城镇','乡村'])

#在⼦图上绘制折线图

p2=plt.figure(figsize=(12,12))

p1=p2.add_subplot(2,1,1)

plt.plot(values[0:20,0],values[0:20,1])#,linestyle = '-',color='r',marker='8'

plt.ylabel('总人口（万人）')

plt.xticks(range(0,20,1),values[range(0,20,1),0],rotation=45)#rotation设置倾斜度

plt.legend('年末')

plt.title('1996~2015年末总与各类人口折线图')

p2=p2.add_subplot(2,1,2)

plt.plot(values[0:20,0],values[0:20,2])#,'y-'

plt.plot(values[0:20,0],values[0:20,3])#,'g-.'

plt.plot(values[0:20,0],values[0:20,4])#,'b-'

plt.plot(values[0:20,0],values[0:20,5])#,'p-'

plt.xlabel('时间')

plt.ylabel('总人口（万人）')

plt.xticks(values[0:20,0])

plt.legend(['男性','女性','城镇','乡村'])

#显⽰图⽚

plt.show()

结果：

（5）

根据各个特征随着时间推移发生的变化情况可以分析出未来男女人口比例将逐渐趋于平衡状态，城乡人口变化方向将逐渐城镇化。

二、读取并查看P2P网络贷款数据主表的基本信息（1题10分，共10分）

考查知识点：掌握常见的数据读取方式；掌握DataFrame常用属性与方法；掌握基础时间数据处理方法；掌握分组聚合的原理与方法；掌握透视表与交叉表的制作。

需求说明：

P2P贷款主表数据主要存放了网贷用户的基本信息。探索数据的基本信息，能够洞察数据的整体分布、数据的类属关系、从而发现数据间的关联。

要求：

（1）使用ndim、shape、memory_usage属性分别查看维度、大小、占用内存信息。

代码：

#导入模块

import os

import pandas as pd

master = pd.read_csv('D:/Users/ASUS/Desktop/Training_Master.csv',encoding='gbk')#读取csv文件

print('P2P网络贷款主表数据的维度为：',master.ndim)

print('P2P网络贷款主表数据的形状大小为：',master.shape)

print('P2P网络贷款主表数据的占用内存为：',master.memory_usage)

#代码16-2

print('P2P网络贷款主表数据的描述性统计为：\n',master.describe())

结果：

三、提取用户信息更新表和登录信息表的时间信息（1题10分，共10分）

需求说明：

用户信息更新表和登录信息表汇总均存在大量的时间数据，提取时间数据内存在的信息，一方面可以加深对数据的理解，另一方面能够探索这部分信息和目标的关联程度。同时用户登录时间、借款成交时间、用户信息更新时间这些时间的时间差信息冶能反映出P2P网络贷款不同用户的行为信息。

要求：

（1）使用to_datetime函数转换用户信息更新表和登录信息表的时间字符串。

代码：

import pandas as pd

#读取文件

LogInfo  = pd.read_csv('D:/Users/ASUS/Desktop/Training_LogInfo(1).csv',encoding='gbk')

Userupdate   = pd.read_csv('D:/Users/ASUS/Desktop/Training_Userupdate.csv',encoding='gbk')

# 转换时间字符串

LogInfo['Listinginfo1']=pd.to_datetime(LogInfo['Listinginfo1'])

LogInfo['LogInfo3']=pd.to_datetime(LogInfo['LogInfo3'])

print('转换登录信息表的时间字符串前5行：\n',LogInfo.head())

Userupdate['ListingInfo1']=pd.to_datetime(Userupdate['ListingInfo1'])

Userupdate['UserupdateInfo2']=pd.to_datetime(Userupdate['UserupdateInfo2'])

print('转换用户信息更新表的时间字符串前5行：\n',Userupdate.head())

结果：

四、使用分组聚合方法进一步分析用户信息更新表和登录信息表（1题30分，共30分）

需求说明：

分析用户信息更新表和登录信息表时，除了提取时间本身的信息外，还可以结合用户编号进行分组聚合，然后进行组内分析。通过组内分析可以得出每组组内的最早和最晚信息更新时间、最早和最晚登录时间、信息更新的次数、登录的次数等信息。

要求：

（1）使用groupby方法对用户信息更新表和登录信息表进行分组。

（2）使用agg方法求取分组后的最早和最晚更新及登录时间。

（3）使用size方法求取分组后的数据的信息更新次数与登录次数。

代码:

import pandas as pd

import numpy as np

LogInfo  = pd.read_csv('D:/Users/ASUS/Desktop/Training_LogInfo(1).csv',encoding='gbk')

Userupdate   = pd.read_csv('D:/Users/ASUS/Desktop/Training_Userupdate.csv',encoding='gbk')

# 使用groupby方法对用户信息更新表和登录信息表进行分组

LogGroup = LogInfo[['Idx','LogInfo3']].groupby(by = 'Idx')

UserGroup = Userupdate[['Idx','UserupdateInfo2']].groupby(by = 'Idx')

# 使用agg方法求取分组后的最早，最晚，更新登录时间

print('分组后的最早登录时间为：\n',LogGroup.agg(np.min))

print('分组后的最晚登录时间为：\n',LogGroup.agg(np.max))

print('分组后的最早更新时间为：\n',UserGroup.agg(np.min))

print('分组后的最晚更新时间为：\n',UserGroup.agg(np.max))

# 使用size方法求取分组后的数据的信息更新次数与登录次数

print('分组后的数据的信息更新次数为：\n',LogGroup.size())

print('分组后的数据的登录次数为：\n',UserGroup.size())

结果：

2003031120—廖威—Python数据分析五一假期作业的更多相关文章

2003031121-浦娟-python数据分析五一假期作业
项目内容课程班级博客链接 20级数据班(本) 这个作业要求链接 Python作业博客名称 2003031121-浦娟-python数据分析五一假期作业要求每道题要有题目,代码(使用插入代码, ...
2003031121-浦娟-python数据分析第四周作业-第二次作业
项目内容课程班级博客链接 20级数据班(本) 作业链接 Python第四周作业第二次作业博客名称 2003031121-浦娟-python数据分析第四周作业-matolotlib的应用要求每 ...
2003031121——浦娟——Python数据分析第七周作业——MySQL的安装及使用
项目要求课程班级博客链接 20级数据班(本) 作业要求链接 Python第七周作业博客名称 2003031121--浦娟--Python数据分析第七周作业--MySQL的安装及使用要求每道题 ...
2003031121-浦娟-python数据分析第三周作业-第一次作业
项目内容课程班级博客链接 https://edu.cnblogs.com/campus/pexy/20sj 作业链接 https://edu.cnblogs.com/campus/pexy/20s ...
零基础学习Python数据分析
网上虽然有很多Python学习的教程,但是大多是围绕Python网页开发等展开.数据分析所需要的Python技能和网页开发等差别非常大,本人就是浪费了很多时间来看这些博客.书籍.所以就有了本文,希望能 ...
Python 数据分析（二本实验将学习利用 Python 数据聚合与分组运算，时间序列，金融与经济数据应用等相关知识
Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识第1节 groupby 技术第2节数据聚合第3节分组级运算和转换第4 ...
Python数据分析(二): Numpy技巧 (2/4)
numpy.pandas.matplotlib(+seaborn)是python数据分析/机器学习的基本工具. numpy的内容特别丰富,我这里只能介绍一下比较常见的方法和属性. 昨天晚上发了第一 ...
Python数据分析(二): Numpy技巧 (3/4)
numpy.pandas.matplotlib(+seaborn)是python数据分析/机器学习的基本工具. numpy的内容特别丰富,我这里只能介绍一下比较常见的方法和属性. 昨天晚上发了第一 ...
Python数据分析与挖掘所需的Pandas常用知识
Python数据分析与挖掘所需的Pandas常用知识前言Pandas基于两种数据类型:series与dataframe.一个series是一个一维的数据类型,其中每一个元素都有一个标签.series ...
［Python数据分析］新股破板买入，赚钱几率如何？
这是本人一直比较好奇的问题,网上没搜到,最近在看python数据分析,正好自己动手做一下试试.作者对于python是零基础,需要从头学起. 在写本文时,作者也没有完成这个小分析目标,边学边做吧. ＝＝ ...

随机推荐

centos 等保漏洞修复
一.设置密码复杂度 [root@localhost ~]# vi /etc/pam.d/system-auth password requisite pam_pwquality.so try_firs ...
WPF中获取主窗口 MainWindow 实例，以及在其他窗口中获取 MainWinodw 中的控件
var _mainWindow = Application.Current.Windows .Cast<Window>() .FirstOrDefault(window => win ...
Oversampling Techniques
ADC Operation Improving ADC Resolution 总结根据奈奎斯特采样定理,Fsample >= 2 * Fsignal 在频域中,过采样能够降低白噪声功率谱密度 ...
div 自动高度
问题: 一个页面分上下二部分,上部分高度是固定不变的,要求下部分高度自动占满屏幕,如何实现? 第一感觉是准备用 JS 实现. 今天发现一个用 CSS 实现的方法 position: fixed; bo ...
Win10使用打印机0x0000011b错误如何处理（没有KB5005565补丁如何解决？？）
1.排查问题 win10连接打印机共享错误显示0x0000011b怎么解决?很多用户在更新了windows系统的最新补丁后,突然发现自己打开打印机的时候提示"无法连接到打印机,错误为0x00 ...
Win10家庭版安装docker desktop
1.开启Hyper-V在桌面新建hyperv.cmd文件,内容如下: pushd "%~dp0" dir /b %SystemRoot%\servicing\Packages\*H ...
冷冻法快速还原Oracle数据库
1.重新装完系统之后,把D:\app\Administrator\oradata拷贝出来,app目录. 2.安装Oracle数据库,创建一个和oradata目录内同名的实例. 3.通过停止服务的方式关 ...
WPF使用MaterialDesign开源控件库
在WPF控件效果这一块,很显然比winfrom要好很多,但想要做出真正好看的控件,我个人觉得还是需要用一些已有的东西比较好,比如MaterialDesign,控件种类多,自带很多图标,上手比较容易,还 ...
JS学习-Web Worker
Web Worker 在专用workers的情况下,DedicatedWorkerGlobalScope 对象代表了worker的上下文(专用workers是指标准worker仅在单一脚本中被使用:共 ...
利用Comparator对枚举类型进行排序的实现
1. 利用BeanComparator对List<Object>根据属性进行排序 String daXiaoOrder[] = {"很小","小", ...

2003031120—廖威—Python数据分析五一假期作业

2003031120—廖威—Python数据分析五一假期作业的更多相关文章

随机推荐

热门专题