2003031121-浦娟-python数据分析五一假期作业

项目	内容
课程班级博客链接	20级数据班（本）
这个作业要求链接	Python作业
博客名称	2003031121-浦娟-python数据分析五一假期作业
要求	每道题要有题目,代码(使用插入代码,不会插入代码的自己查资料解决，不要直接截图代码！！),截图（只截运行结果）。

作业：

把期中考试代码看懂、运行并调通，要求每一行或每个重要功能写上注释。

一、分析1996~2015年人口数据特征间的关系

import numpy as np

import matplotlib.pyplot as plt

#使⽤numpy库读取数据

data=np.load('E:/桌面/populations.npz',allow_pickle=True)

print(data.files)#查看⽂件中的数组

print(data['data'])

print(data['feature_names'])

plt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示

plt.rcParams['axes.unicode_minus'] = False# 防止字符无法显示

name=data['feature_names']#提取其中的feature_names数组，视为数据的标签

values=data['data']#提取其中的data数组，视为数据的存在位置

p1=plt.figure(figsize=(12,12))#确定画布大小

pip1=p1.add_subplot(2,1,1)#创建一个两行个一列的图并开始绘制

#在子图上绘制散点图

plt.scatter(values[0:20,0],values[0:20,1])#,marker='8',color='red'

plt.ylabel('总人口（万人）')

plt.legend('年末')

plt.title('1996~2015年末与各类人口散点图')

pip2=p1.add_subplot(2,1,2)#绘制图2

plt.scatter(values[0:20,0],values[0:20,2])#,marker='o',color='yellow'

plt.scatter(values[0:20,0],values[0:20,3])#,marker='D',color='green'

plt.scatter(values[0:20,0],values[0:20,4])#,marker='p',color='blue'

plt.scatter(values[0:20,0],values[0:20,5])#,marker='s',color='purple'

plt.xlabel('时间')

plt.ylabel('总人口（万人）')

plt.xticks(values[0:20,0])

plt.legend(['男性','女性','城镇','乡村'])

#在⼦图上绘制折线图

p2=plt.figure(figsize=(12,12))

p1=p2.add_subplot(2,1,1)

plt.plot(values[0:20,0],values[0:20,1])#,linestyle = '-',color='r',marker='8'

plt.ylabel('总人口（万人）')

plt.xticks(range(0,20,1),values[range(0,20,1),0],rotation=45)#rotation设置倾斜度

plt.legend('年末')

plt.title('1996~2015年末总与各类人口折线图')

p2=p2.add_subplot(2,1,2)

plt.plot(values[0:20,0],values[0:20,2])#,'y-'

plt.plot(values[0:20,0],values[0:20,3])#,'g-.'

plt.plot(values[0:20,0],values[0:20,4])#,'b-'

plt.plot(values[0:20,0],values[0:20,5])#,'p-'

plt.xlabel('时间')

plt.ylabel('总人口（万人）')

plt.xticks(values[0:20,0])

plt.legend(['男性','女性','城镇','乡村'])

#显示图片

plt.show()

二、读取并查看P2P网络贷款数据主表的基本信息

import os

import pandas as pd

master = pd.read_csv('E:/桌面/Training_Master .csv',encoding='gbk')

print('P2P网络贷款主表数据的维度为：',master.ndim)

print('P2P网络贷款主表数据的形状大小为：',master.shape)

print('P2P网络贷款主表数据的占用内存为：',master.memory_usage)

print('P2P网络贷款主表数据的描述性统计为：\n',master.describe())

三、提取用户信息更新表和登录信息表的时间信息

import pandas as pd

LogInfo  = pd.read_csv('E:/桌面/Training_LogInfo .csv',encoding='gbk')

Userupdate   = pd.read_csv('E:/桌面/Training_Userupdate.csv',encoding='gbk')

# 转换时间字符串

LogInfo['Listinginfo1']=pd.to_datetime(LogInfo['Listinginfo1'])

LogInfo['LogInfo3']=pd.to_datetime(LogInfo['LogInfo3'])

print('转换登录信息表的时间字符串前5行：\n',LogInfo.head())

Userupdate['ListingInfo1']=pd.to_datetime(Userupdate['ListingInfo1'])

Userupdate['UserupdateInfo2']=pd.to_datetime(Userupdate['UserupdateInfo2'])

print('转换用户信息更新表的时间字符串前5行：\n',Userupdate.head())

四、使用分组聚合方法进一步分析用户信息更新表和登录信息表

import pandas as pd

import numpy as np

LogInfo  = pd.read_csv('E:/桌面/Training_LogInfo .csv',encoding='gbk')

Userupdate   = pd.read_csv('E:/桌面/Training_Userupdate.csv',encoding='gbk')

# 使用groupby方法对用户信息更新表和登录信息表进行分组

LogGroup = LogInfo[['Idx','LogInfo3']].groupby(by = 'Idx')

UserGroup = Userupdate[['Idx','UserupdateInfo2']].groupby(by = 'Idx')

# 使用agg方法求取分组后的最早，最晚，更新登录时间

print('分组后的最早登录时间为：\n',LogGroup.agg(np.min))

print('分组后的最晚登录时间为：\n',LogGroup.agg(np.max))

print('分组后的最早更新时间为：\n',UserGroup.agg(np.min))

print('分组后的最晚更新时间为：\n',UserGroup.agg(np.max))

# 使用size方法求取分组后的数据的信息更新次数与登录次数

print('分组后的数据的信息更新次数为：\n',LogGroup.size())

print('分组后的数据的登录次数为：\n',UserGroup.size())

2003031121-浦娟-python数据分析五一假期作业的更多相关文章

2003031121——浦娟——Python数据分析第七周作业——MySQL的安装及使用
项目要求课程班级博客链接 20级数据班(本) 作业要求链接 Python第七周作业博客名称 2003031121--浦娟--Python数据分析第七周作业--MySQL的安装及使用要求每道题 ...
2003031121-浦娟-python数据分析第四周作业-第二次作业
项目内容课程班级博客链接 20级数据班(本) 作业链接 Python第四周作业第二次作业博客名称 2003031121-浦娟-python数据分析第四周作业-matolotlib的应用要求每 ...
2003031121-浦娟-python数据分析第三周作业-第一次作业
项目内容课程班级博客链接 https://edu.cnblogs.com/campus/pexy/20sj 作业链接 https://edu.cnblogs.com/campus/pexy/20s ...
Python 数据分析（二本实验将学习利用 Python 数据聚合与分组运算，时间序列，金融与经济数据应用等相关知识
Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识第1节 groupby 技术第2节数据聚合第3节分组级运算和转换第4 ...
Python数据分析(二): Numpy技巧 (2/4)
numpy.pandas.matplotlib(+seaborn)是python数据分析/机器学习的基本工具. numpy的内容特别丰富,我这里只能介绍一下比较常见的方法和属性. 昨天晚上发了第一 ...
Python数据分析(二): Numpy技巧 (3/4)
numpy.pandas.matplotlib(+seaborn)是python数据分析/机器学习的基本工具. numpy的内容特别丰富,我这里只能介绍一下比较常见的方法和属性. 昨天晚上发了第一 ...
零基础学习Python数据分析
网上虽然有很多Python学习的教程,但是大多是围绕Python网页开发等展开.数据分析所需要的Python技能和网页开发等差别非常大,本人就是浪费了很多时间来看这些博客.书籍.所以就有了本文,希望能 ...
［Python数据分析］新股破板买入，赚钱几率如何？
这是本人一直比较好奇的问题,网上没搜到,最近在看python数据分析,正好自己动手做一下试试.作者对于python是零基础,需要从头学起. 在写本文时,作者也没有完成这个小分析目标,边学边做吧. ＝＝ ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...

随机推荐

为什么使用 Executor 框架比使用应用创建和管理线程好？
为什么要使用 Executor 线程池框架 1.每次执行任务创建线程 new Thread()比较消耗性能,创建一个线程是比较耗时.耗资源的. 2.调用 new Thread()创建的线程缺乏管理, ...
模糊查询like语句该怎么写?
第1种:在Java代码中添加sql通配符. string wildcardname = "%smi%"; list<name> names = mapper.selec ...
Java 中是如何支持正则表达式操作的？
Java 中的 String 类提供了支持正则表达式操作的方法,包括:matches(). replaceAll().replaceFirst().split().此外,Java 中可以用 Patte ...
memcached 和服务器的 local cache（比如 PHP 的 APC、 mmap 文件等）相比，有什么优缺点？
首先,local cache 有许多与上面(query cache)相同的问题.local cache 能够利用的内存容量受到(单台)服务器空闲内存空间的限制.不过,local第 109 页共 4 ...
学习Nginx（三）
nginx的性能测试及常用优化手段一.nginx的性能测试及对比 1.环境准备 [root@test8_hadoop_kaf ~]# yum install -y httpd-tools [ro ...
学习saltstack （七）
一.SaltStack概述 Salt,,一种全新的基础设施管理方式,部署轻松,在几分钟内可运行起来,扩展性好,很容易管理上万台服务器,速度够快,服务器之间秒级通讯. salt底层采用动态的连接总线, ...
顺利通过EMC实验（7）
一步步搭建物联网系统——无处不在的CSS
无处不在的CSS 或许你觉得CSS一点儿也不重要,而事实上,如果说HTML是建筑的框架,CSS就是房子的装修.那么Javascript呢,我听到的最有趣的说法是小三--还是先让我们回到代码上来吧. C ...
使用Webpack+Gulp开发运行于Dcloud平台HTML5+引擎的混合APP项目经验分享
什么是5+Runtime? 首先简单介绍一下5+Runtime: HTML5 Plus Runtime(5+Rumtime)是由Dcloud开发的一套"增强版的手机浏览器引擎",与 ...
x64 番外篇——保护模式相关
写在前面此系列是本人一个字一个字码出来的,包括示例和实验截图.由于系统内核的复杂性,故可能有错误或者不全面的地方,如有错误,欢迎批评指正,本教程将会长期更新. 如有好的建议,欢迎反馈.码字不易, ...

2003031121-浦娟-python数据分析五一假期作业

2003031121-浦娟-python数据分析五一假期作业的更多相关文章

随机推荐

热门专题