一。Dataframe的分组。

  再网页表格数据 的分析中,可以使用以下语句进行爬取表格。

res = pd.read_html('https://baike.baidu.com/item/NBA%E6%80%BB%E5%86%A0%E5%86%9B/2173192?fr=aladdin')  ### 返回的是一个列表  列表中是当前页面的所有表格数据

  read_html可以爬取表格,取出其中所需要的表格进行处理:

champion = res[0]
champion.columns = champion.iloc[0] #### 将第一行的数据 赋值给 列名
champion.drop([0], inplace=True) #### 将第一行数据 删除掉

  对于这段数据需要进行分组。分组之后进行计数即可。

champion.groupby('冠军').groups
champion.groupby('冠军').size().sort_values(ascending=False)

  如果需要统计其他数据,只需要再groupbt中添加列表。

champion.groupby(['冠军', 'FMVP']).size()

二。DataFrame的时间数据处理。

  处理时间需要导入一个模块。

import dateutil

  将时间格式转化成元组

dateutil.parser.parse("2019 Jan 2nd")
datetime.datetime(2019, 1, 2, 0, 0)

  转化列表时间

pd.to_datetime(['2018-01-01', '2019-02-02'])
DatetimeIndex(['2018-01-01', '2019-02-02'], dtype='datetime64[ns]', freq=None)

  生成时间序列

pd.date_range("2019-1-1","2019-2-2", freq='M')
DatetimeIndex(['2019-01-31'], dtype='datetime64[ns]', freq='M')

三。matplotlib

  首先导入这个模块

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

  将表格支持中文:

#### windows下好使
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

  1.折线图

  首先需要生成一个plot画布

a = [3,1,10,6]  ### 默认显示Y轴的值
plt.plot(a) #### plot()画折现图的函数
plt.show() #### 显示画的图表

  需要将一个列表放入该画布展示。

  如果需要同时键入x轴和y轴,可以输入两个:

plt.plot(x, y, color='k', marker='D', linestyle=':')   ### 画图
plt.show()       ### 显示

  如果需要设置画布大小可以使用以下语句:

x = [2,5,7,10]
y = [1,2,3,4] plt.figure(figsize=(10,6)) #### 设置画布大小

  可以设置图的标签和x轴y轴

plt.title('title标题', fontsize=20, color='red')  #### 设置图表的标题
plt.xlabel('x轴', fontsize=20) #### 设置x轴的值
plt.ylabel('y轴', fontsize=20) #### 设置y轴的值

  其中设置的点数可以通过color,marker,linestyle进行设置。也可以通过plot?进行查询。

  

  2.柱状图

  首先获取数据:

df = pd.read_csv('./douban_movie.csv')
df.head()

  将获取到的数据进行处理:

res = df.groupby('产地').size().sort_values(ascending=False)

  再生成一个bar柱状图,进行个性化设计

x = res.index
y = res.values
plt.figure(figsize=(20,6)) plt.title('每个国家或者地区的电影数量', fontsize=20)
plt.xticks(rotation=90, fontsize=15, color='red') ##### 设置x轴字体的大小和颜色
plt.xlabel('产地', fontsize=20) plt.yticks(fontsize=15)
plt.ylabel('数量', fontsize=20)

  如果需要在每个柱状上显示数字,需要进行xy轴的定位

for a, b in zip(x,y):
# plt.text?
plt.text(a, b+100, b, horizontalalignment='center', fontsize=13) plt.bar(x, y)
# plt.savefig?
plt.show()

3.曲线图

  绘制曲线图数据处理:

res = df.groupby(['年代']).size().sort_index()  ### sort_values 按照值进行排序  sort_index 按照索引进行排序
res = res[:-2]

  曲线图主要是plot,数据比较多的情况:

x = res.index
y = res.values
plt.figure(figsize=(10,6))
plt.title('历年电影上映数量', fontsize=20, color='red')
plt.xlabel('年代', fontsize=15)
plt.xticks(fontsize=13, color='green')
plt.ylabel('数量', fontsize=20, color='blue')
plt.yticks(color='blue', fontsize=13)
plt.plot(x, y)
plt.show()

  4.绘制饼图:

  饼图中的重点在于使用cut

  cut中传入两个参数,返回值会根据第二个参数切分区域,并将第一个参数中的数值匹配这些区域,如果匹配不上就返回nan。

pd.cut(np.array([1, 7, 5, 4, 6, 3]), [1,3,5])
[NaN, NaN, (3.0, 5.0], (3.0, 5.0], NaN, (1.0, 3.0]]
Categories (2, interval[int64]): [(1, 3] < (3, 5]]

  所以,需要将数据获取,放入其中进行切分:

df_res = df['时长']
res = pd.cut(df_res, [0,60,90,120, 140, 1000]) ### df_res 是待分割的源数据 [0,60,90,120, 140, 1000] 是区间 左开右闭

  输出的值是所有电影的归类,这个时候需要对其value_count获取值计数。

res = res.value_counts()
(90, 120] 16578
(0, 60] 10324
(60, 90] 7727
(120, 140] 2718
(140, 1000] 1386

  最后对数据进行个性化设置:

x = res.index
y = res.values
plt.title('电影时长分布饼图', fontsize=20) patch, l_text, p_text = plt.pie(y, labels = x, autopct='%.2f%%') for p in p_text:
p.set_size(15)
p.set_color('white') for l in l_text:
l.set_size(13)
l.set_color('r') plt.show()

  hist:直方图。

  画图工具:

  echarts 和 highcharts 。

  

day100_12_4DataFrame和matplotlib模块的更多相关文章

  1. Windows python 安装 nNumpy、Scipy、matplotlib模块

    折腾了 很久,总结一些. 首先如果python 是64位,安装32位的numpy ,Scipy,或者matplotlib 模块. 会出现很多问题. 比如当你 在python 导入 Numpy 时,导入 ...

  2. python_Opencv_使用Matplotlib模块

    使用Matplotlib模块 Matplotib 是python 的一个绘图库,里头有各种各样的绘图方法. 之后会陆续了解.先学习怎样用Matplotib 显示图像. 可以放大图像,保存图像. 安装M ...

  3. python 爬虫与数据可视化--matplotlib模块应用

    一.数据分析的目的(利用大数据量数据分析,帮助人们做出战略决策) 二.什么是matplotlib? matplotlib: 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB ...

  4. Matplotlib模块:绘图和可视化

    一.简单介绍Matplotlib 1.Matplotlib是一个强大的Python绘图和数据可视化的工具包 2.安装方法:pip install matplotlib 3.引用方法:import ma ...

  5. 为python安装matplotlib模块

    matplotlib是python中强大的画图模块. 首先确保已经安装python,然后用pip来安装matplotlib模块. 进入到cmd窗口下,执行python -m pip install - ...

  6. Python使用matplotlib模块绘制多条折线图、散点图

    用matplotlib模块 #!usr/bin/env python #encoding:utf-8 ''' __Author__:沂水寒城 功能:折线图.散点图测试 ''' import rando ...

  7. windows_64下python下载安装Numpy、Scipy、matplotlib模块

    本文应用的python3.6.3及其对应的Numpy.Scipy.matplotlib计算模块的cp36版本,其中Numpy是需要MKL版本的Numpy,这是后续安装Scipy的需要(本机系统win7 ...

  8. windows下python安装Numpy、Scipy、matplotlib模块(转载)

    python下载链接     Numpy下载链接 python中Numpy包的安装及使用 Numpy包的安装 准备工作 Python安装 pip安装 将pip所在的文件夹添加到环境变量path路径中 ...

  9. python 1: 解决linux系统下python中的matplotlib模块内的pyplot输出图片不能显示中文的问题

    问题: 我在ubuntu14.04下用python中的matplotlib模块内的pyplot输出图片不能显示中文,怎么解决呢? 解决: 1.指定默认编码为UTF-8: 在python代码开头加入如下 ...

随机推荐

  1. [vue]初探vue生态核心插件Vuex

    为什么会有 Vuex 这个东西 ? 一个应用内部运行的机制,事件 -> 状态 -> UI,我们的前端常常会因为这两个过程而产生大量代码,从而变得难以维护. vue的声明式渲染,解决了从 状 ...

  2. 【CSS】330- 手把手教你玩转 CSS3 3D 技术

    点击上方"前端自习课"关注,学习起来~ CSS3的3D起步 要玩转css3的3d,就必须了解几个词汇,便是透视(perspective).旋转(rotate)和移动(transla ...

  3. redis(6)--redis集群之分片机制(redis-cluster)

    Redis-Cluster 即使是使用哨兵,此时的Redis集群的每个数据库依然存有集群中的所有数据,从而导致集群的总数据存储量受限于可用存储内存最小的节点,形成了木桶效应.而因为Redis是基于内存 ...

  4. js中 forEach 和 map 区别

    共同点: 1.都是循环遍历数组中的每一项. 2.forEach()和map()里面每一次执行匿名函数都支持3个参数:数组中的当前项item,当前项的索引index,原始数组input. 3.匿名函数中 ...

  5. 网络配置工具iproute2和net-tools的基本原理和基本使用方法

    这是网络程序设计课程的第一次作业的博客,由于还是小白,分享的内容都是比较基础的东西,希望看到的各位同学可以提出指导意见,必将虚心听取. 这次分享的内容是网络配置工具iproute2和net-tools ...

  6. hdu 6318 Swaps and Inversions (线段树求逆序对数)

    Swaps and Inversions Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Oth ...

  7. SQL- SQL查询检索阶段一

    一 说明 如果是初学者,建议去网上寻找安装Mysql的文章安装,以及使用navicat连接数据库,以后的示例基本是使用mysql数据库管理系统: 二 准备前提 需要建立一张学生表,列分别是id,名称, ...

  8. 《Java练习题》进阶练习题(四)

    编程合集: https://www.cnblogs.com/jssj/p/12002760.html 前言:不仅仅要实现,更要提升性能,精益求精,用尽量少的时间复杂度和空间复杂度解决问题. [程序78 ...

  9. Linux服务器可以ping,但是telnet端口超时,网站wget超时,访问超时的解决办法

    最近无法通过SSH连接Linux服务器,访问该服务器上的HTTP服务也出现异常.可以ping,但是telnet端口超时,网站wget超时,访问超时. 最后排查是内核配置问题 原来是 net.ipv4. ...

  10. [转]JVM参数使用手册

    内存分配相关 Xms 英文释义:Initial heap size(in bytes) 中文释义:堆区初始值 使用方法:-Xms2g 或 -XX:InitialHeapSize=2048m Xmx 英 ...