python pandas相关知识点(练习)
首先引入库文件,并进行数据读取
import pandas as pd
import numpy as np
data_Base=pd.read_csv("D:\\Exam_Test\\unicomapp_r0_201904_jinan.csv")
#data_Ite=pd.read_csv("D:\\Exam_Test\\lte_cm_jinan.csv",encoding="gbk")
data_Base.shape
显示行与列:
print("行数{0},列数{1}".format(str(data_Base.shape[0]),str(data_Base.shape[1])))
查看字段空值数量:
data_Base.isnull().sum()
删除空值行:
data_Base.dropna(subset=["L-CELLID"],inplace=True)
每个 value 数值的采样点个数:
Df_SINR=data_Base["L-SINR"].value_counts().sort_index().reset_index()
Df_SINR
柱状图:
#SINR 样本分布柱状图
from example.commons import Faker
from pyecharts import options as opts
from pyecharts.charts import Bar
def bar_base() -> Bar:
c = (
Bar()
.add_xaxis(list(Df_SINR["index"]))
.add_yaxis("SINR样本", list(Df_SINR["L-SINR"]),label_opts=opts.LabelOpts(is_show=False))
.set_global_opts(
title_opts=opts.TitleOpts(title="SINR 样本分布",pos_left="center"),
legend_opts=opts.LegendOpts(is_show=True,pos_left="right"), )
)
return c
bar_base().render("L_SINR 分布.html")
获取不是某些值得列:
data_Base=data_Base[~data_Base["L-SINR"].isin([""])]
data_Base.shape
设置最大显示列:
pd.set_option("display.max_columns",3000)
设置索引列:
data_Base=data_Base.set_index("RECTIME")
重采样:
data_Apr=data_Base.resample("D").mean().reset_index()
data_Apr
根据指定列生成新的DataFrame:
data_Apr_new=pd.DataFrame(data_Apr,columns=["RECTIME","L-RSRP","L-SINR"])
根据时间获取哪天(Day):
data_Apr_new["RECTIME"].dt.day
双Y轴,趋势图:
#使用 pyecharts 或其他可视化工具,将每天平均 RSRP 和平均 SINR 趋势作图
import pyecharts.options as opts
from example.commons import Faker
from pyecharts.charts import Line def line_base() -> Line:
c = (
Line()
.add_xaxis(list(data_Apr_new["RECTIME"].dt.day))
.add_yaxis("SINR", data_Apr_new["L-SINR"].round(2),is_smooth=True,is_symbol_show=False)
.extend_axis(
yaxis=opts.AxisOpts(
name="RSRP",
min_=data_Apr_new["L-RSRP"].min().round(2),
max_=data_Apr_new["L-RSRP"].max().round(2), )
)
.set_global_opts(title_opts=opts.TitleOpts(title="4 月份济南 RSRP 和 SINR 趋势图",pos_left="center"),
legend_opts=opts.LegendOpts(pos_left="right"),
datazoom_opts=opts.DataZoomOpts(is_show=True),
yaxis_opts=opts.AxisOpts(name="SINR",min_=round(data_Apr_new["L-SINR"].values.min(),2),max_=round(data_Apr_new["L-SINR"].values.max(),2)), )
)
d = (
Line()
.add_xaxis(list(data_Apr_new["RECTIME"].dt.day))
.add_yaxis("RSRP", data_Apr_new["L-RSRP"].round(2),yaxis_index=1,is_smooth=True,is_symbol_show=False) )
return c.overlap(d)
line_base().render_notebook()
条件判断:
condition1=df_cm_new["样本量"]>100
condition2=df_cm_new["RSRP>=-110 采样点占比"]>0.8
condition3=df_cm_new["SINR>0 采样点占比"]<0.7
df_cm_new=df_cm_new[condition1&condition2&condition3]
df_cm_new.head()
发送邮件:
#发送邮件
import smtplib
from email.mime.text import MIMEText #MIME (Multipurpose Internet Mail Extensions) 是描述消息内容类型的因特网标准。MIME 消息能包含文本、图像、音频、视频以及其他应用程序专用的数据。
from email.mime.multipart import MIMEMultipart
from email.header import Header
from email.mime.application import MIMEApplication
# 第三方 SMTP 服务
mail_host="smtp.qq.com" #设置服务器
mail_user="597945025@qq.com" #用户名
mail_pass="cwtytropotbubgai" #口令
sender = '597945025@qq.com'
receivers = ['625645840@qq.com'] # 接收邮件,设置为接收方的邮箱
#创建一个带附件的实例
message = MIMEMultipart()
message['From'] = Header(sender, 'utf-8')
message['To'] = Header(str(receivers), 'utf-8')
subject = 'mail test'
message['Subject'] = Header(subject, 'utf-8') #邮件正文内容
message.attach(MIMEText('这是邮箱测试,请查收', 'plain', 'utf-8'))
for city in City2:
# f = 'D:\\data.csv'
xlsxpart = MIMEApplication(open(city+".xls", 'rb').read())
xlsxpart.add_header('Content-Disposition', 'attachment', filename=('gbk', '', (city+".xls")))
message.attach(xlsxpart)
try:
smtpObj = smtplib.SMTP()
smtpObj.connect(mail_host, 25) # 25 为 SMTP 端口号
smtpObj.login(mail_user,mail_pass)
smtpObj.sendmail(sender, receivers, message.as_string())
print ("邮件发送成功")
except smtplib.SMTPException:
print ("Error: 无法发送邮件")
地图:
from pyecharts.charts import Map
from pyecharts.charts import Page
from pyecharts import options as opts
city =df_last["City2"]
val_min_rsrp,val_max_rsrp = df_last["RSRP>=-110 采样点占比"].min().round(2),df_last["RSRP>=-110 采样点占比"].max().round(2)
val_min_sinr,val_max_sinr =df_last["SINR>0 采样点占比"].min().round(2),df_last["SINR>0 采样点占比"].max().round(2)
visual_color = ['#df2f48','#dfa59b','#1c39ca','#80d327']
def map_left() -> Map:
c = (
Map()
.add("", [list(z) for z in zip(list(city), list(df_last["RSRP>=-110 采样点占比"]))], "济南")
.set_global_opts(
title_opts=opts.TitleOpts(title="济南各区县4G网络良好覆盖(RSRP>=-110)比例分布图",pos_left="center"),
visualmap_opts=opts.VisualMapOpts(min_=val_min_rsrp,max_=val_max_rsrp,range_color=visual_color),
tooltip_opts=opts.TooltipOpts(formatter="{b}:{c} %")
)
)
return c
def map_right() -> Map:
c = (
Map()
.add("", [list(z) for z in zip(list(city), list(df_last["SINR>0 采样点占比"]))], "济南")
.set_global_opts(
title_opts=opts.TitleOpts(title="济南各区县4G网络良好质量(SINR>0)比例分布图",pos_left="center"),
visualmap_opts=opts.VisualMapOpts(min_=val_min_sinr,max_=val_max_sinr),
tooltip_opts=opts.TooltipOpts(formatter="{b}:{c} %")
)
)
return c page = Page(interval=0)
page.add(map_left(), map_right())
page.render_notebook()
对指定列进行处理(正则)
具体过程:首先将其转化成str,然后进行正则表达式匹配
data_Base['USER-ID'] = data_Base['USER-ID'].astype(np.str)
import re
pattern = re.compile(r'^[-+]?[-0-9]\d*\.\d*|[-+]?\.?[0-9]\d*$')
data_Base["USER-ID"]=data_Base["USER-ID"].apply(lambda x:x if pattern.match(x) else np.nan)
zip转化指定格式:
将三列(名称,经度,纬度)
# # a=[list (z) for z in zip(grid_no["longitude"],grid_no["latitude"])]
# list( zip(grid_no["longitude"],grid_no["latitude"]) )
# list( grid_no["grid_no"])
#zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表
base = { inx: list(item) for inx, item in zip( list( grid_no['grid_no'] ), list( zip(grid_no['longitude'], grid_no['latitude']) ) ) }
调用百度地图BMAP
with open('./data.json', 'w') as outfile:
json.dump(base, outfile)
from pyecharts.charts import BMap
import json
BAIDU_AK = "GbQ806nWqGFMjuiGjTm6jPgcVGWICGA1"
def bmap_base() -> BMap:
c = (
BMap(init_opts = opts.InitOpts(height='615px',width='1350px'))
.add_schema(
baidu_ak=BAIDU_AK,
center=[117.064366, 36.646401],
zoom=15
)
.add_coordinate_json(json_file='./data.json')
.add(
"",
data_pair =[list(z) for z in zip(list(data["grid_no"]),list(data["覆盖好质量差的质差样本占比"]))],
label_opts=opts.LabelOpts(is_show=False),
symbol_size=6,
type_ = 'effectScatter'
)
.add_control_panel(navigation_control_opts=opts.BMapNavigationControlOpts(),
scale_control_opts=opts.BMapScaleControlOpts(),
overview_map_opts=opts.BMapOverviewMapControlOpts(is_open=True,offset_width=0,offset_height=0)) .set_global_opts(title_opts=opts.TitleOpts(title="济南覆盖好质量差SINR质差栅格分布图",pos_left='center'))
.set_series_opts(effect_opts=opts.EffectOpts(symbol='circle',scale=5,brush_type = "stroke")) )
return c
bmap = bmap_base() bmap.render("济南质差栅格分布图.html")
bmap.render_notebook()
堆叠柱状图
bar=Bar(init_opts = opts.InitOpts(height='350px'))
bar.add_xaxis(list(prb_label_city_count["City1"].unique()))
for label in prb_label_city_count["prb_label"].unique():
p = prb_label_city_count[prb_label_city_count["prb_label"]==label]
bar.add_yaxis(label,list((p["prb_label_per"]*100).round(2)),stack="stack1") bar.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
bar.set_global_opts(
title_opts=opts.TitleOpts(title="各地市PRB利用率分区间段分布图",pos_left="center"),
legend_opts=opts.LegendOpts(pos_top="8%"),
yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(formatter="{value} %"),max_=100),
tooltip_opts=opts.TooltipOpts(formatter="{b}:{c} %")
)
bar.render_notebook()
根据省信息标注市区地图:
city = avg_traffic['City1'] + "市"
val_min,val_max = avg_traffic["Downlink traffic at the PDCP Layer"].min(),avg_traffic["Downlink traffic at the PDCP Layer"].max()
def map_shandong() -> Map:
c = (
Map()
.add("", [list(z) for z in zip(list(city), list(avg_traffic["Downlink traffic at the PDCP Layer"].round(2)))], "山东")
.set_global_opts(
title_opts=opts.TitleOpts(title="2月份各地市平均单小区忙时业务量",pos_left="center"),
visualmap_opts=opts.VisualMapOpts(min_=val_min,max_=val_max),
)
)
return c mymap = map_shandong()
mymap.render()
mymap.render_notebook()
根据特定关键字数据进行分段操作:
newtable["prb_label"] = pd.cut(newtable["Average downlink PRB usage"],[0,0.2,0.5,0.8,1],labels=["低负荷","中等负荷","高负荷","超高负荷"],include_lowest=True)
python pandas相关知识点(练习)的更多相关文章
- python学习相关知识点
1.ndarray中,添加行或列:https://blog.csdn.net/lishuandao/article/details/52444288 2.numpy中ndarray数组拼接方法介绍:h ...
- python多线程相关知识点
1. 信号量 信号机维护着一个计数器,指定可同时访问资源或者进入临界区的线程数.每次有一个线程获得信号机时,计数器-1.若计数器为0,其他线程就停止访问信号机 Semphore,是一种带计数的线程同步 ...
- Python开发一个csv比较功能相关知识点汇总及demo
Python 2.7 csv.reader(csvfile, dialect='excel', **fmtparams)的一个坑:csvfile被csv.reader生成的iterator,在遍历每二 ...
- Caffe学习系列(二)Caffe代码结构梳理,及相关知识点归纳
前言: 通过检索论文.书籍.博客,继续学习Caffe,千里之行始于足下,继续努力.将自己学到的一些东西记录下来,方便日后的整理. 正文: 1.代码结构梳理 在终端下运行如下命令,可以查看caffe代码 ...
- php正则相关知识点
关于正则,其实简单就是搜索和匹配.php,java,python等都是支持正则的,php正则兼容perl.好多同学觉得正则比较难,比较抽象,其实正则是非常简单的,主要是一个熟悉和反复练习的结果,还有一 ...
- python遇到的知识点
python遇到的知识点,记录一下.方便学习. 文件相关操作 查了资料,关于open()的mode参数: 'r':读 'w':写 'a':追加 'r+' == r+w(可读可写,文件若不存在就报错(I ...
- 基于tornado python pandas和bootstrap上传组件的mongodb数据添加工具
总体思路:基于bootstrap4的前端页面上传组件,把excel文件上传至服务器,并利用python pandas读取里面的数据形成字典列表 通过pymongo 接口把数据插入或追加到mongodb ...
- django学习-2.urls.py和view.py的相关知识点
1.URL函数简单解析 1.1.url() 函数可以接收四个参数,分别是两个必选参数:regex.view,和两个可选参数:kwargs.name. def url(regex, view, kwar ...
- UITableView相关知识点
//*****UITableView相关知识点*****// 1 #import "ViewController.h" // step1 要实现UITableViewDataSou ...
随机推荐
- Windows系统中 JDK安装及环境配置
需要安装jdk的第一步就是先去官网下载好JDK,选择需要的版本. Windows系统 1.将下载好的压缩包解压,点击解压得到的jdk执行文件开始安装.在安装过程中会弹出两个安装,一个是jdk,一个是j ...
- CSU-1974 神奇药水
CSU-1974 神奇药水 Description 对于csuxushu来说,能够在CSU(California State University)组织2017年的ACM暑期集训让他感到十分荣幸. ...
- 04 JVM是如何执行方法调用的(下)
虚方法调用 Java 里所有非私有实例方法调用都会被编译成 invokevirtual 指令,而接口方法调用会被编译成 invokeinterface 指令.这两种指令,均属于 Java 虚拟机中的虚 ...
- Java开发微信公众号(四)---微信服务器post消息体的接收及消息的处理
在前几节文章中我们讲述了微信公众号环境的搭建.如何接入微信公众平台.以及微信服务器请求消息,响应消息,事件消息以及工具处理类的封装:接下来我们重点说一下-微信服务器post消息体的接收及消息的处理,这 ...
- [python][django学习篇][2]创建django app
推荐学校django博客:http://pythonzh.cn/post/8/ django app 可以理解为一个文件夹: 里面包含了相关功能的代码.通过manage.py来创建 web app 激 ...
- maven学习(九)——maven中的坐标、依赖以及仓库
一.Maven坐标 1.1.什么是坐标? 在平面几何中坐标(x,y)可以标识平面中唯一的一点. 1.2.Maven坐标主要组成 groupId:组织标识(包名) artifactId:项目名称 ver ...
- [51nod 1022] 石子归并v2 [dp+四边形不等式优化]
题面: 传送门 思路: 加强版的石子归并,现在朴素的区间dp无法解决问题了 首先我们破环成链,复制一条一样的链并粘贴到原来的链后面,变成一个2n长度的序列,在它上面dp,效率O(8n^3) 显然是过不 ...
- Codeforces Round #321 (Div. 2) C dfs处理(双向边叶子节点的判断)
C. Kefa and Park time limit per test 2 seconds memory limit per test 256 megabytes input standard in ...
- 关于fixed定位的一些错误看法纠正
之前由于一些误导,一直感觉fixed这个定位在ie8下面是会出现兼容问题的,今天发现这个想法太绝对了,它只是在ie7 8 的怪异模式下面会出现兼容问题 解决这个问题可以通过用absolute来模拟fi ...
- 在做展开功能的时候,字体变多了,字体会变大的bug的解决方案
在没有限制高度的情况下字体会变大,要做展开效果,当然不能限制高度. 解决方案是,加个max-height就可以解决这个问题