pandas小程序应用-实验
背景:来自于日常工作,针对医院行政人员统计日常门诊信息,手工统计繁琐、容易出错的问题,结合实际特点,采用python对数据进行自动统计。
具体步骤如下:
1.引入python工具包。
import pandas as pd
import glob
import datetime
2.读取文件夹中的所有xls文件,将其放置到DataFrame中,并将汇总表导出。
files=glob.glob(r"*.xls")
datas=pd.DataFrame()
for file in files:
data=pd.read_excel(file,header =1)
datas=pd.concat([data,datas])
datas.to_excel("Exportfiles/汇总.xls",encoding="gbk",index=0)
3.对DataFrame中的数据进行清洗,填充空值,去除不合理的、重复的项目。
data_res=datas
#数据清理
data_res=data_res[(data_res["病人性质"]!="门诊慢病")]
data_res=data_res[~(data_res["接诊医生"].isin(["管理员"]))]
#去除空格
data_res["姓名"]=data_res["姓名"].str.replace(" ","")
# #删除重复项
data_res.fillna("未知",inplace=True)
data_res_last=data_res.drop_duplicates(subset=["姓名","身份证号","就诊科室"])
data_res_last.to_excel("Exportfiles/清洗后.xls",encoding="gbk",index=0)
4.读取科室与医生对应表,创建待输出的DataFrame。
#每科的人数
#针对接诊医生
JieZhenDoc=data_res_last["接诊医生"].unique()
dataFrame=pd.DataFrame(columns=["科室","医生","总人数","无诊断人数","无日期人数","35岁以上人数","35岁以上未测血压人数"])
#获取医生与科室
DoctorKeShi=pd.read_excel("原始资料/医生一览表.xls",index_col=0,header =0)
DoctorKeShi=DoctorKeShi.reset_index()
DoctorKeShi["姓名"]=DoctorKeShi["姓名"].str.replace(" ","")
5.对病人年龄数据进行处理。
#根据身份证号提取年龄
def ExtractionAge(data):
Id=data["身份证号"]
if(len(Id)==18):
year=Id[6:10]
return datetime.datetime.now().year-int(year)
else:
return 101
data_res_last["年龄"]=data_res_last["年龄"].str.replace("岁","")
data_res_last["年龄"]=data_res_last["年龄"].str.replace("月","")
data_res_last["年龄"]=data_res_last["年龄"].str.replace("天","")
#df.loc[df['商品毛重'] > 10, '商品毛重'] = df.商品毛重 / 1000
data_res_last.loc[data_res_last["年龄"]=="未知","年龄"]=data_res_last[data_res_last["年龄"]=="未知"].apply(lambda x:ExtractionAge(x), axis = 1)
data_res_last["年龄"]=pd.to_numeric(data_res_last["年龄"])
6.针对各个大夫本月的各项指标进行统计。
for i in JieZhenDoc:
data=data_res_last[data_res_last["接诊医生"]==i]
ZongRenShu=data.shape[0]
WuZhenDuanRenShu=data[data["初步诊断"]=="未知"].shape[0]
WuRiQi=data[data["发病日期"]=="未知"].shape[0]
NianLingO35=data[(data["年龄"]>34)&(data["年龄"]<100)].shape[0]
NianLingO35WuXueYa=data[(data["年龄"]>34)&(data["年龄"]<100)&(data["血压"]=="未知")].shape[0]>0
if(DoctorKeShi["科室"][DoctorKeShi["姓名"]==i].count()>0):
Keshi=DoctorKeShi["科室"][DoctorKeShi["姓名"]==i].values[0]
if((Keshi=="产科一区" or Keshi=="产科二区")):
NianLingO35WuXueYa=data[(data["血压"]=="未知")].shape[0]
if(Keshi=="新生儿室"or Keshi=="儿科二区"or Keshi=="儿科一区"):
NianLingO35WuXueYa=0
dataFrame.loc[i]={"科室":Keshi,"医生":i,"总人数":ZongRenShu,"无诊断人数":WuZhenDuanRenShu,"无日期人数":WuRiQi,"35岁以上人数":NianLingO35,"35岁以上未测血压人数":NianLingO35WuXueYa}
else:
print(i)
7.对DataFrame中的多列进行数字化处理。
dataFrame[['总人数', '无诊断人数', '无日期人数', '35岁以上人数', '35岁以上未测血压人数']]=(dataFrame[['总人数', '无诊断人数', '无日期人数', '35岁以上人数', '35岁以上未测血压人数']]).apply(pd.to_numeric)
8.对未测量血压占比进行计算。
Result_deal=dataFrame
Result_deal["医生未测血压占比"]=Result_deal.apply(lambda x:DoctorRate(x), axis = 1)
def DoctorRate(x):
if(x["35岁以上人数"]==0):
return 0
else:
c=x["35岁以上未测血压人数"]/x["35岁以上人数"]
temp="%.2f%%" % (c * 100)
return temp
def DepartmentRate(x):
if(x["35岁以上人数"]==0):
return 0
else:
c=x["35岁以上未测血压人数"]/x["35岁以上人数"]
temp="%.2f%%" % (c * 100)
return temp
9.导出医生详细列表。
Result_deal.to_excel("Exportfiles/医生详细汇总.xls",encoding="gbk",index=0)
10.对科室详细信息进行统计。
Department_Res=Result_deal.groupby(["科室"]).sum().reset_index()
Department_Res["科室未测血压占比"]=Department_Res.apply(lambda x:DepartmentRate(x), axis = 1)
Department_Res.to_excel("Exportfiles/科室详细汇总.xls",encoding="gbk",index=0)
pandas小程序应用-实验的更多相关文章
- 采用pandas读取文件,进行自动化统计小程序
自己完成的第二个自动化统计小程序,完成之后感觉:命名不够规范,造成可读性比较没那么好,幸好给自己很多地方都加了注释#coding:utf-8import os,sysimport reimport x ...
- 微信 公众号 小程序 授权 unionid 用户信息 实验总结
-*-*-*-*-*-*-*-*-*--*-*-*-1.小程序通过code获取用户openid的接口,如果用户曾经授权并未过期,或者用户关注过同主体的公众号,会带回unionID,但没有用户头像等信息 ...
- 微信小程序开发初次尝试-----实验应用制作(一)
初次尝试微信小程序开发,在此写下步骤以做记录和分享. 1.在网上找了很多资料,发现这位知乎大神提供的资料非常全面. 链接 https://www.zhihu.com/question/50907897 ...
- 天河微信小程序入门《四》:融会贯通,form表单提交数据库
天河在阔别了十几天之后终于又回来了.其实这篇文章里的demo是接着(天河微信小程序入门<三>)后面就做了的,但是因为最近在做别的项目,所以就偷懒没有发出来.放到今天来看,从前台提交数据到数 ...
- 微信小程序实战笔记
前言: 微信小程序最近刚从鹅厂生产出来,我有幸参与了一次小程序的实战,有必要记录我的开发过程.看上去小程序很简单,但是在深入开发的时候才能具体体会里面的变化,接下来记录我的第一个微信小程序的点点滴滴! ...
- Jcompress: 一款基于huffman编码和最小堆的压缩、解压缩小程序
前言 最近基于huffman编码和最小堆排序算法实现了一个压缩.解压缩的小程序.其源代码已经上传到github上面: Jcompress下载地址 .在本人的github上面有一个叫Utility的re ...
- JWebFileTrans(JDownload): 一款可以从网络上下载文件的小程序(二)
一 前言 本文是上一篇博客JWebFileTrans:一款可以从网络上下载文件的小程序(一)的续集.此篇博客主要在上一篇的基础上加入了断点续传的功能,用户在下载中途停止下载后,下次可以读取断点文件, ...
- JWebFileTrans(JDownload): 一款可以从网络上下载文件的小程序(三),多线程断点下载
一 前言 本篇博客是<JWebFileTrans(JDownload):一款可以从网络上下载文件的小程序>系列博客的第三篇,本篇博客的内容主要是在前两篇的基础上增加多线程的功能.简言之,本 ...
- 小程序server-实现会话层
小程序server-实现会话层开发教程: 1.安装MongoDB #安装 MongoDB及其客户端命令行工具 yum install mongodb-server mongodb -y #查看版本 m ...
随机推荐
- AtCoder Beginner Contest 084 C - Special Trains
Special Trains Problem Statement A railroad running from west to east in Atcoder Kingdom is now comp ...
- n!素因子p的幂 swjtuOJ 2090【数论】
原文地址:http://blog.csdn.net/u012717411/article/details/47334969(感谢作者) 素因子分解写的非常好!数论一道好题:给以两个大整数n,s(n&l ...
- Java练习 SDUT-2787_加密术
加密术 Time Limit: 1000 ms Memory Limit: 65536 KiB Problem Description 加密技术是一种常用的安全保密手段,利用加密技术可以把重要的数据变 ...
- 微信小程序中支持es7的async语法
最近在原生的微信小程序项目中需要把原来es6的promise方法改成es7的async await,这样代码看起来更直观,也方便以后的兄弟维护,但是改了代码之后项目就报错了. 提示的错误是:regen ...
- 无人驾驶——对frenet坐标的理解
好的确定车和路之间的关系,我们通常将车辆的在大地坐标坐标转化为车辆和道路之间的frenet坐标. 可能有人会疑问为什么转换后就方便了呢?我们来看一个例子. 在大地坐标下: 无人车首先要知道红色车的位置 ...
- Python基础:14生成器
yield表达式只用于定义生成器函数,且只能存在于函数的定义体中.只要一个函数内部使用了yield表达式,则该函数就成为生成器函数. 当调用生成器函数时,它返回一个称为生成器的迭代器.然后该生成器控制 ...
- 洞见数据库前沿 阿里云数据库最强阵容 DTCC 2019 八大亮点抢先看
摘要: 作为DTCC的老朋友和全球领先的云计算厂商,阿里云数据库团队受邀参加本次技术盛会,不仅将派出重量级嘉宾阵容,还会为广大数据库业内人士和行业用户奉上8场精彩议题.下面小编就为大家提前梳理了8大亮 ...
- jmeter循环取消今天所有的订单
结构 1.首先,添加JDBC Connection Configuration 2.其次添加JDBC request 添加循环控制器 循环控制器下方添加计数器 ${__V(reservationID_ ...
- vb.net机房收费系统——存储过程
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/xdd19910505/article/details/35574125 一.使用背景 ...
- 04Top K算法问题
本章阐述寻找最小的k个数的反面,即寻找最大的k个数,尽管寻找最大的k个树和寻找最小的k个数,本质上是一样的.但这个寻找最大的k个数的问题的实用范围更广,因为它牵扯到了一个Top K算法问题,以及有关搜 ...