python异常值检验实战2_医美手术价格

python信用评分卡建模（附代码，博主录制）

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

测试数据结果：用非B4数据

肉毒素-横力申请金额是市场价格平均倍数 4.4 最高16.666 最低0.433
B4状态5.14倍最高16.666 最低0.433
D1 平均4.14倍最高最低

眼部_双眼皮_切开

B4平均价： 16314

非B4平均价：12697

注射类_玻尿酸_进口

平均价19560

B4平均价 21374

非B4平均价18497

鼻部_鼻综合_鼻综合

以前价格：63000

平均价：31497

B4平均价：32926

非B4平均价：29637

据了解京东医美汇实际是成都市悦好医疗美容与京东合作的一个项目，相当于你的公司在京东开一个整形专营店，在打着京东的旗号起全国各地招募整形机构，整形机构看好的是京东的巨大流量，实际京东商城并不给流量的入口，京东医美汇也没有新颖的商业模式
像京东这种大平台，能够让医疗美容入驻平台，也是因为新氧，更美，悦美等医疗美容互联网平台这2年受风投追捧有关，京东也想作为一个尝试，看看医美的数据到底怎么样，如果数据乐观，按医美线下市场千亿级规模来看，一定是快大蛋糕，自上线一年多的观察来看，京东医美汇并没有在互联网医疗美容行业，掀起什么波浪，在看这二年新氧更美等主流平台的业绩发展，医疗美容行业还处于初级发展阶段，社会对医美的认识和熟悉程度还不够，对医美用户的唤醒和教育工作仍是未来几年的重任，待机会成熟BAT等企业一定会进入，不再会静观其变。

医美手术市场价格（旧）

玻尿酸 2000,5000 价位

肉毒素3000,6000价位

手术名——市场价格

https://jingyan.baidu.com/article/a948d65109e4f90a2dcd2ea0.html

分位数是将总体的全部数据按大小顺序排列后，处于各等分位置的变量值。如果将全部数据分成相等的两部分，它就是中位数；如果分成四等分，就是四分位数；八等分就是八分位数等。四分位数也称为四分位点，它是将全部数据分成相等的四部分，其中每部分包括25%的数据，处在各分位点的数值就是四分位数。四分位数有三个，第一个四分位数就是通常所说的四分位数，称为下四分位数，第二个四分位数就是中位数，第三个四分位数称为上四分位数，分别用Q1、Q2、Q3表示[1] 。

第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距（InterQuartile Range,IQR）。

箱形图算法修正，如果

异常值上线=四分之三位数+1.5*IQR 如果异常值上线大于数组最大值，就取数组最大值
异常值下线=四分之一位数-1.5*IQR，如果异常值下线小于数组最小值，就取数组最小值

箱型图异常值判断脚本

# -*- coding: utf-8 -*-

"""

Created on Fri Mar  9 10:18:04 2018

@author: Administrator

"""

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import os

#读取文件

FileName="眼部_双眼皮_切开.xlsx"

#读取excel

df=pd.read_excel("save/"+FileName)

申请金额=df['申请金额']

series_子类标准价格=df['子类标准价格']

#手术名

名字=df['手术名'].values[0]

dict_申请金额_描述统计={}

样本量=描述性统计[0]

子类标准价格=series_子类标准价格.values[0]

描述性统计=申请金额.describe()

最小值=申请金额.min()

最大值=申请金额.max()

平均数=申请金额.mean()

中位数=申请金额.median()

众数=float(申请金额.mode())

四分之一位数=描述性统计[4]

四分之三位数=描述性统计[6]

标准差=描述性统计[2]

dict_申请金额_描述统计["子类手术名"]=名字

dict_申请金额_描述统计["样本量"]=样本量

dict_申请金额_描述统计["子类标准价格"]=子类标准价格

dict_申请金额_描述统计["最小值"]=最小值

dict_申请金额_描述统计["最大值"]=最大值

dict_申请金额_描述统计["平均数"]=平均数

dict_申请金额_描述统计["中位数"]=中位数

dict_申请金额_描述统计["众数"]=众数

dict_申请金额_描述统计["四分之一位数"]=四分之一位数

dict_申请金额_描述统计["四分之三位数"]=四分之三位数

dict_申请金额_描述统计["标准差"]=标准差

'''

a=list(dict_申请金额_描述统计)

b=list(dict_申请金额_描述统计.values())

c=[(a[i],b[i]) for i in range(len(a))]

'''

print (dict_申请金额_描述统计)

#绘制正太分布图

申请金额.hist()

df1=pd.DataFrame(申请金额)

a=df1.boxplot()

IQR=四分之三位数-四分之一位数

异常值上线=四分之三位数+1.5*IQR

异常值下线=四分之一位数-1.5*IQR

def 异常值判断(数字):

    if 数字>异常值上线 or 数字<异常值下线:

        print("%f 是异常值"%数字)

        return True

    else:

        print("%f 不是异常值"%数字)

        return False

python风控建模实战lendingClub(博主录制，catboost，lightgbm建模，2K超清分辨率)

https://study.163.com/course/courseMain.htm?courseId=1005988013&share=2&shareId=400000000398149

微信扫二维码，免费学习更多python资源

python异常值检验实战2_医美手术价格的更多相关文章

异常值检验实战1--风控贷款年龄变量(附python代码)
python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&am ...
异常值检验实战3_NBA球员表现稳定性分析
机器学习_深度学习_入门经典(博主永久免费教学视频系列) https://study.163.com/course/courseMain.htm?courseId=1006390023&sh ...
《Python高效开发实战》实战演练——内置Web服务器4
<Python高效开发实战>实战演练——开发Django站点1 <Python高效开发实战>实战演练——建立应用2 <Python高效开发实战>实战演练——基本视图 ...
R语言︱异常值检验、离群点分析、异常值处理
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:异常值处理一般分为以下几个步骤:异常 ...
R语言︱处理缺失数据&&异常值检验、离群点分析、异常值处理
在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据脏数据包括:缺失值.异常值.不一致的值.重复数据及含有特殊符号(如#.¥.*)的数据数 ...
关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
python聚类算法实战详细笔记 (python3.6+(win10、Linux))
python聚类算法实战详细笔记 (python3.6+(win10.Linux)) 一.基本概念: 1.计算TF-DIF TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库 ...
《Python高效开发实战》实战演练——基本视图3
在完成Django项目和应用的建立后,即可以开始编写网站应用代码,这里通过为注册页面显示一个欢迎标题,来演示Django的路由映射功能. 1)首先在djangosite/app/views.py中建立 ...
《Python高效开发实战》实战演练——建立应用2
为了在项目中开发符合MVC架构的实际应用程序,需要在项目中建立Django应用.每个Django项目可以包含多个Django应用.建立应用的语法为: #python manage.pystartapp ...

随机推荐

python 利用pyttsx3文字转语音(转)
原文链接作者 # -*- coding: utf-8 -*- import pyttsx3 engine = pyttsx3.init() with open("all.txt", ...
java集合之hashMap，初始长度，高并发死锁，java8 hashMap做的性能提升
众所周知,HashMap是一个用于存储Key-Value键值对的集合,每一个键值对也叫做Entry.这些个键值对(Entry)分散存储在一个数组当中,这个数组就是HashMap的主干. HashMap ...
linux MD5使用
# define MD5_LONG unsigned int # define MD5_CBLOCK 64 # define MD5_LBLOCK (MD5_CBLOCK/4) # define MD ...
使用postman修改SAP Marketing Cloud contact主数据
Marketing Cloud里的contact主数据,创建成功后也不是所有字段都能够被修改.在Personal data区域的字段是可以被修改的. 比如我在"客户属性"字段里维护 ...
Linux基础使用
Linux中,日志所在的位置: /var/log/messages 系统默认的日志 /var/log/secure 记录用户的登录信息查看日志的方法有很多 :head ...
axios 用 params/data 发送参数给 springboot controller，如何才能正确获取
今天有人遇到接口调用不通的情况,粗略看了一下是axios跨域请求引起了.找到问题,处理就简单多了. 但是我看其代码,发现比较有意思 export function agentlist(query) { ...
All-in-One Office，不容错过的办公插件
WPS Office是由金山自主研发的一款办公软件套装,具备办公软件最常用的文字.表格.演示等多种功能. 这款国产办公软件不仅免费,而且具有内存小.海量模板.兼容性强.操作更加符合中国人使用习惯等 ...
内核对象&句柄&泄漏&检测
今天看到这个问题如何评价王垠的 <讨厌的 C# IDisposable 接口>? - 王垠(人物),答案被歪到windows 内核对象和句柄,答案中谈的太浅显而且有误.翻出陈年老文章(此文 ...
SparkStreaming使用checkpoint存在的问题及解决方案
sparkstreaming关于偏移量的管理在 Direct DStream初始化的时候,需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据. ...
关于STM32的I2C硬件DMA实现
关于STM32的I2C硬件DMA实现网上看到很多说STM32的I2C很难用,但我觉得还是理解上的问题,STM32的I2C确实很复杂,但只要基础牢靠,并没有想象中的那么困难. 那么就先从基础说起,只说 ...

python异常值检验实战2_医美手术价格

python异常值检验实战2_医美手术价格的更多相关文章

随机推荐

热门专题