一、背景和挖掘目标

二、分析方法与过程

1、数据获取

2、数据预处理

1.筛选有效问卷（根据表8-6的标准）

共发放1253份问卷，其中有效问卷数为930

2.属性规约

3.数据变换

'''

聚类离散化，最后的result的格式为：

      1           2           3           4

A     0    0.178698    0.257724    0.351843

An  240  356.000000  281.000000   53.000000

即(0, 0.178698]有240个，(0.178698, 0.257724]有356个，依此类推。

'''

from __future__ import print_function

import pandas as pd

from sklearn.cluster import KMeans #导入K均值聚类算法

typelabel ={u'肝气郁结证型系数':'A', u'热毒蕴结证型系数':'B', u'冲任失调证型系数':'C', u'气血两虚证型系数':'D', u'脾胃虚弱证型系数':'E', u'肝肾阴虚证型系数':'F'}

k = 4 #需要进行的聚类类别数

#读取数据并进行聚类分析

data = pd.read_excel('data/data.xls') #读取数据

keys = list(typelabel.keys())

result = pd.DataFrame()

if __name__ == '__main__': #判断是否主窗口运行，如果是将代码保存为.py后运行，则需要这句，如果直接复制到命令窗口运行，则不需要这句。

  for i in range(len(keys)):

    #调用k-means算法，进行聚类离散化

    print(u'正在进行“%s”的聚类...' % keys[i])

    kmodel = KMeans(n_clusters = k, n_jobs = 4) #n_jobs是并行数，一般等于CPU数较好

    kmodel.fit(data[[keys[i]]].as_matrix()) #训练模型

    r1 = pd.DataFrame(kmodel.cluster_centers_, columns = [typelabel[keys[i]]]) #聚类中心

    r2 = pd.Series(kmodel.labels_).value_counts() #分类统计

    r2 = pd.DataFrame(r2, columns = [typelabel[keys[i]]+'n']) #转为DataFrame，记录各个类别的数目

    r = pd.concat([r1, r2], axis = 1).sort_values(typelabel[keys[i]]) #匹配聚类中心和类别数目

    r.index = [1, 2, 3, 4]

    r[typelabel[keys[i]]] = pd.rolling_mean(r[typelabel[keys[i]]], 2) #rolling_mean()用来计算相邻2列的均值，以此作为边界点。

    r[typelabel[keys[i]]][1] = 0.0 #这两句代码将原来的聚类中心改为边界点。

    result = result.append(r.T)

  result.to_excel('tmp/data_processed.xls')

3、模型构建

首先准备apriori.py，代码没看懂，不过可以直接调用

#apriori代码

from __future__ import print_function

import pandas as pd

#自定义连接函数，用于实现L_{k-1}到C_k的连接

def connect_string(x, ms):

  x = list(map(lambda i:sorted(i.split(ms)), x))

  l = len(x[0])

  r = []

  for i in range(len(x)):

    for j in range(i,len(x)):

      if x[i][:l-1] == x[j][:l-1] and x[i][l-1] != x[j][l-1]:

        r.append(x[i][:l-1]+sorted([x[j][l-1],x[i][l-1]]))

  return r

#寻找关联规则的函数

def find_rule(d, support, confidence, ms = u'--'):

  result = pd.DataFrame(index=['support', 'confidence']) #定义输出结果

  support_series = 1.0*d.sum()/len(d) #支持度序列

  column = list(support_series[support_series > support].index) #初步根据支持度筛选

  k = 0

  while len(column) > 1:

    k = k+1

    print(u'\n正在进行第%s次搜索...' %k)

    column = connect_string(column, ms)

    print(u'数目：%s...' %len(column))

    sf = lambda i: d[i].prod(axis=1, numeric_only = True) #新一批支持度的计算函数

    #创建连接数据，这一步耗时、耗内存最严重。当数据集较大时，可以考虑并行运算优化。

    d_2 = pd.DataFrame(list(map(sf,column)), index = [ms.join(i) for i in column]).T

    support_series_2 = 1.0*d_2[[ms.join(i) for i in column]].sum()/len(d) #计算连接后的支持度

    column = list(support_series_2[support_series_2 > support].index) #新一轮支持度筛选

    support_series = support_series.append(support_series_2)

    column2 = []

    for i in column: #遍历可能的推理，如{A,B,C}究竟是A+B-->C还是B+C-->A还是C+A-->B？

      i = i.split(ms)

      for j in range(len(i)):

        column2.append(i[:j]+i[j+1:]+i[j:j+1])

    cofidence_series = pd.Series(index=[ms.join(i) for i in column2]) #定义置信度序列

    for i in column2: #计算置信度序列

      cofidence_series[ms.join(i)] = support_series[ms.join(sorted(i))]/support_series[ms.join(i[:len(i)-1])]

    for i in cofidence_series[cofidence_series > confidence].index: #置信度筛选

      result[i] = 0.0

      result[i]['confidence'] = cofidence_series[i]

      result[i]['support'] = support_series[ms.join(sorted(i.split(ms)))]

  result = result.T.sort_values(['confidence','support'], ascending = False) #结果整理，输出

  print(u'\n结果为：')

  print(result)

  return result

from __future__ import print_function

import pandas as pd

from apriori import * #导入自行编写的apriori函数

import time #导入时间库用来计算用时

data = pd.read_csv('data/apriori.txt', header = None, dtype = object) #读取数据

start = time.clock() #计时开始

print(u'\n转换原始数据至0-1矩阵...')

ct = lambda x : pd.Series(1, index = x[pd.notnull(x)]) #转换0-1矩阵的过渡函数

b = map(ct, data.as_matrix()) #用map方式执行

data = pd.DataFrame(list(b)).fillna(0) #实现矩阵转换，空值用0填充

end = time.clock() #计时结束

print(u'\n转换完毕，用时：%0.2f秒' %(end-start))

del b #删除中间变量b，节省内存

support = 0.06 #最小支持度

confidence = 0.75 #最小置信度

ms = '---' #连接符，默认'--'，用来区分不同元素，如A--B。需要保证原始表格中不含有该字符

start = time.clock() #计时开始

print(u'\n开始搜索关联规则...')

find_rule(data, support, confidence, ms)

end = time.clock() #计时结束

print(u'\n搜索完成，用时：%0.2f秒' %(end-start))

[Python数据挖掘]第8章、中医证型关联规则挖掘的更多相关文章

[Python数据挖掘]第4章、数据预处理
数据预处理主要包括数据清洗.数据集成.数据变换和数据规约,处理过程如图所示. 一.数据清洗 1.缺失值处理:删除.插补.不处理 ## 拉格朗日插值代码(使用缺失值前后各5个未缺失的数据建模) impo ...
[Python数据挖掘]第6章、电力窃漏电用户自动识别
一.背景与挖掘目标相关背景自查二.分析方法与过程 1.EDA(探索性数据分析) 1.分布分析 2.周期性分析 2.数据预处理 1.数据清洗过滤非居民用电数据,过滤节假日用电数据(节假日用电量明显 ...
[Python数据挖掘]第7章、航空公司客户价值分析
一.背景和挖掘目标二.分析方法与过程客户价值识别最常用的是RFM模型(最近消费时间间隔Recency,消费频率Frequency,消费金额Monetary) 1.EDA(探索性数据分析) #对数据 ...
[Python数据挖掘]第3章、数据探索
1.缺失值处理:删除.插补.不处理 2.离群点分析:简单统计量分析.3σ原则(数据服从正态分布).箱型图(最好用) 离群点(异常值)定义为小于QL-1.5IQR或大于Qu+1.5IQR import ...
[Python数据挖掘]第2章、Python数据分析简介
<Python数据分析与挖掘实战>的数据和代码,可从“泰迪杯”竞赛网站(http://www.tipdm.org/tj/661.jhtml)下载获得 1.Python数据结构 2.Nump ...
[Python数据挖掘]第5章、挖掘建模（下）
四.关联规则 Apriori算法代码(被调函数部分没怎么看懂) from __future__ import print_function import pandas as pd #自定义连接函数,用 ...
[Python数据挖掘]第5章、挖掘建模（上）
一.分类和回归回归分析研究的范围大致如下: 1.逻辑回归 #逻辑回归自动建模 import pandas as pd from sklearn.linear_model import Logist ...
【机器学习实战】第8章预测数值型数据：回归（Regression）
第8章预测数值型数据:回归 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/ ...
进击的Python【第十七章】：jQuery的基本应用
进击的Python[第十七章]:jQuery的基本应用

随机推荐

POJ 2533 - Longest Ordered Subsequence - [最长递增子序列长度][LIS问题]
题目链接:http://poj.org/problem?id=2533 Time Limit: 2000MS Memory Limit: 65536K Description A numeric se ...
2018-2019-2-20175303 实验一《Java开发环境的熟悉》实验报告
2018-2019-2-20175303 实验一 <Java开发环境的熟悉>实验报告一.实验内容及步骤实验1 1.用mkdir建立“20175303exp1”的目录 2.在“20175 ...
第八周 ip通信基础回顾
安装完华三模拟器,拖多台设备到工作区,全部启动及配置,建立好拓扑图,之后启动命令行终端. 配置登录用户,口令的指令有: <H3C> //用户直行 ...
PHPstorm 2017激活
网上看了很多,有用没几个.特别亲身试验了下.有一个有用的.摘录下来.备忘. 感谢该篇博文的作者.https://blog.csdn.net/veloi/article/details/71307942 ...
如何优化 ThreadPoolExecutor
一.想让线程池在初始化时就干活,而不是等到第一次提交任务时才创建线程,该怎么做? /** * Starts all core threads, causing them to idly wait fo ...
[USACO11DEC]牧草种植Grass Planting
图很丑.明显的树链剖分,需要的操作只有区间修改和区间查询.不过这里是边权,我们怎么把它转成点权呢?对于E(u,v),我们选其深度大的节点,把边权扔给它.因为这是树,所以每个点只有一个父亲,所以每个边权 ...
1#认识Java
Java是一种面对对象的编程语言. Java共分为三个体系:JavaEE.JavaSE.JavaMS Java SE 1: Java Platform Standard Edition,Java平台标 ...
Sublime 个人配置
Sublime 个人配置用的faltland主题,之后还加了一些自己喜欢的东西. 效果图如下: { "always_show_minimap_viewport": true, & ...
Vim编辑器设置及其使用
一.vim编辑器的相关配置文件 /etc/vimrc:vim编辑器的全局配置文件,针对所有用户有效 /etc/virc:vi编辑器的全局配置文件,针对所有用户有效 ~/.vimrc:vim编辑器的其他 ...
js某一元素在数组中的索引
第一种:数组遍历 function search(arr,dst){ var i = arr.length; while(i-=1){ if (arr[i] == dst){ return i; } ...

[Python数据挖掘]第8章、中医证型关联规则挖掘

一、背景和挖掘目标

二、分析方法与过程

1、数据获取

2、数据预处理

3、模型构建

[Python数据挖掘]第8章、中医证型关联规则挖掘的更多相关文章

随机推荐

热门专题