数据挖掘之聚类算法Ａpriori总结

项目中有时候需要用到对数据进行关联分析，比如分析一个小商店中顾客购买习惯.

 package com.data.algorithm;

 import com.google.common.base.Splitter;

 import com.google.common.collect.Lists;

 import com.google.common.collect.Maps;

 import org.slf4j.Logger;

 import org.slf4j.LoggerFactory;

 import java.io.BufferedReader;

 import java.io.FileInputStream;

 import java.io.IOException;

 import java.io.InputStreamReader;

 import java.util.*;

 /**

  * *********************************************************

  * <p/>

  * Author:     XiJun.Gong

  * Date:       2017-01-20 15:06

  * Version:    default 1.0.0

  * Class description：

  * <p/>

  * *********************************************************

  */

 class EOC {

     private static final Logger logger = LoggerFactory.getLogger(EOC.class);

     private Map<String, Integer> fmap;  //forward map

     private Map<Integer, String> bmap;  //backward map

     private List<Map<String, Integer>> elements = null;

     private Integer maxDimension;

     public EOC(final String pathFile, String separatSeq) {

         BufferedReader bufferedReader = null;

         try {

             this.fmap = Maps.newHashMap();

             this.bmap = Maps.newHashMap();

             this.elements = Lists.newArrayList();

             maxDimension = 0;

             bufferedReader = new BufferedReader(

                     new InputStreamReader(

                             new FileInputStream(pathFile), "UTF-8"));

             String _line = null;

             Integer keyValue = null, mapIndex = 0;

             while ((_line = bufferedReader.readLine()) != null) {

                 Map<String, Integer> lineMap = Maps.newHashMap();

                 if (_line.trim().length() > 1) {

                     if (separatSeq.trim().length() < 1) {

                         separatSeq = ",";

                     }

                     for (String word : Splitter.on(separatSeq).split(_line)) {

                         word = word.trim();

                         if (null == (keyValue = fmap.get(word))) {

                             keyValue = mapIndex++;

                         }

                         fmap.put(word, keyValue);

                         bmap.put(keyValue, word);

                         lineMap.put(word, keyValue);

                     }

                     if (maxDimension < lineMap.size())

                         maxDimension = lineMap.size();

                     elements.add(lineMap);

                 }

             }

         } catch (Exception e) {

             logger.error("读取文件出错 , 错误原因:{}", e);

         } finally {

             if (bufferedReader != null) {

                 try {

                     bufferedReader.close();

                 } catch (IOException e) {

                     logger.error("bufferedReader , 错误原因:{}", e);

                 }

             }

         }

     }

     public Integer getMaxDimension() {

         return maxDimension;

     }

     public float getRateOfSet(Collection<Integer> elementChild) {

         float rateCnt = 0f;

         int allSize = 1;

         for (Map<String, Integer> eMap : elements) {

             boolean flag = true;

             for (Integer element : elementChild) {

                 if (null == eMap.get(bmap.get(element))) {

                     flag = false;

                     break;

                 }

             }

             if (flag) rateCnt += 1;

         }

         return rateCnt / ((allSize = elements.size()) > 1 ? (float) allSize : 1.0f);

     }

     public Set<Integer> getElements() {

         return new HashSet<Integer>(fmap.values());

     }

     public Integer queryByKey(String key) {

         return fmap.get(key);

     }

     public String queryByValue(Integer value) {

         return bmap.get(value);

     }

 }

 public class Apriori {

     private static final Logger logger = LoggerFactory.getLogger(Apriori.class);

     private EOC eoc = null;

     private Integer maxDimension;

     private final float exp = 1e-4f;

     public Apriori(final String pathFile, String separatSeq, Integer maxDimension) {

         this(pathFile, separatSeq);

         this.maxDimension = maxDimension;

     }

     public Apriori(final String pathFile, String separatSeq) {

         this.eoc = new EOC(pathFile, separatSeq);

         this.maxDimension = this.eoc.getMaxDimension();

     }

     public void work(float confidenceLevel) {

         List<Set<Integer>> listElement = null;

         ArrayList<Set<Integer>> middleWareElement = null;

         Map<Set<Integer>, Float> maps = null;

         listElement = Lists.newArrayList();

         for (Integer element : this.eoc.getElements()) {

             Set<Integer> set = new HashSet<Integer>();

             set.add(element);

             listElement.add(set);

         }

         maps = Maps.newHashMap();

         middleWareElement = Lists.newArrayList();

         for (int i = 1; i < this.maxDimension; i++) {

             for (Set<Integer> tmpSet : listElement) {

                 float rate = eoc.getRateOfSet(tmpSet);

                 if (confidenceLevel - exp <= rate)

                     maps.put(tmpSet, rate);

             }

             System.out.println("+++++++++++第 " + i + " 维度关联数据+++++++++++");

             output(maps);

             listElement.clear();

             middleWareElement.addAll(maps.keySet());

             maps.clear();

             for (int j = 0; j < middleWareElement.size(); j++) {

                 Set<Integer> tmpSet = middleWareElement.get(j);

                 for (int k = j + 1; k < middleWareElement.size(); k++) {

                     Set<Integer> setChild = middleWareElement.get(k);

                     for (Integer label : setChild) {

                         if (!tmpSet.contains(label)) {

                             Set<Integer> newElement = new HashSet<Integer>(tmpSet);

                             newElement.add(label);

                             if (!listElement.contains(newElement)) {

                                 listElement.add(newElement);

                                 break;

                             }

                         }

                     }

                 }

             }

             middleWareElement.clear();

         }

     }

     public void output(Map<Set<Integer>, Float> maps) {

         for (Map.Entry<Set<Integer>, Float> iter : maps.entrySet()) {

             for (Integer integer : iter.getKey()) {

                 System.out.print(eoc.queryByValue(integer) + " ");

             }

             System.out.println(iter.getValue()*100+"%");

         }

     }

 }

 package com.data.algorithm;

 /**

  * *********************************************************

  * <p/>

  * Author:     XiJun.Gong

  * Date:       2017-01-17 17:57

  * Version:    default 1.0.0

  * Class description：

  * <p/>

  * *********************************************************

  */

 public class Main {

     public static void main(String args[]) {

         Apriori apriori = new Apriori("/home/com/src/main/java/com/qunar/data/algorithm/demo.data", ",");

         apriori.work(0.5f);

     }

 }

 +++++++++++第 1 维度关联数据+++++++++++

 苹果 50.0%

 西红柿 75.0%

 香蕉 75.0%

 矿泉水 75.0%

 +++++++++++第 2 维度关联数据+++++++++++

 苹果 西红柿 50.0%

 西红柿 香蕉 50.0%

 西红柿 矿泉水 50.0%

 香蕉 矿泉水 75.0%

 +++++++++++第 3 维度关联数据+++++++++++

 西红柿 香蕉 矿泉水 50.0%

数据挖掘之聚类算法Ａpriori总结的更多相关文章

续前篇---数据挖掘之聚类算法k-mediod(PAM)原理及实现
上一篇博文中介绍了聚类算法中的kmeans算法.无可非议kmeans由于其算法简单加之分类效率较高已经广泛应用于聚类应用中. 然而kmeans并非十全十美的.其对于数据中的噪声和孤立点的聚类带来的误 ...
数据挖掘之聚类算法K-Means总结
序由于项目需要,需要对数据进行处理,故而又要滚回来看看paper,做点小功课,这篇文章只是简单的总结一下基础的Kmeans算法思想以及实现: 正文: 1.基础Kmeans算法. Kmeans算法的属 ...
[数据挖掘] - 聚类算法：K-means算法理解及SparkCore实现
聚类算法是机器学习中的一大重要算法,也是我们掌握机器学习的必须算法,下面对聚类算法中的K-means算法做一个简单的描述: 一.概述 K-means算法属于聚类算法中的直接聚类算法.给定一个对象(或记 ...
《数据挖掘导论》实验课——实验七、数据挖掘之K-means聚类算法
实验七.数据挖掘之K-means聚类算法一.实验目的 1. 理解K-means聚类算法的基本原理 2. 学会用python实现K-means算法二.实验工具 1. Anaconda 2. skle ...
数据挖掘十大算法--K-均值聚类算法
一.相异度计算在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能 ...
数据挖掘聚类算法(DBSCAN、Kmeans)Java实现
学习聚类算法时,参考算法说明随手写的java实现,代码很简单,不多做说明啦,有需要的童鞋可以看看,自己也做个备录. http://files.cnblogs.com/files/yuananyun/% ...
一步步教你轻松学K-means聚类算法
一步步教你轻松学K-means聚类算法(白宁超 2018年9月13日09:10:33) 导读:k-均值算法(英文:k-means clustering),属于比较常用的算法之一,文本首先介绍聚类的理 ...
基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
K-means聚类算法
聚类分析(英语:Cluster analysis,亦称为群集分析) K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般.最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中, ...

随机推荐

python scipy计算机数值库
scripy有聚类的python 代码,如: http://blog.csdn.net/elaine_bao/article/details/50242867
【java】文件复制的简单实现
package 文件操作; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; ...
Hibernate学习---单表查询
我们都知道SQL是非常强大的,为什么这么说呢?相信学过数据库原理的同学们都深有体会,SQL语句变化无穷,好毫不夸张的说可以实现任意符合我们需要的数据库操作,既然前面讲到Hibernate非常强大,所以 ...
（精选）Xcode极速代码，征服Xcode，xcode插件
插件 1 http://blog.csdn.net/qq_30513483/article/details/52349997 插件2 http://www.code4app.com/forum.ph ...
Linux(CentOS6.5)修改默认yum源为国内的阿里云、网易yum源
官方的yum源在国内访问效果不佳. 需要改为国内比较好的阿里云或者网易的yum源修改方式: echo 备份当前的yum源 mv /etc/yum.repos.d /etc/yum.repos.d.b ...
【转】java.lang.NoSuchMethodError: javax.persistence.Table.indexes()[Ljavax/persistence/Index;
最近在配置最新的ssh(struts2.3.16.3+hibernate4.3.7+spring4.1.2)的时候遇到的这个错误提示,后来在网上找了半天都不能解决,虽然有个说法是model对象用这样@ ...
python爬虫如何爬知乎的话题？
因为要做观点,观点的屋子类似于知乎的话题,所以得想办法把他给爬下来,搞了半天最终还是妥妥的搞定了,代码是python写的,不懂得麻烦自学哈!懂得直接看代码,绝对可用 #coding:utf-8 fro ...
怎么制作html5网站页面让它适应电脑和手机的尺寸
https://zhidao.baidu.com/question/918130826792192539.html 用以下代码开头:<!DOCTYPE HTML><html>& ...
每天学一点Docker（6）——镜像和DockerFile
镜像的分层结构: 实际上,Docker Hub 中 99% 的镜像都是通过在 base 镜像中安装和配置需要的软件构建出来的.比如我们现在构建一个新的镜像,Dockerfile 如下: ① 新镜像不再 ...
析构函数（C#）
析构函数又称终结器,用于析构类的实例. 定义析构函数(destructor) 与构造函数相反,当对象结束其生命周期时(例如对象所在的函数已调用完毕),系统自动执行析构函数.析构函数往往用来做&quo ...

数据挖掘之聚类算法Ａpriori总结

数据挖掘之聚类算法Ａpriori总结的更多相关文章

随机推荐

热门专题