在机器学习中,常用的主题有分类,回归,聚类和关联分析。而关联分析,在实际中的应用场景,有部分是用于商品零售的分析。在Spark中有相应的案例

在关联分析中,有一些概念要熟悉。 频繁项集,关联规则,支持度,置信度,提升度。其中 频繁项集(frequent item sets) 是经常出现在一块的物品的集合,关联规则(association rules)    两种物品之间可能存在很强的关系

  1)支持度 support (x => y)     = P(x y) = freq(x y)/total = confidence (x=>y)* freq(x)/total, 事件x和事件y共同出现的概率;用频次也可以计算,也可以通过置信度计算
  2)置信度 confidence (x => y)  = P(y|x) = freq(xy)/freq(x), ,出现事件x的事件中出现事件y的概率;
  3)提升度 lift (x => y)               = P(y|x)/P(x) = P(xy)/(P(x)*P(y)) = confidence (x=>y)*total/ freq(y),出现x的条件下出现事件y的概率和没有条件x出现y的概率
       4) item_two(x=>y)                   = confidence (x=>y)* freq(x),出现x的条件下出现事件y的概率和没有条件x出现y的概率

主要涉及概率中的乘法公式。条件概率公式,上述的这些知识点可以复习一下基本的概念
实现的算法有两种。apriori 和FP-growth 其中  Apriori及其变形算法需要多次扫描数据库,并需要生成指数级的候选项集。FP-growth 算法通过构建FP-tree来压缩事务数据库中的信息,从而更加有效地产生频繁项集 (Frequent Patterns)。在这些主要是使用这些算法来驱动业务,所以 主要关注FP-growth 解决实际的频繁项集和关联规则挖掘问题。Demo的具体实现参考了Spark的案例,做了部分修改。在生产环境中,基本上要和业务对接,然后针对具体的场景,做参数的调节和关注输入数据的各种数据预处理。

import java.util.Arrays;
import java.util.List;
import org.apache.spark.ml.fpm.FPGrowth;
import org.apache.spark.ml.fpm.FPGrowthModel;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.*;
import static org.apache.spark.sql.functions.col;
import static org.apache.spark.sql.functions.lit;

public class JavaFPGrowth {

public static void main(String[] args) {
SparkSession spark = SparkSession
.builder()
.master("local[2]")
.appName("JavaFPGrowth_spark2.3")
.getOrCreate();
//设定本地日志
spark.sparkContext().setLogLevel("WARN");

List<Row> data = Arrays.asList(
RowFactory.create("1", Arrays.asList("1 2 5".split(" "))),
RowFactory.create("2",Arrays.asList("1 2 3 5".split(" "))),
RowFactory.create("4",Arrays.asList("6".split(" "))),
RowFactory.create("3",Arrays.asList("1 2".split(" ")))
);
StructType schema = new StructType(new StructField[]{
new StructField("user", DataTypes.StringType, false, Metadata.empty()),
new StructField(
"items", new ArrayType(DataTypes.StringType, true), false, Metadata.empty())
});
Dataset<Row> itemsDF = spark.createDataFrame(data, schema);
long lengthdata = itemsDF.count();

FPGrowthModel model = new FPGrowth()
.setItemsCol("items")
.setMinSupport(0.1)
.setMinConfidence(0.6)
.fit(itemsDF);

// Display frequent itemsets.
// | items|freq
Dataset<Row> ItemFreq = model.freqItemsets().withColumn("total", lit(lengthdata));
ItemFreq.show();
ItemFreq.createOrReplaceTempView("test_freq_view_d");

// Display generated association rules.
// antecedent 表示前项 consequent 表示后项 confidence 表示规则的置信度
Dataset<Row> ItemRules = model.associationRules() ;
// 计算支持度
Dataset<Row> res = ItemFreq.join(ItemRules, col("items").equalTo(col("antecedent")), "inner");
Dataset<Row> supportDF = res.withColumn("support",col("freq").divide(lengthdata).multiply(col("confidence")));
//使用视图sql方式 计算支持度 提升度 
ItemRules.createOrReplaceTempView("test_rules_view_d");
String support_sql = "select tt1.antecedent, tt1.antecedent_freq\n" +
", tt1.consequent , tt2.freq as consequent_freq\n" +
" , tt1.total , tt1.two_item_freq , tt1.support , tt1.confidence\n" +
" , tt1.confidence * tt1.total/ tt2.freq as lift\n" +
" from(select t2.freq as antecedent_freq, t2.total, t2.freq/t2.total*t1.confidence as support, \n" +
" t2.freq*t1.confidence as two_item_freq,\n" +
" t1.antecedent, t1.consequent, t1.confidence \n" +
"from test_rules_view_d t1 inner join test_freq_view_d t2 \n" +
"on t2.items = t1.antecedent)tt1 inner join test_freq_view_d tt2 \n" +
"on tt2.items = tt1.consequent";
Dataset<Row> suppoerdf = spark.sql(support_sql);
suppoerdf.show();

// items | prediction|
model.transform(itemsDF).show();

spark.stop();
}
}

以上是实现的代码,也就是根据 model.freqItemsets() 和 model.associationRules()  的计算结果来计算其他相关的数据,在这里保留了两种查询风格 DSL与SQL,一种是使用DSL的方式。一种是createOrReplaceTempView 使用SQL的方式来实现。很多示例都是scala语言写的,而Java的方式有所不同,尝试一下基本就可以确定。

参考:

   频繁项集与关联规则 FP-growth 的原理和实现 https://developer.ibm.com/zh/articles/machine-learning-hands-on2-fp-growth/

Spark应用开发-关联分析的更多相关文章

  1. 关联分析Apriori算法和FP-growth算法初探

    1. 关联分析是什么? Apriori和FP-growth算法是一种关联算法,属于无监督算法的一种,它们可以自动从数据中挖掘出潜在的关联关系.例如经典的啤酒与尿布的故事.下面我们用一个例子来切入本文对 ...

  2. Spark(六)Spark之开发调优以及资源调优

    Spark调优主要分为开发调优.资源调优.数据倾斜调优.shuffle调优几个部分.开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础:数据倾斜调优,主 ...

  3. 基于 Spark 的文本情感分析

    转载自:https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.ht ...

  4. 转】[1.0.2] 详解基于maven管理-scala开发的spark项目开发环境的搭建与测试

    场景 好的,假设项目数据调研与需求分析已接近尾声,马上进入Coding阶段了,辣么在Coding之前需要干马呢?是的,“统一开发工具.开发环境的搭建与本地测试.测试环境的搭建与测试” - 本文详细记录 ...

  5. FusionInsight大数据开发---Spark应用开发

    Spark应用开发 要求: 了解Spark基本原理 搭建Spark开发环境 开发Spark应用程序 调试运行Spark应用程序 YARN资源调度,可以和Hadoop集群无缝对接 Spark适用场景大多 ...

  6. spark和strom优劣分析

    对于Storm来说:1.建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进行金融交易和分析2.此外,如果对于实时计算的功能中,要求可靠的事务机制和可靠性机制,即数据 ...

  7. Windows下搭建Spark+Hadoop开发环境

    Windows下搭建Spark+Hadoop开发环境需要一些工具支持. 只需要确保您的电脑已装好Java环境,那么就可以开始了. 一. 准备工作 1. 下载Hadoop2.7.1版本(写Spark和H ...

  8. Ubuntu14.04或16.04下Hadoop及Spark的开发配置

    对于Hadoop和Spark的开发,最常用的还是Eclipse以及Intellij IDEA. 其中,Eclipse是免费开源的,基于Eclipse集成更多框架配置的还有MyEclipse.Intel ...

  9. 【GWAS文献解读】疟原虫青蒿素抗药性的全基因组关联分析

    英文名:Genetic architecture of artemisinin-resistant Plasmodium falciparum 中文名:疟原虫青蒿素抗药性的全基因组关联分析 期刊:Na ...

随机推荐

  1. Python实现进度条和时间预估的示例代码

    一.前言 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家 ...

  2. JavaScript calss语法糖

    JavaScript calss语法糖 基础知识 严格意义上来讲,在Js中是没有类这一概念的. 我们可以运用前面章节提到的构造函数来模拟出类这一概念,并且可以通过原型对象的继承来完美的实现实例对象方法 ...

  3. 2020重新出发,JAVA入门,关键字&保留字

    关键字 & 保留字 关键字(或者保留字)是对编译器有特殊意义的固定单词,不能在程序中做其他目的使用. 关键字具有专门的意义和用途,和自定义的标识符不同,不能当作一般的标识符来使用.例如, cl ...

  4. Vuex mapMutation的基本使用

    mapMutation-store中的同步方法 import Vue from 'vue' import Vuex from 'vuex' Vue.use(Vuex) export default n ...

  5. 调试备忘录-J-Link RTT的使用(原理 + 教程 + 应用 + 代码)

    MCU:STM32F407VE MDK:5.29 IAR:8.32 目录--点击可快速直达 目录 写在前面 什么是RTT? RTT的工作原理 RTT的性能 快速使用教程 高级使用教程 附上测试代码 2 ...

  6. mac 安卓生成证书(uniapp项目安卓证书申请)

    mac  安卓生成证书 义务需求: 最近在开发基于uniapp框架的app,到了打包发布的阶段,来尝试打包为安卓的apk安装包.在用HBuild打包的时候需要提供安卓的数字证书(.keystore 文 ...

  7. GitHub标星120K+的JDK并发编程指南,连续霸榜GitHub终于开源了

    前言 在编程行业中,有一个东西是和广大程序员形影不离的,在最一开始接触编程就是配置它的运行环境,然后java / javac,对,这个东西就是jdk 昨天项目刚上线,可以稍微休息一下了,但是猛的闲下来 ...

  8. [noip2002] 产生数

    题目描述 给出一个整数 n (n<1030)和 k 个变换规则 (k < 15) . 规则: 一位数可变换成另一个一位数: 规则的右部不能为零. 例如:n = 234 .有规则( k=2  ...

  9. mysql无法远程连接问题(ERROR 1045 (28000): Access denied for user 'root')

    mysql版本 : 8.0.21 使用mysql 作为nextcloud的数据库.之前使用挺正常的,因为被黑客勒索过一次,重新启动了一个mysql的docker镜像. 结果数据库配置老是失败,next ...

  10. Python-Opencv 图像处理基本操作

    Python-Opencv 图像处理基本操作 1.图像读取 使用cv2.imread(filepath,flags)读入图像 filepath: 读入图像完整路径(绝对路径,相对路径) flags: ...