掌握Spark机器学习库-09.6-LDA算法

数据集

iris.data

数据集概览

代码

package org.apache.spark.examples.examplesforml

import org.apache.spark.ml.clustering.{KMeans, LDA}

import org.apache.spark.SparkConf

import org.apache.spark.ml.feature.VectorAssembler

import org.apache.spark.sql.SparkSession

import scala.util.Random

object lLDA {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("iris")

    val spark = SparkSession.builder().config(conf).getOrCreate()

    val file = spark.read.format("csv").load("D:\\9-4LDA算法\\iris.data")

    file.show()

    import spark.implicits._

    val random = new Random()

    val data = file.map(row => {

      val label = row.getString(4) match {

        case "Iris-setosa" => 0

        case "Iris-versicolor" => 1

        case "Iris-virginica" => 2

      }

      (row.getString(0).toDouble,

        row.getString(1).toDouble,

        row.getString(2).toDouble,

        row.getString(3).toDouble,

        label,

        random.nextDouble())

    }).toDF("_c0", "_c1", "_c2", "_c3", "label", "rand").sort("rand")

    val assembler = new VectorAssembler()

      .setInputCols(Array("_c0", "_c1", "_c2", "_c3"))

      .setOutputCol("features")

    val dataset = assembler.transform(data)

    val Array(train, test) = dataset.randomSplit(Array(0.8, 0.2))

    train.show()

    /*

        val kmeans = new KMeans().setFeaturesCol("features").setK(3).setMaxIter(20)

        val model = kmeans.fit(train)

        model.transform(train).show()

        */

    val lda = new LDA().setFeaturesCol("features").setK(3).setMaxIter(40)

    val model = lda.fit(train)

    val prediction = model.transform(train)

    //prediction.show()

    val ll = model.logLikelihood(train)

    val lp = model.logPerplexity(train)

    // Describe topics.

    val topics = model.describeTopics(3)

    prediction.select("label","topicDistribution").show(false)

    println("The topics described by their top-weighted terms:")

    topics.show(false)

    println(s"The lower bound on the log likelihood of the entire corpus: $ll")

    println(s"The upper bound on perplexity: $lp")

  }

}

输出结果

掌握Spark机器学习库-09.6-LDA算法的更多相关文章

掌握Spark机器学习库-09.3-kmeans算法实现分类
数据集 iris.data 数据集概览代码 package org.apache.spark.examples.hust.hml.examplesforml import org.apache.s ...
掌握Spark机器学习库-07-线性回归算法概述
1)简介自变量,因变量,线性关系,相关系数,一元线性关系,多元线性关系(平面,超平面) 2)使用线性回归算法的前提 3)应用例子沸点与气压浮力与表面积
掌握Spark机器学习库（课程目录）
第1章初识机器学习在本章中将带领大家概要了解什么是机器学习.机器学习在当前有哪些典型应用.机器学习的核心思想.常用的框架有哪些,该如何进行选型等相关问题. 1-1 导学 1-2 机器学习概述 1- ...
UCI机器学习库和一些相关算法（转载）
UCI机器学习库和一些相关算法各种机器学习任务的顶级结果(论文)汇总 https://github.com//RedditSota/state-of-the-art-result-for-machi ...
掌握Spark机器学习库-07.14-保序回归算法实现房价预测
数据集 house.csv 数据集概览代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.cl ...
掌握Spark机器学习库-08.2-朴素贝叶斯算法
数据集 iris.data 数据集概览代码 import org.apache.spark.SparkConf import org.apache.spark.ml.classification.{ ...
掌握Spark机器学习库-07-回归算法原理
1)机器学习模型理解统计学习,神经网络 2)预测结果的衡量代价函数(cost function).损失函数(loss function) 3)线性回归是监督学习
掌握Spark机器学习库-07.6-线性回归实现房价预测
数据集 house.csv 数据概览代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.fea ...
Spark机器学习(11)：协同过滤算法
协同过滤(Collaborative Filtering,CF)算法是一种常用的推荐算法,它的思想就是找出相似的用户或产品,向用户推荐相似的物品,或者把物品推荐给相似的用户.怎样评价用户对商品的偏好? ...

随机推荐

aix用户登录次数受限问题（3004-300 输入了无效的登录名或password）
当登录AIX系统.username或password不对以至于多次登录,超过系统设定的次数,怎样解锁: 1.用root用户登录系统 2.chuser unsuccessful_login_count= ...
JS文件中引用另一个JS文件
1.生产项目上遇到一个Bug,需要修改JS文件,添加Jquery代码,但是原来的页面没有添加对Jquery文件的引用,无法修改原来的页面(自动生成的HTML) 这就需要在JS文件中添加对Jquery文 ...
PyTorch 60 分钟入门教程：数据并行处理
可选择:数据并行处理(文末有完整代码下载) 作者:Sung Kim 和 Jenny Kang 在这个教程中,我们将学习如何用 DataParallel 来使用多 GPU. 通过 PyTorch 使用多 ...
div+css布局教程系列1
<!doctype html><html><head><meta charset="utf-8"><title>简单布局 ...
Expression Blend实例中文教程(8) - 动画设计快速入门StoryBoard http://silverlightchina.net/html/tips/2010/0329/934.html
Expression Blend实例中文教程(8) - 动画设计快速入门StoryBoard 时间:2010-03-29 11:13来源:SilverlightChina.Net 作者:jv9 点击: ...
linux环境下oracle静默安装
一.安装环境 1.linux版本:redhat6.3_x86_64 2.oracle版本:Oracle Database 11g Enterprise Edition Release 11.2.0.3 ...
并不对劲的cdq分治解三维偏序
为了反驳隔壁很对劲的太刀流,并不对劲的片手流决定与之针锋相对,先一步发表cdq分治解三维偏序. 很对劲的太刀流在这里-> 参照一.二维偏序的方法,会发现一位偏序就是直接排序,可以看成通过排序使 ...
python的md5和base64加密
在用jmeter测试接口时,有的请求参数会加密,例如,回流接口:http://ip:port/oms-gateway-datareflow-mq/orderReflow/tmsPracticeActi ...
fzu 2150(bfs)
Problem 2150 Fire Game Accept: 693 Submit: 2657 Time Limit: 1000 mSec Memory Limit : 32768 KB ...
Ordeby then by
先按orderby排序,再按thenby排序 return PartialView("_ClickRangeOnCategory", articles.OrderByDescend ...

掌握Spark机器学习库-09.6-LDA算法

掌握Spark机器学习库-09.6-LDA算法的更多相关文章

随机推荐

热门专题