第1章 初识机器学习

在本章中将带领大家概要了解什么是机器学习、机器学习在当前有哪些典型应用、机器学习的核心思想、常用的框架有哪些,该如何进行选型等相关问题。

  • 1-1 导学
  • 1-2 机器学习概述
  • 1-3 机器学习核心思想
  • 1-4 机器学习的框架与选型..

第2章 初识MLlib

本章中,将介绍Spark的机器学习库,对比Spark当前两种机器学习库(MLLib/ML)的区别,同时介绍Spark机器学习库的应用场景以及行业应用优势。

  • 2-1 MLlib概述
  • 2-2 MLlib的数据结构
  • 2-3 MLlib与ml
  • 2-4 MLlib的应用场景

第3章 实战环境搭建

本章中,将介绍如何进行实战环境搭建。包括如何完成Spark环境安装配置、如何通过Spark Shell进行编程,并通过 Wordcount 入门程序,完成部署和测试。

  • 3-1 Spark环境安装
  • 3-2 Spark配置若干要点
  • 3-3 学习Spark shell
  • 3-4 实战Wordcount

第4章 数据可视化

本章中,将对数据可视化进行介绍,告诉大家什么是数据可视化,我们通过数据可视化能对大数据系统起到怎样的作用,并结合 Echars 介绍了如何实现常见的数据可视化图表(折线图、柱状图、散点图)。

  • 4-1 数据可视化的作用及常用方法
  • 4-2 初识Echarts
  • 4-3 通过Echarts实现图表化数据展示

第5章 Spark的矩阵与向量

本章中,将讲解矩阵与向量的一些基本运算,并介绍Spark的矩阵与向量的操作,帮助数据基础薄弱的同学补齐短板。

  • 5-1 矩阵与向量介绍
  • 5-2 Spark中实践向量的使用
  • 5-3 Spark中实践矩阵的使用

第6章 Spark基础统计模块

本章中,将概要介绍Spark的基础统计模块、简单的统计学知识、相关系数以及假设检验的知识,拓展大家的技术视野。

  • 6-1 基础统计模块及常用统计学知识介绍
  • 6-2 实战统计汇总
  • 6-3 学习相关系数
  • 6-4 学习假设检验

第7章 Spark实现回归算法

本章中,将讲解几种常见的回归算法,并以预测房价模型为例,教大家如何使用回归算法来实现简单的预测。

  • 7-1 回归分析概述
  • 7-2 线性回归算法概述
  • 7-3 线性回归算法原理
  • 7-4 最小二乘法
  • 7-5 随机梯度下降
  • 7-6 实战Spark预测房价---项目展示及代码概览
  • 7-7 实战Spark预测房价---数据加载及转换
  • 7-8 实战Spark预测房价--训练与预测
  • 7-9 逻辑回归算法及原理概述
  • 7-10 正则化原理
  • 7-11 实战Spark逻辑回归
  • 7-12 保序回归算法概述
  • 7-13 保序回归算法原理
  • 7-14 实战一个保序回归数据分析

第8章 Spark实现分类算法

本章中,将几种常见的分类算法,并结合鸢尾花数据集为例,讲解分类算法在Spark上的实践。同时,比较各种分类算法的区别,使大家能够合理选择应该使用的算法。

  • 8-1 朴素贝叶斯算法及原理概述
  • 8-2 实战朴素贝叶斯的分类
  • 8-3 支持向量机概述
  • 8-4 实战基于SVM的分类
  • 8-5 决策树算法及原理概述
  • 8-6 实战基于决策树的分类--案例1
  • 8-7 实战基于决策树的分类--案例2
  • 8-8 本章小结
  • 8-9 关于数据归一化的介绍

第9章 Spark实现聚类算法

本章中,将介绍聚类算法,并通过比较聚类算法与分类算法的区别,帮助大家了解聚类算法的内在含义。此处,仍然使用鸢尾花数据集应用聚类算法进行分析,便于大家对比发现聚类算法与分类算法的区别与联系,以便于后期灵活运用。...

  • 9-1 Kmeans算法概述
  • 9-2 Kmeans算法原理
  • 9-3 Kmeans算法实战
  • 9-4 LDA算法概述
  • 9-5 LDA算法原理
  • 9-6 LDA算法实践
  • 9-7 本章小结

第10章 Spark实现降维

本章中,将通过讲解PCA算法的原理,使大家明白降维算法的大致原理,以及能够实现怎么样的功能。结合应用降维算法在分类算法使用之前进行预处理的实践,帮助大家体会算法的作用。

  • 10-1 PCA算法及原理概述
  • 10-2 实战PCA算法实现降维
  • 10-3 本章小结

第11章 Spark实践文本情感分类

本章中,将结合前述知识进行综合实战,以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联,使大家能够对Spark的具体应用有一个整体的感知与了解。

  • 11-1 项目总体概况
  • 11-2 数据集概述
  • 11-3 数据预处理
  • 11-4 文本特征提取
  • 11-5 训练分类模型
  • 11-6 本章小结

第12章 Spark实践推荐系统

本章中,将结合前述知识进行综合实战,以达到所学即所用。在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统。

掌握Spark机器学习库(课程目录)的更多相关文章

  1. Spark机器学习库(MLlib)官方指南手册中文版

    中文https://blog.csdn.net/liulingyuan6/article/details/53582300 https://yq.aliyun.com/articles/608083 ...

  2. 掌握Spark机器学习库-07.6-线性回归实现房价预测

    数据集 house.csv 数据概览 代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.fea ...

  3. 掌握Spark机器学习库-09.6-LDA算法

    数据集 iris.data 数据集概览 代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.cl ...

  4. 掌握Spark机器学习库-09.3-kmeans算法实现分类

     数据集 iris.data 数据集概览 代码 package org.apache.spark.examples.hust.hml.examplesforml import org.apache.s ...

  5. 掌握Spark机器学习库-08.7-决策树算法实现分类

    数据集 iris.data 数据集概览 代码 package org.apache.spark.examples.examplesforml import org.apache.spark.Spark ...

  6. 掌握Spark机器学习库-08.2-朴素贝叶斯算法

    数据集 iris.data 数据集概览 代码 import org.apache.spark.SparkConf import org.apache.spark.ml.classification.{ ...

  7. 掌握Spark机器学习库-07.14-保序回归算法实现房价预测

    数据集 house.csv 数据集概览 代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.cl ...

  8. 掌握Spark机器学习库-07-回归算法原理

    1)机器学习模型理解 统计学习,神经网络 2)预测结果的衡量 代价函数(cost function).损失函数(loss function) 3)线性回归是监督学习

  9. 掌握Spark机器学习库-07-回归分析概述

    1)回归与分类算法的区别 回归的预测结果是连续的,分类的预测结果是离散的. 2)spark实现的回归算法有: 3)通过相关系数衡量线性关系的程度

随机推荐

  1. BZOJ 3550 ONTAK2010 Vacation 单纯形

    题目大意:给定一个长度为3n的区间.要求选一些数,且随意一段长度为n的区间内最多选k个数.求选择数的和的最大值 单纯形直接搞 注意一个数仅仅能被选一次 因此要加上xi<=1这个约束条件 不明确3 ...

  2. ClassLoader如何加载class

    jvm里有多个类加载,每个类加载可以负责加载特定位置的类, 例如: bootstrap类加载负责加载jre/lib/rt.jar中的类, 我们平时用的jdk中的类都位于rt.jar中. extclas ...

  3. Spring简单实现数据源的动态切换

    Spring简单实现数据源的动态切换: 1. 创建一个数据源切换类: 2. 继承AbstractRoutingDataSource,创建多数据源路由类,并注入到spring的配置文件中: 3. AOP ...

  4. android使用两种方式注冊receiver

    1. package com.example.myreceiver; import android.os.Bundle; import android.app.Activity; import and ...

  5. cassandra删除所有数据,重置为初始状态——删除<data dir>/data/* <data dir>/commitlog/* <data dir>/saved_caches/* 重启cassandra即可

    Are you looking for a method other than drop keyspace? Okay based on your clarification... I would s ...

  6. 【转】Java并发编程:Synchronized底层优化(偏向锁、轻量级锁)

     一.重量级锁 上篇文章中向大家介绍了Synchronized的用法及其实现的原理.现在我们应该知道,Synchronized是通过对象内部的一个叫做监视器锁(monitor)来实现的.但是监视器锁本 ...

  7. Python之xlsx文件与csv文件相互转换

    1 xlsx文件转csv文件 import xlrd import csv def xlsx_to_csv(): workbook = xlrd.open_workbook('1.xlsx') tab ...

  8. 初识Spring Boot框架和快速入门

    前面的铺垫文章已经连着写了六篇了,主要是介绍了spring和SpringMVC框架,小伙伴们在学习的过程中大概也发现了这两个框架需要我们手动配置的地方非常多,不过做JavaEE开发的小伙伴们肯定也听说 ...

  9. C++中class在实例化前到底占用多少空间

    最近忽然想起一个问题,C++中class在实例化前到底占用多少空间?我隐约记得书上是这么说的“类在实例化时才分配空间”!但是当我写下这个小程序的时候,杯具产生了—— #include<iostr ...

  10. idea 设置项目编码

    目前我了解的设置idea编码有两种形式(但深层次不太了解) 方式一: 这个方式需要你点击要设置编码单个文件,选择编码.一次只能修改一个文件编码 方式二: 一般工作时使用这个方式,文件编码,选择项目文件 ...