Spark中组件Mllib的学习之基础概念篇 1.解释 分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层2,字符串长度为3划分为层1,对层1和层2按不同的概率进行抽样 数据 aa bb cc dd ee aaa bbb ccc ddd eee 比如: val fractions: Map[Int, Double] = List((1, 0.2), (2, 0.8)).toMap //设…