# 生成用于聚类的各向同性高斯blob
sklearn.datasets.make_blobs（n_samples = 100，n_features = 2，center = 3，cluster_std = 1.0，center_box =（ - 10.0,10.0），shuffle = True，random_state = None）

参数

n_samples: int, optional (default=100)
待生成的样本的总数。
n_features: int, optional (default=2)
每个样本的特征数。
centers: int or array of shape [n_centers, n_features], optional (default=3)
要生成的样本中心（类别）数，或者是确定的中心点。
cluster_std: float or sequence of floats, optional (default=1.0)
每个类别的方差，例如我们希望生成2类数据，其中一类比另一类具有更大的方差，可以将cluster_std设置为[1.0,3.0]。
center_box: pair of floats (min, max), optional (default=(-10.0, 10.0))
中心随机生成时每个聚类中心的边界框。
shuffle：布尔值，可选（默认= True）
对样本进行随机播放。
random_state：int，RandomState实例或None，可选（default = None）
如果为int，random_state是随机数生成器使用的种子; 如果RandomState实例，random_state是随机数生成器; 如果为None，则随机数生成器是np.random使用的RandomState实例。

X : array of shape [n_samples, n_features]
生成的样本数据集。
y : array of shape [n_samples]
样本数据集的标签。

例子

例如要生成5类数据（100个样本，每个样本有2个特征），代码如下

from sklearn.datasets import make_blobs

from matplotlib import pyplot

data, label = make_blobs(n_samples=100, n_features=2, centers=5)

# 绘制样本显示

pyplot.scatter(data[:, 0], data[:, 1], c=label)

pyplot.show()

如果希望为每个类别设置不同的方差，需要在上述代码中加入cluster_std参数：

from sklearn.datasets import make_blobs

from matplotlib import pyplot

data, label = make_blobs(n_samples=10, n_features=2, centers=3, cluster_std=[0.8, 2.5, 4.5])

# 绘制样本显示

pyplot.scatter(data[:, 0], data[:, 1], c=label)

pyplot.show()

sklearn 中 make_blobs模块的更多相关文章

sklearn 中 make_blobs模块使用
sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_box=(-10 ...
【集成学习】sklearn中xgboost模块的XGBClassifier函数
# 常规参数 booster gbtree 树模型做为基分类器(默认) gbliner 线性模型做为基分类器 silent silent=0时,不输出中间过程(默认) silent=1时,输出中间过程 ...
【集成学习】sklearn中xgboost模块中plot_importance函数（绘图--特征重要性）
直接上代码,简单 # -*- coding: utf-8 -*- """ ################################################ ...
sklearn中xgboost模块中plot_importance函数（特征重要性）
# -*- coding: utf-8 -*- """ ######################################################### ...
【集成学习】sklearn中xgboot模块中fit函数参数详解（fit model for train data）
参数解释,后续补上. # -*- coding: utf-8 -*- """ ############################################## ...
sklearn中的metrics模块中的Classification metrics
metrics是sklearn用来做模型评估的重要模块,提供了各种评估度量,现在自己整理如下: 一.通用的用法:Common cases: predefined values 1.1 sklearn官 ...
python中导入sklearn中模块提示ImportError: DLL load failed: 找不到指定的程序。
python版本:3.7 平台:windows 10 集成环境:Anaconda3.7 64位在jupyter notebook中导入sklearn的相关模块提示ImportError: DLL l ...
sklearn中的KMeans算法
1.聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组(或簇).这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布. 2.KMeans算法将一 ...
sklearn中的模型评估-构建评估函数
1.介绍有三种不同的方法来评估一个模型的预测质量: estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题. Scor ...

随机推荐

[JS学习笔记]Event对象
写在前面学习和总结JS时会伴随性的生成一些dome,其中包含一些动态输出的结果和标注. 之前通过鸡贼的办法实现了在博客中执行JS,但很多时候需要一张干净的页面编写dome,所以尝试通过一些在线的JS ...
AAC解码算法原理详解
”
Android开发技巧——写一个StepView
在我们的应用开发中,有些业务流程会涉及到多个步骤,或者是多个状态的转化,因此,会需要有相关的设计来展示该业务流程.比如<停车王>应用里的添加车牌的步骤. 通常,我们会把这类控件称为&quo ...
目标跟踪之ECO：Efficient Convolution Operators for Tracking
一. 相关滤波算法总结作者首先分析了影响相关滤波算法效率和导致过拟合的几个原因: 1)Model Size (模型大小) 包括两个方面: - 模型层数,对应多分辨率 Sample,比如多层 ...
如何突破JAVA程序员三年的门槛
第一阶段:三年我认为三年对于程序员来说是第一个门槛,这个阶段将会淘汰掉一批不适合写代码的人.这一阶段,我们走出校园,迈入社会,成为一名程序员,正式从书本上的内容迈向真正的企业级开发.我们知道如何团 ...
你必须知道的495个C语言问题，学习体会二
这是本主题的第二篇文章,主要就结构体,枚举.联合体做一些解释 1.结构体现代C语言编程结构化的基石,diy时代的最好代言人,是面向对象编程中类的老祖宗. 我们很容易定义一个结构体,比如学生: st ...
flash游戏服务器安全策略
在网页游戏开发中,绝大多数即时通信游戏采用flash+socket 模式来作为消息数据传递.在开发过程中大多数开发者在开发过程中本地没有问题,但是一旦部署到了网络,就存在连接上socket服务器.究 ...
【SQL】分组数据，过滤分组-group by , having
学习笔记,原文来自http://blog.csdn.net/robinjwong/article/details/24845125 创建分组 - GROUP BY 分组是在SELECT语句的GROUP ...
UVA10674 Tangents
题意 PDF 分析就是圆的切线的模板. 注意精度问题,排序的时候也不能直接写,被卡了好几次. 时间复杂度\(O(T)\) 代码 #include<iostream> #include&l ...
springboot 自定义属性
前言 spring boot使用application.properties默认了很多配置.但需要自己添加一些配置的时候,我们如何添加呢 1.添加自定义属性在src/main/resources/a ...

sklearn 中 make_blobs模块

参数

返回

例子

sklearn 中 make_blobs模块的更多相关文章

随机推荐

热门专题