k-means 聚类前的数据分析

原始数据

Say you are given a data set where each observed example has a set of features, but has nolabels. Labels are an essential ingredient to a supervised algorithm like Support Vector Machines, which learns a hypothesis function to predict labels given features. So we can't run supervised learning. What can we do?

One of the most straightforward tasks we can perform on a data set without labels is to find groups of data in our dataset which are similar to one another -- what we call clusters.

#!/usr/bin/python

import matplotlib.pyplot as plt

def readfile(filename):
    datamat = []
    with open(filename, 'r') as f:
        for line in f.readlines():
            linestrlist = line.strip().split('\t')
            linelist = list(map(float, linestrlist))
            datamat.append(linelist)

    return datamat

if __name__ == "__main__":
    datamat = []
    datamat = readfile("C:\\kmeans.txt")
    vectors_set = []
    for val in enumerate(datamat):
        vectors_set.append(val[1])
    x_data = [v[0] for v in vectors_set]
    y_data = [v[1] for v in vectors_set]
    plt.plot(x_data, y_data, 'r*', label='Original data')
    plt.legend()
    plt.show()
K-means聚类时候，需要给定K的值，这个时候可以先画出图，大致判断一下。

k-means 聚类前的数据分析的更多相关文章

5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...
R与数据分析旧笔记（十五）基于有代表性的点的技术：K中心聚类法
基于有代表性的点的技术:K中心聚类法基于有代表性的点的技术:K中心聚类法算法步骤随机选择k个点作为"中心点" 计算剩余的点到这个k中心点的距离,每个点被分配到最近的中心点组成 ...
【转】算法杂货铺——k均值聚类(K-means)
k均值聚类(K-means) 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...
OpenCV-Python：K值聚类
关于K聚类,我曾经在一篇博客中提到过,这里简单的做个回顾. KMeans的步骤以及其他的聚类算法 K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算其他聚类算法:二分K-均 ...
（ZT）算法杂货铺——k均值聚类(K-means)
https://www.cnblogs.com/leoo2sk/category/273456.html 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先 ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
机器学习之K均值聚类
聚类的核心概念是相似度或距离,有很多相似度或距离的方法,比如欧式距离.马氏距离.相关系数.余弦定理.层次聚类和K均值聚类等 1. K均值聚类思想 K均值聚类的基本思想是,通过迭代的方法寻找K个 ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...

随机推荐

移动web——bootstrap模板
基本概念 1.bootstrap就是在媒体查询技术出现以后才开始出现的 2.此技术使响应式开发变得十分轻松,最大特点就是栅格系统(什么设备上如何显示)以及响应式工具(是否可见) 基本模板 <!D ...
Oracle Sequence不设置cache参数的几个潜在问题(转载)
转载于 http://www.uml.org.cn/sjjm/201204065.asp 在Oracle中,我们没有MYSQL和SQL Server ...
Java_Web三大框架之Hibernate配置文件（二）
下面介绍一下编写Hibernate的配置文件,使用Hibernate操作数据库. 开始部署:下载需要的jar包下载Hibernate Hibernat ...
Centos 修改源
1首先备份原来的配置文件: mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 2下载对应版本r ...
js输出非字符串,非null值
console.log(!"");//非空(true) console.log(!);//非0(true) console.log(!" ");//非空格(fa ...
@FunctionalInterface
>> 函数式接口也称为SAM接口 Single Abstract Method interfaces 接口有且仅有一个抽象方法允许定义静态方法允许定义默认方法允许java.lang. ...
hbase + phoenix 单机版安装
1. 环境: centos 6.5 jdk 1.8.0 http://www.oracle.com/te ...
Qt Creator 中文乱码问题
一. Qt 4 乱码问题解决方案 1. 在Qt 中快捷菜单选项功能中 Edit(编辑) --> Select Encoding...(选择编码) 选择载入(显示)编码和储存编码,要解决中文 ...
OI数学知识清单
OI常用的数学知识总结本文持续更新…… 总结一下OI中的玄学知识先列个单子,(from秦神数论模意义下的基本运算和欧拉定理筛素数和判定素数欧几里得算法及其扩展[finish] 数论函数和莫比 ...
利用定时器 1和定时器0控制led1和led2分别 2hz和0.5hz闪烁
//利用定时器 1和定时器0控制led1和led2分别 2hz和0.5hz闪烁 #include<reg52.h> #define uchar unsigned char #define ...

k-means 聚类前的数据分析

k-means 聚类前的数据分析的更多相关文章

随机推荐

热门专题