tsne

数据不做预处理:

# coding: utf-8
import collections
import numpy as np
import os
import pickle
from sklearn.neighbors import NearestNeighbors
import numpy as np
from sklearn.manifold import TSNE
    # .......
X = X+black_verify+white_verify+unknown_verify+bd_verify
print black_verify_labels+white_verify_labels+unknown_verify_labels+bd_verify_labels
y = y+black_verify_labels+white_verify_labels+unknown_verify_labels+bd_verify_labels
print("ALL data check:")
print("len of X:", len(X))
print("len of y:", len(y))
# print(unknown_verify) X_embedded = TSNE(n_components=2).fit_transform(X) with open("tsne_data_X.pkl", "wb") as f:
pickle.dump([X_embedded, y], f)
import pickle
from collections import Counter
import numpy as np
import matplotlib.pyplot as Plot def main():
with open("tsne_data_X.pkl", "rb") as f:
[X_embedded, y] = pickle.load(f, encoding='iso-8859-1') print(len(X_embedded))
print(len(y))
print(X_embedded[:3])
print(y[:3])
i = 0
for l in y:
if type(l) == type([]):
raise Exception(str([i,y]))
i+=1
print(Counter(y))
Y, labels = np.array(X_embedded), np.array(y)
titles = ("white","black","black_verify_labels","white_verify_labels","unknown_verify_labels","bd_verify_labels")
colors=['b', 'c', 'y', 'm', 'r', 'g', 'peru']
for i in range(0, 6):
idx_1 = [i1 for i1 in range(len(labels)) if labels[i1]==i]
flg1=Plot.scatter(Y[idx_1,0], Y[idx_1,1], 20,color=colors[i],label=titles[i]);
Plot.legend()
Plot.savefig('tsne.pdf')
Plot.show()
main()

数据做standard标准化处理

使用pca,不进行预处理:

使用standard scaler预处理,再做pca:

    from sklearn import preprocessing
scaler = preprocessing.StandardScaler().fit(X)
#scaler = preprocessing.MinMaxScaler().fit(X)
X = scaler.transform(X)
print("standard X sample:", X[:3]) black_verify = scaler.transform(black_verify)
print(black_verify) white_verify = scaler.transform(white_verify)
print(white_verify) unknown_verify = scaler.transform(unknown_verify)
print(unknown_verify) bd_verify = scaler.transform(bd_verify)
print(bd_verify) #print black_verify_labels+white_verify_labels+unknown_verify_labels+bd_verify_labels X = np.concatenate((X,black_verify,white_verify,unknown_verify,bd_verify))
#X = X+black_verify+white_verify+unknown_verify+bd_verify
y = y+black_verify_labels+white_verify_labels+unknown_verify_labels+bd_verify_labels
print("ALL data check:")
print("len of X:", len(X))
print("len of y:", len(y))
# print(unknown_verify) X_embedded = PCA(n_components=2).fit_transform(X) with open("pca_data_X_scaled.pkl", "wb") as f:
pickle.dump([X_embedded, y], f)

最后效果:

最后使用自编码器来来降维:

代码:

    X = np.concatenate((X,black_verify,white_verify,unknown_verify,bd_verify))
y = y+black_verify_labels+white_verify_labels+unknown_verify_labels+bd_verify_labels
print("ALL data check:")
print("len of X:", len(X))
print("len of y:", len(y))
# print(unknown_verify) ratio_of_train = 0.8
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=(1 - ratio_of_train))
# Building the encoder
encoder = tflearn.input_data(shape=[None, 75])
encoder = tflearn.fully_connected(encoder, 64)
encoder = tflearn.fully_connected(encoder, 2) # Building the decoder
decoder = tflearn.fully_connected(encoder, 64)
decoder = tflearn.fully_connected(decoder, 75, activation='sigmoid') # Regression, with mean square error
net = tflearn.regression(decoder, optimizer='adam', learning_rate=0.0001,
loss='mean_square', metric=None) # Training the auto encoder
model = tflearn.DNN(net, tensorboard_verbose=0)
model.fit(X_train, X_train, n_epoch=200, validation_set=(X_test, X_test),
run_id="auto_encoder", batch_size=1024) # Encoding X[0] for test
print("\nTest encoding of X[0]:")
# New model, re-using the same session, for weights sharing
encoding_model = tflearn.DNN(encoder, session=model.session)
print(encoding_model.predict([X[0]])) X_embedded = encoding_model.predict(X) #TSNE(n_components=2).fit_transform(X) with open("tflearn_auto_enc_data_X_scaled.pkl", "wb") as f:
pickle.dump([X_embedded, y], f)

如果是迭代次数不一样,则可能有一些差别,见下图,和上面的可能有些差别:

修改64为128:

tsne pca 自编码器 绘图(CC2)——一定记得做无量纲化处理使用standardscaler,数据聚类更明显的更多相关文章

  1. CAD在网页中绘图,并为新绘的对象写扩展数据和读取扩展数据

    在网页中绘图,并为新绘的对象写扩展数据和读取扩展数据.下面帮助的完整例子,在控件安装目录的 Sample\Ie\iedemo.htm 中. 主要用到函数说明: _DMxDrawX::InsertBlo ...

  2. [Scikit-learn] 4.3 Preprocessing data

    数据分析的重难点,就这么来了,欢迎欢迎,热烈欢迎. 4. Dataset transformations 4.3. Preprocessing data 4.3.1. Standardization, ...

  3. Machine Learning系列--归一化方法总结

    一.数据的标准化(normalization)和归一化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间.在某些比较和评价的指标处理中经常会用到,去除数据的单位限 ...

  4. 多元统计之因子分析模型及Python分析示例

    1. 简介 因子分析是一种研究观测变量变动的共同原因和特殊原因, 从而达到简化变量结构目的的多元统计方法. 因子分析模型是主成分分析的推广, 也是利用降维的思想, 将复杂的原始变量归结为少数几个综合因 ...

  5. 深度学习之自编码器AutoEncoder

    原文地址:https://blog.csdn.net/marsjhao/article/details/73480859 一.什么是自编码器(Autoencoder) 自动编码器是一种数据的压缩算法, ...

  6. 群体结构图形三剑客——PCA图

    重测序便宜了,群体的测序和分析也多了起来.群体结构分析,是重测序最常见的分析内容.群体结构分析应用十分广泛,首先其本身是群体进化关系分析里面最基础的分析内容,其次在进行GWAS分析的时候,本身也需要使 ...

  7. PRML读书会第十二章 Continuous Latent Variables(PCA,Principal Component Analysis,PPCA,核PCA,Autoencoder,非线性流形)

    主讲人 戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:00:49 我今天讲PRML的第十二章,连续隐变量.既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是 ...

  8. iOS开发--绘图教程

    本文是<Programming iOS5>中Drawing一章的翻译,考虑到主题完整性,翻译版本中加入了一些书中未涉及到的内容.希望本文能够对你有所帮助. 本文由海水的味道翻译整理,转载请 ...

  9. iOS绘图教程 (转,拷贝以记录)

    本文是<Programming iOS5>中Drawing一章的翻译,考虑到主题完整性,在翻译过程中我加入了一些书中没有涉及到的内容.希望本文能够对你有所帮助. 转自:http://www ...

随机推荐

  1. Servlet 运行原理

    一:servlet定义 Servlet是一个Java应用程序,运行在服务器端,用来处理客户端请求并作出响应的程序. 二:简单servlet实例 //导入所需的包 import javax.servle ...

  2. 2. 安装 Kerberos

    2.1. 环境配置 安装kerberos前,要确保主机名可以被解析. 主机名 内网IP 角色 Vmw201 172.16.18.201 Master KDC Vmw202 172.16.18.202 ...

  3. linux crontab+curl+php 实现php定时任务

    首先登入Linux ->用root登入 在命令行输入 crontab -e  之后就会打开一个文件,并且是非编辑状态,则是vi的编辑界面,通过敲键盘上的i,进入编辑模式,就可以编辑内容.这个文件 ...

  4. 剑指offer 面试31题

    面试31题: 题目:栈的压入.弹出元素 题:输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否为该栈的弹出顺序.假设压入栈的所有数字均不相等.例如序列1,2,3,4,5是某栈的压入顺序 ...

  5. Manacher专题

    1.POJ 3974 Palindrome 题意:求一个长字符串的最长回文子串. 思路:Manacher模板. #include<iostream> #include<algorit ...

  6. CentOS 6.4下OpenSSH升级到6.7操作

    一.升级前准备 1.下载openssh-6.7p1.tar.gz: cd /usr/local/src/wget http://ftp.openbsd.org/pub/OpenBSD/OpenSSH/ ...

  7. Loadrunder之脚本篇——关联函数对话框详解

    Insert->New Step,打开Add Step对话框 选择函数web_reg_save_param,点击OK,打开关联函数设置窗口 说明: Parameter Name 此处设置存放参数 ...

  8. c# 虚方法(virtual)与 多态(Polymorphism)

    using System; using System.Collections.Generic; using System.Linq; using System.Text; //虚方法(virtual) ...

  9. Apache Kudu

    Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力.Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和 ...

  10. PHP的异常处理、错误的抛出及错误回调函数

    一.错误.异常和等级常量表 error:不能再编译期发现运行期的错误,不如试图echo输出一个未赋值的变量,这类问题往往导致程序或逻辑无法继续下去而需要中断. exception:程序执行过程中出现意 ...