# -*- coding: cp936 -*- import random import networkx as nx from networkx.generators.classic import empty_graph def powerlaw_cluster_graph(n, m, p, seed=None): """Holme and Kim algorithm for growing graphs with powerlaw degree distribution…
在看WGCNA的时候看到的一个术语. 先来看一个随机网络:没有中心节点,大部分节点都均匀的连在一起. 再看一下scale free network:大部分的连接都集中在少数的中心 如何检验一个网络是否是scale free network? A. Log-log plot of whole-network connectivity distribution. The x-axis shows the logarithm of whole network connectivity, y-axis…
转自http://blog.csdn.net/pennyliang/article/details/6838956 Clustering coefficient的定义有两种:全局的和局部的. 全局的算法基于triplet.triplet分为开放的triplet(open triplet)和封闭的triplet(closed triplet)两种(A triplet is three nodes that are connected by either two (open triplet) or…
1. OSI七层模型 OSI层  介绍 功能 TCP/IP协议 应用层 操作系统或网络应用程序提供访问网络服务的接口. 文件传输.浏览器.电子邮件 HTTP, FTP, TFTP, SNMP, DNS, Telnet 表示层 解决用户信息的语法表示问题. 数据格式化,压缩与解压缩,加密,代码转换 / 会话层 访问验证和会话管理在内的建立和维护应之间通信的机制. 数据单位 报文 解除/建立与其他接点的联系 / 传输层 负责换取全部信息,提供可靠的数据传输服务. 数据单位 数据包 端对端接口 TCP…
第一次接触复杂性科学是在一本叫think complexity的书上,Allen博士很好的讲述了数据结构与复杂性科学,barabasi是一个知名的复杂性网络科学家,barabasilab则是他所主导的一个实验室,这里的笔记则是关于里面介绍的课程的笔记,当然别人的课程不是公开课,所以从ppt里只能看到骨干的东西了,对了补充下,slider相关的书籍在这里可以找到 回顾我们的研究一个网络模型的三个特征: Degree distribution: P(k) Path length: <d> Clus…
高维数据的聚类分析 高维聚类研究方向 高维数据聚类的难点在于: 1.适用于普通集合的聚类算法,在高维数据集合中效率极低 2.由于高维空间的稀疏性以及最近邻特性,高维的空间中基本不存在数据簇. 在高维聚类的研究中有如下几个研究重点: 1)维度约简,主要分为特征变换和特征选择两大类.前者是对特征空间的变换映射,常见的有PCA.SVD等.后者则是选择特征的子集,常见的搜索方式有自顶向下.随机搜索等:(降维) 2)高维聚类算法,主要分为高维全空间聚类和子空间聚类算法.前者的研究主要聚焦在对传统聚类算法的…
聚类的定义: 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,它是无监督学习. 聚类的基本思想: 给定一个有N个对象的数据集,构造数据的k个簇,k≤n.满足下列条件: 1. 每一个簇至少包含一个对象 2. 每一个对象属于且仅属于一个簇 3. 将满足上述条件的k个簇称作一个合理划分基本思想:对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都较前一次好. k-Means算法…
聚类算法 概述 无监督问题 手中无标签 聚类 将相似的东西分到一组 难点 如何 评估, 如何 调参 基本概念 要得到的簇的个数  - 需要指定 K 值 质心 - 均值, 即向量各维度取平均 距离的度量 - 常用 欧几里得距离 和 余弦线相似度 ( 先标准化 ) 优化目标 -  需求每个簇中的点, 到质心的距离尽可能的加和最小, 从而得到最优 K - MEANS 算法 工作流程 - (a)   初始图 - (b) 在指定了 K 值之后, 会在图中初始化两个点 红点, 蓝点( 随机质心 )    这…
## 版权所有,转帖注明出处 章节 SciKit-Learn 加载数据集 SciKit-Learn 数据集基本信息 SciKit-Learn 使用matplotlib可视化数据 SciKit-Learn 可视化数据:主成分分析(PCA) SciKit-Learn 预处理数据 SciKit-Learn K均值聚类 SciKit-Learn 支持向量机 SciKit-Learn 速查 到目前为止,我们已经非常深入地了解了数据集,并且把它分成了训练子集与测试子集. 接下来,我们将使用聚类方法训练一个模…
聚类的定义 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小.聚类算法是无监督的算法. 常见的相似度计算方法 闵可夫斯基距离Minkowski/欧式距离 在上述的计算中,当p=1时,则是计算绝对值距离,通常叫做曼哈顿距离,当p=2时,表述的是欧式距离. 杰卡德相似系数(Jaccard) 杰卡德相关系数主要用于描述集合之间的相似度,在目标检测中,iou的计算就和此公式相类似 余弦相似度 余弦相似度通过夹角的余弦来描述相似性…