Entropy, relative entropy and mutual information

【Entropy, relative entropy and mutual information】的更多相关文章

Entropy, relative entropy and mutual information

目录 Entropy Joint Entropy Conditional Entropy Chain rule Mutual Information Relative Entropy Chain Rules Chain Rule for Entropy Chain Rule for Mutual Information Conditional Mutual Information Chain Rule for Relative Entropy Jensen's Inequality Proper…

论文解读（ N2N）《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》

论文信息论文标题:Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization论文作者:Wei Dong, Junsheng Wu, Yi Luo, Zongyuan Ge, Peng Wang论文来源:CVPR 2022论文地址:download论文代码:download 1 摘要在本工作中,我们提出了一种简单而有效的自监督节点表示学习策略,通过直接最大化节点的…

互信息（Mutual Information）

本文根据以下参考资料进行整理: 1.维基百科:https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF 2.新浪博客:http://blog.sina.com.cn/s/blog_6255d20d0100ex51.html 在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度.不同于相关系数,互信息并不局限于实值随机变量,它…

Mutual information and Normalized Mutual information 互信息和标准化互信息

实验室最近用到nmi( Normalized Mutual information )评价聚类效果,在网上找了一下这个算法的实现,发现满意的不多. 浙江大学蔡登教授有一个,http://www.zjucadcg.cn/dengcai/Data/code/MutualInfo.m ,他在数据挖掘届地位很高,他实现这个算法的那篇论文引用率高达三位数.但这个实现,恕个人能力有限,我实在是没有看懂:变量命名极为个性,看的如坠云雾:代码倒数第二行作者自己添加注释why complex,我就更不懂了:最要命…

泡泡一分钟：Robust and Fast 3D Scan Alignment Using Mutual Information

Robust and Fast 3D Scan Alignment Using Mutual Information 使用互信息进行稳健快速的三维扫描对准 https://arxiv.org/pdf/1709.06948.pdf Nikhil Mehta, James R. McBride and Gaurav Pandey Abstract—This paper presents a mutual information (MI) based algorithm for the estimat…

Computer Vision_33_SIFT：A novel coarse-to-fine scheme for automatic image registration based on SIFT and mutual information——2014

此部分是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面.对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献.有一些刚刚出版的文章,个人非常喜欢,也列出来了. 33. SIFT关于SIFT,实在不需要介绍太多,一万多次的引用已经说明问题了.SURF和PCA-SIFT也是属于这个系列.后面列出了几篇跟SIFT有关的问题.[1999 ICCV] Object recognition from local scale-invar…

Image Processing and Analysis_15_Image Registration：Multi-modal volume registration by maximization of mutual information——1996

此主要讨论图像处理与分析.虽然计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来.同样,这里面也有一些也可以划归到计算机视觉中去.这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了. 注意:Registration可翻译为“配准”或“匹配”,一般是图像配准,特征匹配(特征点匹配). MIA] Image matching as a diffusion process[…

Point-wise Mutual Information

Point-wise Mutual Information (Yao, et al 2019) reclaimed a clear description of Point-wise Mutual Information as below: \[ PMI(i, j) = \log \frac{p(i,j)}{p(i)p(j)} \\ p(i, j) = \frac{\#(i,j)}{\#W} \\ p(i) = \frac{\#(i)}{\#W} \] where $\#(i)$ is th…

双目立体匹配经典算法之Semi-Global Matching（SGM）概述：匹配代价计算之互信息（Mutual Information，MI）

半全局立体匹配算法Semi-Global Matching,SGM由学者Hirschmüller在2005年所提出1,提出的背景是一方面高效率的局部算法由于所基于的局部窗口视差相同的假设在很多情况下并不成立导致匹配效果较差:而另一方面全局算法虽然通过二维相邻像素视差之间的约束(如平滑性约束)而得到更好的匹配效果,但是对内存的占用量大,速度慢.为了结合两者的优点,同时避免两者的缺点,SGM算法依旧采用全局框架,但是在计算能量函数最小化的步骤时使用高效率的一维路径聚合方法来代替全局算法中的二维最…

Mutual Information

Mutal Information, MI, 中文名称:互信息. 用于描述两个概率分布的相似/相关程度. 常用于衡量两个不同聚类算法在同一个数据集的聚类结果的相似性/共享的信息量. 给定两种聚类结果$X,Y$, 现在用MI来衡量它们之间的相似程度计算方式为: \[ MI(X, Y) = \sum_{u \in U} \sum_{v in V} p(u, v)log \frac{p(u, v)}{p(u)p(v)} \] 其中$U=set(X), V = set(Y)$(set()为去重…

[论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding

[论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding 本文结构解决问题主要贡献算法原理实验结果参考文献 (1) 解决问题现有的基于GAN的方法大多都是先假设服从一个高斯分布,然后再来学习节点嵌入(匹配节点嵌入向量服从这个假设的先验分布). 这可能存在两个问题: 一个问题是(由于真实数据是有很多噪声的,所以会为GAN模型学习的分布带来很多噪声)很难从节点向量表示中区分出噪声节点,因为所有节点都是服从…

论文解读（GMI）《Graph Representation Learning via Graphical Mutual Information Maximization》2

Paper Information 论文作者:Zhen Peng.Wenbing Huang.Minnan Luo.Q. Zheng.Yu Rong.Tingyang Xu.Junzhou Huang论文来源:WWW 2020论文地址:download代码地址:download 前言 1.自监督学习(Self-supervised):属于无监督学习,其核心是自动为数据打标签(伪标签或其他角度的可信标签,包括图像的旋转.分块等等),通过让网络按照既定的规则,对数据打出正确的标签来更好地进行特征表示…

论文解读（GMI）《Graph Representation Learning via Graphical Mutual Information Maximization》

Paper Information 论文作者:Zhen Peng.Wenbing Huang.Minnan Luo.Q. Zheng.Yu Rong.Tingyang Xu.Junzhou Huang论文来源:WWW 2020论文地址:download代码地址:download 前言 1.自监督学习(Self-supervised):属于无监督学习,其核心是自动为数据打标签(伪标签或其他角度的可信标签,包括图像的旋转.分块等等),通过让网络按照既定的规则,对数据打出正确的标签来更好地进行特征表示…

论文解读（GMIM）《Deep Graph Clustering via Mutual Information Maximization and Mixture Model》

论文信息论文标题:Deep Graph Clustering via Mutual Information Maximization and Mixture Model论文作者:Maedeh Ahmadi, Mehran Safayani, Abdolreza Mirzaei论文来源:2022, arXiv 论文地址:download论文代码:download 1 Introduction 结合高斯混合模型+对比学习. 2 Method 总体框架 2.1 Node Embedding En…

关于互信息（Mutual Information），我有些话要说

两个随机变量的独立性表示两个变量X与Y是否有关系(贝叶斯可证),但是关系的强弱(mutual dependence)是无法表示的,为此我们引入了互信息. 其中 p(x,y) 是 X 和 Y 的联合概率分布函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数. 在连续随机变量的情形下,求和被替换成了二重定积分: 其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数. 互信息量I(xi;yj)在联合概率空间P(XY…

CCJ PRML Study Note - Chapter 1.6 : Information Theory

Chapter 1.6 : Information Theory Chapter 1.6 : Information Theory Christopher M. Bishop, PRML, Chapter 1 Introdcution 1. Information h(x) Given a random variable and we ask how much information is received when we observe a specific value for thi…

A Beginner’s Guide to Eigenvectors, PCA, Covariance and Entropy

A Beginner’s Guide to Eigenvectors, PCA, Covariance and Entropy Content: Linear Transformations Principal Component Analysis (PCA) Covariance Matrix Change of Basis Entropy & Information Gain Resources This post introduces eigenvectors and their rela…

交叉熵cross entropy和相对熵（kl散度）

交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量真实分布p与当前训练得到的概率分布q有多么大的差异. 相对熵(relative entropy)就是KL散度(Kullback–Leibler divergence),用于衡量两个概率分布之间的差异. 对于两个概率分布和 ,其相对熵的计算公式为: 注意:由于和在公式中的地位不是相等的,所以. 相对熵的特点,是只有时,其值为0.若和略有差异,其值就会大于0. 相对熵…

【PRML读书笔记-Chapter1-Introduction】1.6 Information Theory

熵给定一个离散变量,我们观察它的每一个取值所包含的信息量的大小,因此,我们用来表示信息量的大小,概率分布为.当p(x)=1时,说明这个事件一定会发生,因此,它带给我的信息为0.(因为一定会发生,毫无悬念) 如果x和y独立无关,那么: 他们之间的关系为: (p(x)=1时,h(x)=0,负号为了确保h(x)为正,这里取2为底是随机的,可以取其他的正数(除了1)) 因此,对于所有x的取值,它的熵有: 注:,当遇到时, 这里插一段信息熵的解释: ———————————————————————————…

Theoretical comparison between the Gini Index and Information Gain criteria

Knowledge Discovery in Databases (KDD) is an active and important research area with the promise for a high payoff in many business and scientific applications. One of the main tasks in KDD is classification. A particular efficient method for classif…

Tree - Information Theory

This will be a series of post about Tree model and relevant ensemble method, including but not limited to Random Forest, AdaBoost, Gradient Boosting and xgboost. So I will start with some basic of Information Theory, which is an importance piece in T…

Better intuition for information theory

Better intuition for information theory 2019-12-01 21:21:33 Source: https://www.blackhc.net/blog/2019/better-intuition-for-information-theory/ The following blog post is based on Yeung’s beautiful paper “A new outlook on Shannon’s information measure…

论文笔记 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios

motivation Active Learning 存在的重要问题:现实数据极度不平衡,有许多类别很少见(rare),又有很多类别是冗余的(redundancy),又有些数据是 OOD 的(out-of-distribution). 1. 不同的次模函数提出三种次模函数的变体: 次模条件增长(Submodular Conditional Gain, SCG),越大说明差异越大: $$f(\mathcal{A}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P}…

论文笔记 - PRISM: A Rich Class of Parameterized Submodular Information Measures for Guided Subset Selection

Motivation 与 Active Learning 类似,Target Learning 致力于挑选外卖更"感兴趣"的数据,即人为为更重要的数据添加 bias.例如我们当前的任务目标是增强自动驾驶算法的夜间行驶性能,我们就不能单纯从未标注数据集中抽取多样性大的数据,而是要满足黑夜条件的数据. Guided Summarization 与此类似,在进行 Summarization 的同时,也只抽取用户"感兴趣"感兴趣的内容.例如在各种内容都有的新闻中做体育相关…

NLP&数据挖掘基础知识

Basis(基础): SSE(Sum of Squared Error, 平方误差和) SAE(Sum of Absolute Error, 绝对误差和) SRE(Sum of Relative Error, 相对误差和) MSE(Mean Squared Error, 均方误差) RMSE(Root Mean Squared Error, 均方根误差) RRSE(Root Relative Squared Error, 相对平方根误差) MAE(Mean Absolute Error, 平均绝…

coursera 公开课文本挖掘和分析（text mining and analytics） week 1 笔记

一.课程简介: text mining and analytics 是一门在coursera上的公开课,由美国伊利诺伊大学香槟分校(UIUC)计算机系教授 chengxiang zhai 讲授,公开课链接:https://class.coursera.org/textanalytics-001/wiki/view?page=Programming_Assignments_Overview. 二.课程大纲: 三.课程主要内容 3.1 Text representation 可以从以下几个方面来对文…

常用的机器学习&数据挖掘知识点【转】

转自: [基础]常用的机器学习&数据挖掘知识点 Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming 二次规划), CP(Conditional Probability条件概率),JP(Joint Probability 联合概…

【基础】常用的机器学习&数据挖掘知识点

Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming 二次规划), CP(Conditional Probability条件概率),JP(Joint Probability 联合概率),MP(Marginal Probabili…

PRML读书笔记——机器学习导论

什么是模式识别(Pattern Recognition)? 按照Bishop的定义,模式识别就是用机器学习的算法从数据中挖掘出有用的pattern. 人们很早就开始学习如何从大量的数据中发现隐藏在背后的pattern.例如,16世纪的Kepler从他的老师Tycho搜集的大量有关于行星运动的数据中发现了天体运行的规律,并直接导致了牛顿经典力学的诞生.然而,这种依赖于人类经验的.启发式的模式识别过程很难复制到其他的领域中.例如手写数字的识别.这就需要机器学习的技术了.(顺便提一下,开普勒定律在物理…

[Bayesian] “我是bayesian我怕谁”系列 - Boltzmann Distribution

使用Boltzmann distribution还是Gibbs distribution作为题目纠结了一阵子,选择前者可能只是因为听起来“高大上”一些.本章将会聊一些关于信息.能量这方面的东西,体会“交叉学科”的魅力. In statistical mechanics and mathematics, a Boltzmann distribution (also called Gibbs distribution) is a probability distribution, probabili…