信息熵用于描述信源的不确定度, 即用数学语言描述概率与信息冗余度的关系.

C. E. Shannon 在 1948 年发表的论文A Mathematical Theory of Communication中指出, 任何信息都存在冗余, 冗余大小与信息中每个符号(数字, 字母或单词)的出现概率或者说不确定性有关. Shannon 借鉴了热力学的概念, 把信息中排除了冗余后的平均信息量称为信息熵, 并给出了计算信息熵的数学表达式.

一个信源发送出什么符号是不确定的, 衡量它可以根据其出现的概率来度量: 概率大出现机会多, 则不确定性小; 反之则不确定性就大.
不确定性函数f是概率P的减函数, 两个独立符号所产生的不确定性应等于各自不确定性之和, 即f(P1,P2)=f(P1)+f(P2), 这称为可加性, 同时满足这两个条件的函数f是对数函数, 即

$ f(P) = \log \frac{1}{P} = -\log P $

在信源中, 考虑的不是某一单个符号发生的不确定性, 而是要考虑这个信源所有可能发生情况的平均不确定性. 若信源符号有n种取值: U1, ... Ui, ...Un, 对应概率为 P1, ... Pi,... Pn, 且各种符号的出现彼此独立, 此时信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E), 可称为信息熵, 即

$ H(U) = E\left [ -\log p_i \right ] = -\sum_{i=1}^{n}p_i\log p_i $

式中对数一般取2为底, 单位为比特. 也可以取其它对数底, 采用其它相应的单位, 可用换底公式换算.

信息的基本作用就是消除人们对事物的不确定性, 信息熵就是一个在博弈对局中信息混乱的现象. 当32个球队夺冠概率相同(即最混乱)时, 对应的信息熵等于五比特. 可以证明当n=32时信息熵公式的值不可能大于5.

信息熵是信息论中用于度量信息量的一个概念, 一个系统越是有序, 信息熵就越低; 反之, 一个系统越是混乱, 信息熵就越高. 所以信息熵也可以说是系统有序化程度的一个度量.

熵的概念源自热物理学
假定有两种气体a, b, 当两种气体完全混合时, 可以达到热物理学中的稳定状态, 此时熵最高. 如果要实现反向过程, 即将a, b完全分离, 在封闭的系统中是没有可能的. 只有外部干预, 也即系统外部加入某种有序化的东西(如能量), 使得a, b分离. 这时系统进入另一种稳定状态, 此时信息熵最低. 热物理学证明: 在一个封闭的系统中, 熵总是增大, 直至最大. 若要使系统的熵减少(使系统更加有序化), 则必须有外部能量的干预.

信息熵的计算是非常复杂的, 而具有多重前置条件的信息, 更是几乎不能计算的, 所以在现实世界中信息的价值大多是不能被计算出来的. 但因为信息熵和热力学熵的紧密相关性, 所以信息熵是可以在衰减的过程中被测定出来的. 因此信息的价值是通过信息的传递体现出来的, 在没有引入附加价值(负熵)的情况下, 传播得越广流传时间越长的信息越有价值. 在传播中是指信息的不确定性, 一则高信息度的信息熵是很低的, 低信息度的熵则高. 具体说来, 凡是导致随机事件集合的肯定性, 组织性, 法则性或有序性等增加或减少的活动过程, 都可以用信息熵的改变量这个统一的标尺来度量.

信息熵 Information Entropy的更多相关文章

  1. 通俗易懂的信息熵与信息增益(IE, Information Entropy; IG, Information Gain)

    信息熵与信息增益(IE, Information Entropy; IG, Information Gain) 信息增益是机器学习中特征选择的关键指标,而学习信息增益前,需要先了解信息熵和条件熵这两个 ...

  2. ZOJ 3827 Information Entropy 水题

    Information Entropy Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://acm.zju.edu.cn/onlinejudge/sh ...

  3. 2014 牡丹江现场赛 i题 (zoj 3827 Information Entropy)

    I - Information Entropy Time Limit:2000MS     Memory Limit:65536KB     64bit IO Format:%lld & %l ...

  4. 信息熵(Entropy)究竟是用来衡量什么的?

    信息熵(Entropy)究竟是用来衡量什么的? ——与Philip ZHANG商榷 思明 Philip ZHANG先生在反驳彭小明的时候,提出一个观点,他说:“ 就语言文 字来说,总体效率不是用民族主 ...

  5. ZOJ3827 ACM-ICPC 2014 亚洲区域赛的比赛现场牡丹江I称号 Information Entropy 水的问题

    Information Entropy Time Limit: 2 Seconds      Memory Limit: 131072 KB      Special Judge Informatio ...

  6. ZOJ 3827 Information Entropy 水

    水 Information Entropy Time Limit: 2 Seconds      Memory Limit: 65536 KB      Special Judge Informati ...

  7. ZOJ 3827 Information Entropy (2014牡丹江区域赛)

    题目链接:ZOJ 3827 Information Entropy 依据题目的公式算吧,那个极限是0 AC代码: #include <stdio.h> #include <strin ...

  8. zoj 3827 Information Entropy 【水题】

    Information Entropy Time Limit: 2 Seconds      Memory Limit: 65536 KB      Special Judge Information ...

  9. information entropy as a measure of the uncertainty in a message while essentially inventing the field of information theory

    https://en.wikipedia.org/wiki/Claude_Shannon In 1948, the promised memorandum appeared as "A Ma ...

随机推荐

  1. windows ssh远程登录阿里云遇到permissions are too open的错误

    我试图用ssh -i 命令远程登录阿里云时,遇到如下错误: Permissions for 'private-key.ppk' are too open. It is required that yo ...

  2. 关于SQL中的 where 1 = 1 的用法

    在项目中的常见的一个操作:在有关SQL的代码中加入where 1 = 1,关于它的用法,可以总结如下: 首先,where 1 = 1的用法往往是为了方便后续的给SQL增加where限制条件.如果实现加 ...

  3. mysql: show processlist 详解

    最近排查一些MySQL的问题,会经常用到 show processlist,所以在这里把这个命令总结一下,做个备忘,以备不时只需. show processlist 是显示用户正在运行的线程,需要注意 ...

  4. MySQL Table--独立表空间

    数据库表空间 独立表空间 在MySQL 5.6 中引入独立表空间的概念,启用独立表空间后,每个表将生成独立的文件来进行存储. 创建表时可以指定表存放的文件路径 ##首选需要确保innodb_file_ ...

  5. windows中的出站和入站规则

    一.规则介绍 规则生效的前提是防火墙处于开启状态. windows系统默认的规则:默认阻止入站连接,默认允许出站连接.也就是说,凡是入站连接,任何程序和端口都要在防火墙上配置入站规则,否则都会被禁止. ...

  6. 理解cookie,session,token

    彻底理解cookie,session,token 发展史 1.很久很久以前,Web 基本上就是文档的浏览而已, 既然是浏览,作为服务器, 不需要记录谁在某一段时间里都浏览了什么文档,每次请求都是一个新 ...

  7. 分享一个批量修改文件编码的python脚本

    分享一个自己编写的递归查找子目录,将所有cpp文件编码修改为utf-8编码格式的小脚本 #i!/usr/bin/env python3 # -*- coding:utf-8 -*- import os ...

  8. 目标检测论文解读4——Faster R-CNN

    背景 Fast R-CNN中的region proposal阶段所采用的SS算法成为了检测网络的速度瓶颈,本文是在Fast R-CNN基础上采用RPN(Region Proposal Networks ...

  9. Selenium_webdriver+java通过读取firefox、chrome的cookie文件,实现自动登录

    遇到过很多问题,通过查资料得出的最终结果!

  10. POJ - 1981 :Circle and Points (圆的扫描线) hihocoder1508

    题意:给定N个点,然后给定一个半径为R的圆,问这个圆最多覆盖多少个点. 思路:在圆弧上求扫描线. 如果N比较小,不难想到N^3的算法. 一般这种覆盖问题你可以假设有两个点在圆的边界上,那么每次产生的圆 ...