信息熵 Information Entropy
信息熵用于描述信源的不确定度, 即用数学语言描述概率与信息冗余度的关系.
C. E. Shannon 在 1948 年发表的论文A Mathematical Theory of Communication中指出, 任何信息都存在冗余, 冗余大小与信息中每个符号(数字, 字母或单词)的出现概率或者说不确定性有关. Shannon 借鉴了热力学的概念, 把信息中排除了冗余后的平均信息量称为信息熵, 并给出了计算信息熵的数学表达式.
一个信源发送出什么符号是不确定的, 衡量它可以根据其出现的概率来度量: 概率大出现机会多, 则不确定性小; 反之则不确定性就大.
不确定性函数f是概率P的减函数, 两个独立符号所产生的不确定性应等于各自不确定性之和, 即f(P1,P2)=f(P1)+f(P2), 这称为可加性, 同时满足这两个条件的函数f是对数函数, 即
$ f(P) = \log \frac{1}{P} = -\log P $
在信源中, 考虑的不是某一单个符号发生的不确定性, 而是要考虑这个信源所有可能发生情况的平均不确定性. 若信源符号有n种取值: U1, ... Ui, ...Un, 对应概率为 P1, ... Pi,... Pn, 且各种符号的出现彼此独立, 此时信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E), 可称为信息熵, 即
$ H(U) = E\left [ -\log p_i \right ] = -\sum_{i=1}^{n}p_i\log p_i $
式中对数一般取2为底, 单位为比特. 也可以取其它对数底, 采用其它相应的单位, 可用换底公式换算.
信息的基本作用就是消除人们对事物的不确定性, 信息熵就是一个在博弈对局中信息混乱的现象. 当32个球队夺冠概率相同(即最混乱)时, 对应的信息熵等于五比特. 可以证明当n=32时信息熵公式的值不可能大于5.
信息熵是信息论中用于度量信息量的一个概念, 一个系统越是有序, 信息熵就越低; 反之, 一个系统越是混乱, 信息熵就越高. 所以信息熵也可以说是系统有序化程度的一个度量.
熵的概念源自热物理学
假定有两种气体a, b, 当两种气体完全混合时, 可以达到热物理学中的稳定状态, 此时熵最高. 如果要实现反向过程, 即将a, b完全分离, 在封闭的系统中是没有可能的. 只有外部干预, 也即系统外部加入某种有序化的东西(如能量), 使得a, b分离. 这时系统进入另一种稳定状态, 此时信息熵最低. 热物理学证明: 在一个封闭的系统中, 熵总是增大, 直至最大. 若要使系统的熵减少(使系统更加有序化), 则必须有外部能量的干预.
信息熵的计算是非常复杂的, 而具有多重前置条件的信息, 更是几乎不能计算的, 所以在现实世界中信息的价值大多是不能被计算出来的. 但因为信息熵和热力学熵的紧密相关性, 所以信息熵是可以在衰减的过程中被测定出来的. 因此信息的价值是通过信息的传递体现出来的, 在没有引入附加价值(负熵)的情况下, 传播得越广流传时间越长的信息越有价值. 在传播中是指信息的不确定性, 一则高信息度的信息熵是很低的, 低信息度的熵则高. 具体说来, 凡是导致随机事件集合的肯定性, 组织性, 法则性或有序性等增加或减少的活动过程, 都可以用信息熵的改变量这个统一的标尺来度量.
信息熵 Information Entropy的更多相关文章
- 通俗易懂的信息熵与信息增益(IE, Information Entropy; IG, Information Gain)
信息熵与信息增益(IE, Information Entropy; IG, Information Gain) 信息增益是机器学习中特征选择的关键指标,而学习信息增益前,需要先了解信息熵和条件熵这两个 ...
- ZOJ 3827 Information Entropy 水题
Information Entropy Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://acm.zju.edu.cn/onlinejudge/sh ...
- 2014 牡丹江现场赛 i题 (zoj 3827 Information Entropy)
I - Information Entropy Time Limit:2000MS Memory Limit:65536KB 64bit IO Format:%lld & %l ...
- 信息熵(Entropy)究竟是用来衡量什么的?
信息熵(Entropy)究竟是用来衡量什么的? ——与Philip ZHANG商榷 思明 Philip ZHANG先生在反驳彭小明的时候,提出一个观点,他说:“ 就语言文 字来说,总体效率不是用民族主 ...
- ZOJ3827 ACM-ICPC 2014 亚洲区域赛的比赛现场牡丹江I称号 Information Entropy 水的问题
Information Entropy Time Limit: 2 Seconds Memory Limit: 131072 KB Special Judge Informatio ...
- ZOJ 3827 Information Entropy 水
水 Information Entropy Time Limit: 2 Seconds Memory Limit: 65536 KB Special Judge Informati ...
- ZOJ 3827 Information Entropy (2014牡丹江区域赛)
题目链接:ZOJ 3827 Information Entropy 依据题目的公式算吧,那个极限是0 AC代码: #include <stdio.h> #include <strin ...
- zoj 3827 Information Entropy 【水题】
Information Entropy Time Limit: 2 Seconds Memory Limit: 65536 KB Special Judge Information ...
- information entropy as a measure of the uncertainty in a message while essentially inventing the field of information theory
https://en.wikipedia.org/wiki/Claude_Shannon In 1948, the promised memorandum appeared as "A Ma ...
随机推荐
- SDk编程基础
一.Android简介: 由Andy Rubin开发, 常用手机版本:谷哥:Nexus.华为:EMUI.魅族:Flyme Adnroid是运行在Java虚拟机(JVM)上大部分免费的开源的.应用通过权 ...
- ls - 列出目录清单信息
ls - list directory contents 列出目录内容 格式: ls [OPTION]... [FILE]... 常用选项: -a:显示所有文件或目录(包括隐藏目录和.(当前目录),. ...
- 图论 - 二分图的判断(dfs染色法)
二分图的判断(dfs染色法) 如何判断一个图是否为二分图 普通染色法模板 C++ 代码模板如下 思想:先将当前点染色,然后再将该点相连的结点进行染另外一种颜色 下面附上自己画的一张图假设我们从第一个点 ...
- 排序算法-选择排序(Java)
package com.rao.linkList; import java.util.Arrays; /** * @author Srao * @className SelectSort * @dat ...
- PHP 判断时间段 至今过了多长时间
/** * * @param timestamp $time 输入时间 * @return str $str 输入时间与现在时间差的中文 */ function wordTime($time) { / ...
- LeetCode 752. Open the Lock
原题链接在这里:https://leetcode.com/problems/open-the-lock/ 题目: You have a lock in front of you with 4 circ ...
- LeetCode 499. The Maze III
原题链接在这里:https://leetcode.com/problems/the-maze-iii/ 题目: There is a ball in a maze with empty spaces ...
- OpenCV实现"你的名字"滤镜
这是一个比较有意思的demo,用到了播送融合,具体效果见下图: 文件结构如图所示 主程序代码 #include"stdafx.h" #include<opencv2/phot ...
- 验证码破解 | Selenium模拟登录知乎
import requests import re import execjs import time import hmac from hashlib import sha1 class Zhi ...
- 工作拾记 - 关于easyui模板后台改为vue-element
图1: 数据接口,模拟实现一些基本的数据条目 图2: 获取数据,接口都在src/api中 TODO LIST: 接下来要做的呢: 1. 完善此demo,基本的CURD,现在只有getAll,需要将增加 ...