信息量
什么是信息量?
信息量是信息论中的一个核心概念,用来衡量某个事件发生时所带来的“惊喜”或“不确定性减少”的程度。它由克劳德·香农(Claude Shannon)提出,广泛应用于通信、数据压缩等领域。简单来说,信息量的大小与事件发生的概率密切相关:
- 概率低的事件发生时,信息量大,因为它让人感到意外。
- 概率高的事件发生时,信息量小,因为它在意料之中。
数学上,信息量 $ I(x) $ 定义为:
$$ I(x) = -\log_2 P(x) $$
- $ P(x) $ 是事件 $ x $ 发生的概率。
- $ \log_2 $ 是以 2 为底的对数,单位是比特(bit)。
- 负号确保信息量为正值。
通过两个例子——抛硬币和天气预报——来详细说明
1:抛硬币
场景 1:公平硬币
假设你有一枚公平的硬币,正面(H)和反面(T)出现的概率都是 50%,即 $ P(H) = 0.5 $,$ P(T) = 0.5 $。
- 事件:抛硬币出现正面(H)。
- 概率:$ P(H) = 0.5 $。
- 信息量: $$ I(H) = -\log_2 0.5 = -(-1) = 1 \text{ 比特} $$
解释:
- 当抛硬币看到正面时,你不会感到特别惊讶,因为正面和反面各有一半的机会。信息量是 1 比特,意味着这个事件传达了 1 比特的信息。
- 同样,抛出反面也有 1 比特的信息量。
场景 2:不公平硬币
现在假设这枚硬币不公平,正面出现的概率是 90%($ P(H) = 0.9 $),反面是 10%($ P(T) = 0.1 $)。
- 事件 1:出现正面(H)
- 概率:$ P(H) = 0.9 $
- 信息量: $$ I(H) = -\log_2 0.9 \approx 0.152 \text{ 比特} $$
- 事件 2:出现反面(T)
- 概率:$ P(T) = 0.1 $
- 信息量: $$ I(T) = -\log_2 0.1 \approx 3.322 \text{ 比特} $$
解释:
- 正面(高概率事件):信息量很小(0.152 比特)。因为你几乎可以确定会抛出正面,所以看到正面时几乎没有惊喜。
- 反面(低概率事件):信息量很大(3.322 比特)。抛出反面时你会感到惊讶,因为这不太可能发生,传达的信息“价值”更高。
2:天气预报
想象住在一个气候稳定的城市,天气预报每天预测“明天晴天”的概率是 90%($ P(\text{晴天}) = 0.9 $),而“明天雨天”的概率是 10%($ P(\text{雨天}) = 0.1 $)。
场景 1:明天是晴天
- 事件:明天是晴天。
- 概率:$ P(\text{晴天}) = 0.9 $。
- 信息量: $$ I(\text{晴天}) = -\log_2 0.9 \approx 0.152 \text{ 比特} $$
类比:
- 当你听到“明天是晴天”时,你不会感到惊讶,因为晴天是常态。信息量小,说明这个消息几乎没给你带来新的认知。
场景 2:明天是雨天
- 事件:明天是雨天。
- 概率:$ P(\text{雨天}) = 0.1 $。
- 信息量: $$ I(\text{雨天}) = -\log_2 0.1 \approx 3.322 \text{ 比特} $$
类比:
- 当你听到“明天是雨天”时,你会感到惊讶,因为这不常见。信息量大,说明这个消息让你对明天有了全新的认识。
信息量的单位:比特
信息量的单位是比特,来源于二进制(binary digit)。
- 1 比特相当于一个公平硬币抛掷的结果(正面或反面),因为 $ -\log_2 0.5 = 1 $。
- 2 比特相当于两个公平硬币抛掷的结果(例如 HH、HT、TH、TT 四种可能之一)。
在例子中:
- 公平硬币每次抛掷提供 1 比特信息。
- 不公平硬币抛出反面(概率 0.1)提供 3.322 比特,相当于更大的“信息价值”。
信息量与不确定性的关系
信息量还可以理解为不确定性减少的量:
- 事件发生前,你对结果有不确定性。
- 事件发生后,不确定性被消除,信息量就是消除的“量”。
例如:
- 公平硬币:抛掷前你完全不确定(50% 正面,50% 反面),抛掷后获得 1 比特信息,消除了不确定性。
- 不公平硬币:抛掷前你倾向于认为会是正面(90% 概率)。如果结果是正面,信息量小(0.152 比特),因为你已经“差不多知道”了;如果是反面,信息量大(3.322 比特),因为这超出了预期。
总结
- 信息量是衡量事件发生时“惊喜”或“不确定性减少”的指标,用公式 $ I(x) = -\log_2 P(x) $ 计算。
- 低概率事件(如抛硬币出反面、明天雨天)信息量大,因为意外性强。
- 高概率事件(如抛硬币出正面、明天晴天)信息量小,因为在意料之中。