高新 | AI平台开发工程师

AI平台开发工程师,专注于AI平台工程和Kubernetes云原生技术。拥有AI平台开发、GPU资源优化和AI服务部署经验

信息量

什么是信息量?

信息量是信息论中的一个核心概念,用来衡量某个事件发生时所带来的“惊喜”或“不确定性减少”的程度。它由克劳德·香农(Claude Shannon)提出,广泛应用于通信、数据压缩等领域。简单来说,信息量的大小与事件发生的概率密切相关:

  • 概率低的事件发生时,信息量大,因为它让人感到意外。
  • 概率高的事件发生时,信息量小,因为它在意料之中。

数学上,信息量 $ I(x) $ 定义为:

$$ I(x) = -\log_2 P(x) $$

  • $ P(x) $ 是事件 $ x $ 发生的概率。
  • $ \log_2 $ 是以 2 为底的对数,单位是比特(bit)。
  • 负号确保信息量为正值。

通过两个例子——抛硬币和天气预报——来详细说明


1:抛硬币

场景 1:公平硬币

假设你有一枚公平的硬币,正面(H)和反面(T)出现的概率都是 50%,即 $ P(H) = 0.5 $,$ P(T) = 0.5 $。

  • 事件:抛硬币出现正面(H)。
  • 概率:$ P(H) = 0.5 $。
  • 信息量: $$ I(H) = -\log_2 0.5 = -(-1) = 1 \text{ 比特} $$

解释

  • 当抛硬币看到正面时,你不会感到特别惊讶,因为正面和反面各有一半的机会。信息量是 1 比特,意味着这个事件传达了 1 比特的信息。
  • 同样,抛出反面也有 1 比特的信息量。

场景 2:不公平硬币

现在假设这枚硬币不公平,正面出现的概率是 90%($ P(H) = 0.9 $),反面是 10%($ P(T) = 0.1 $)。

  • 事件 1:出现正面(H)
    • 概率:$ P(H) = 0.9 $
    • 信息量: $$ I(H) = -\log_2 0.9 \approx 0.152 \text{ 比特} $$
  • 事件 2:出现反面(T)
    • 概率:$ P(T) = 0.1 $
    • 信息量: $$ I(T) = -\log_2 0.1 \approx 3.322 \text{ 比特} $$

解释

  • 正面(高概率事件):信息量很小(0.152 比特)。因为你几乎可以确定会抛出正面,所以看到正面时几乎没有惊喜。
  • 反面(低概率事件):信息量很大(3.322 比特)。抛出反面时你会感到惊讶,因为这不太可能发生,传达的信息“价值”更高。

2:天气预报

想象住在一个气候稳定的城市,天气预报每天预测“明天晴天”的概率是 90%($ P(\text{晴天}) = 0.9 $),而“明天雨天”的概率是 10%($ P(\text{雨天}) = 0.1 $)。

场景 1:明天是晴天

  • 事件:明天是晴天。
  • 概率:$ P(\text{晴天}) = 0.9 $。
  • 信息量: $$ I(\text{晴天}) = -\log_2 0.9 \approx 0.152 \text{ 比特} $$

类比

  • 当你听到“明天是晴天”时,你不会感到惊讶,因为晴天是常态。信息量小,说明这个消息几乎没给你带来新的认知。

场景 2:明天是雨天

  • 事件:明天是雨天。
  • 概率:$ P(\text{雨天}) = 0.1 $。
  • 信息量: $$ I(\text{雨天}) = -\log_2 0.1 \approx 3.322 \text{ 比特} $$

类比

  • 当你听到“明天是雨天”时,你会感到惊讶,因为这不常见。信息量大,说明这个消息让你对明天有了全新的认识。

信息量的单位:比特

信息量的单位是比特,来源于二进制(binary digit)。

  • 1 比特相当于一个公平硬币抛掷的结果(正面或反面),因为 $ -\log_2 0.5 = 1 $。
  • 2 比特相当于两个公平硬币抛掷的结果(例如 HH、HT、TH、TT 四种可能之一)。

在例子中:

  • 公平硬币每次抛掷提供 1 比特信息。
  • 不公平硬币抛出反面(概率 0.1)提供 3.322 比特,相当于更大的“信息价值”。

信息量与不确定性的关系

信息量还可以理解为不确定性减少的量

  • 事件发生前,你对结果有不确定性。
  • 事件发生后,不确定性被消除,信息量就是消除的“量”。

例如:

  • 公平硬币:抛掷前你完全不确定(50% 正面,50% 反面),抛掷后获得 1 比特信息,消除了不确定性。
  • 不公平硬币:抛掷前你倾向于认为会是正面(90% 概率)。如果结果是正面,信息量小(0.152 比特),因为你已经“差不多知道”了;如果是反面,信息量大(3.322 比特),因为这超出了预期。

总结

  • 信息量是衡量事件发生时“惊喜”或“不确定性减少”的指标,用公式 $ I(x) = -\log_2 P(x) $ 计算。
  • 低概率事件(如抛硬币出反面、明天雨天)信息量大,因为意外性强。
  • 高概率事件(如抛硬币出正面、明天晴天)信息量小,因为在意料之中。