エントロピー

エントロピーとは自己情報量の期待値であるという認識が重要(計算において)。
H(X) = \mathbb{E}[ - \log P(X)]

また「情報」とは,可測空間,つまり「事象の全体」が分かってはじめて確定する。
なぜならば,確率測度Pとは可測空間上定義された関数であり,確率変数Xもまた可測空間に対して定義される関数だからである。

情報量

自己情報量
事象σの生起確率p(σ)とする。
このとき,σの自己情報量Iは以下で与えられる。
I(\sigma) := - \log_2 p(\sigma)
Prop.
自己情報量は以下の性質を持つ。
1. 単調減少p(\sigma_1) < p(\sigma_2) \Rightarrow I(\sigma_1) > I(\sigma_2)
2. 加法性
   \sigma_1,\sigma_2 \mbox{independent} \Rightarrow I(\sigma_1 \cap \sigma_2) = I(\sigma_1)+I(\sigma_2)
3. 連続性
   p(σ)の連続関数である。※σ自体の連続関数ではない!
また,以上の性質をもつpの汎関数Iは底の違いを除いて唯一定まる。
Def. エントロピー
無記憶定常離散的情報源S
\mathcal{S} := \begin{pmatrix} a_1 & a_2 & \cdots & a_M \\ p_1 & p_2 & \cdots & p_M\end{pmatrix}
Sに対するエントロピーは以下で定義される。
\mathcal{H}[S] := -\sum_{i=1}^M p_i \log_2 p_i
この定義は,符号化するシンボルとしてK={0,1}を用いることを含意する。
Prop. エントロピーは凸関数
共通の標本空間を持ち,確率ベクトルが異なる情報源の列Siを考える。
\mathcal{S}_i := \begin{pmatrix} \mathbf{a} \\ \mathbf{p}_i \end{pmatrix}
エントロピーは,確率ベクトルpiに対して定義された汎関数と読み替えることができる。
\mathcal{H}(\mathbf{p}_i) := \mathcal{H}[\mathcal{S}_i]
この意味で,エントロピーは凸関数である。
  \sum_{i=1}^m \lambda_i = 1 \quad \left( {}^\forall \lambda_i \geq 0\right)
  \Rightarrow \mathcal{H} \left( \sum_{i=1}^m \lambda_i \mathbf{p}_i \right) \geq \sum_{i=1}^m \lambda_i \mathcal{H}(\mathbf{p}_i)
  等号は \mathbf{p}_1 = \cdots = \mathbf{p}_m
Th. 離散分布に対して,一様分布はエントロピー最大
Def. 条件付エントロピー
同じ情報源Sに対し,複数の確率変数X,Yを考えると条件付確率を考えることができる。
p(x|y) := P(X=x|Y=y)
Y=yと分かったときのエントロピーをH(X|Y=y)と書くことにすると,
\mathcal{H}(X|Y=y) := - \sum_{x=X} p(x|y) \log_2 p(x|y)
H(X|Y=y)のYに関する期待値を条件付きエントロピーという。
\mathcal{H}(X|Y) := \sum_{y=Y} p(y) \mathcal{H}(X|Y=y)
Def. 結合エントロピー
さらに結合確率も考えることができ,
p(x,y) := P(X=x, Y=y)
これに対するエントロピーを結合エントロピーという。
\mathcal{H}(X,Y) := -\sum_{x=X, y=Y} p(x,y) \log_2 p(x,y)
Prop. 
結合エントロピーは対称性を持つ。
\mathcal{H}(X,Y) = \mathcal{H}(Y,X)
Prop. 各エントロピーの関係
\mathcal{H}(X,Y) = \mathcal{H}(X|Y) + \mathcal{H}(Y) = \mathcal{H}(Y|X) + \mathcal{H}(X)
Def. 相互情報量
他方がもう一方に寄与する分を測る。
\mathcal{I}(X,Y) := \mathcal{H}(X) - \mathcal{H}(X|Y)
Prop. 
相互情報量は対称性を持つ。
\mathcal{I}(X,Y) = \mathcal{I}(Y,X) = \mathcal{H}(X) + \mathcal{H}(Y) - \mathcal{H}(X,Y)
Prop. 
相互情報量とKL情報量の関係。
\mathcal{I}(X,Y) = KL(P(X,Y)||P(X)P(Y))
ここから,相互情報量は非負であることがわかる。
\mathcal{I}(X,Y) = \mathcal{H}(X) - \mathcal{H}(X|Y) \geq 0
また,上に有界であることも分かる。
\mathcal{I}(X,Y) \leq \min{ H(X), H(Y) }
注. 
上の不等式は,Yについても平均操作をとった H(X|Y) について言及しているのであり,
Yを1つfixしただけのエントロピー H(X|Y=y) については,成立しないことがある。

簡単な例
X={0,1} Y={0,1}
p(x=0, y=0) = 0.125, p(x=0, y=1) = 0.075, p(x=1, y=0) = 0.125, p(x=1, y=1) = 0.675
H(X) = 0.500
H(X|Y=0) = 0.693 ← H(X)より高くなっている!
H(X|Y=1) = 0.325 ← もう一方は必ずH(X)より小さくならなければならない。
H(X|Y) = 0.417

タグ:

+ タグ編集
  • タグ:

このサイトはreCAPTCHAによって保護されており、Googleの プライバシーポリシー利用規約 が適用されます。

最終更新:2010年04月25日 00:57
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。