情報量

情報量

情報量やエントロピーは、情報理論の概念で、ある事象が起きた際、それがどれほど起こりにくいかを表す尺度である。

情報量

I(E)=logP(E)

エントロピー(平均情報量)

H(X)=Σp(x)logP(X)

交差エントロピー

交差エントロピー

H(p,q)=Σp(x)log(q(x))

KLダイバージェンス

KLダイバージェンスとは2つの確率分布の異なりを数値化したもの。
大きい方が確率の異なりも大きく、小さければ小さいほど似た確率となる。
確率を表す2つの連続分布関数 p(x) 、 q(x) が存在するとき、次のような期待値を KLダイバージェンス と呼ぶ。

DKL[p(x)][q(x)]=p(x)logp(x)q(x)dx=p(x)logp(x)dxp(x)logq(x)dx

KLダイバージェンスには任意の確率分布の組み合わせに対して KL[p(x)][q(x)]0 という性質がある
確率の異なりを表したものであるため、 KL[p(x)][q(x)]=0 となり等号が成り立つのは2つの分布が完全に一致する場合に限られる。
KLダイバージェンスは非負であり2つの確率分布の「異なり」を数値化していることから、2つの分布間のなんらかの距離を表すと考えられがち。

しかし、一般的には KL[p(x)][q(x)]KL[q(x)][p(x)] となる。
p(x) を基準にするか q(x) を基準にするかで、KLダイバージェンスの値は変化してしまう。

JSダイバージェンス

そこで、KLダイバージェンスに対称性を持たせた、JSダイバージェンスと呼ばれる指標が利用されている。
特に、2014年に発表された GAN の最適化の議論に用いられたことで、注目を集めた。

JSダイバージェンスは、以下のようにKLダイバージェンスを用いて求められる。

DJS=12DKL[p(x)][m(x)]+12DKL[q(x)][m(x)]

ここで、m(x) は2つの確率分布の平均をとった分布。

m(x)=p(x)+q(x)2

また、JSダイバージェンスには対称性があるため、以下の等式が成り立つ。

DJS[p(x)][q(x)]=DJS[q(x)][p(x)]

そのため、任意の2つの確率分布の「異なり」をJSダイバージェンスによって測る際には、どちらの分布を基準にして測ったとしても、同様の値が得られることとなる。

モンテカルロ積分

モンテカルロ積分の直感的理解と必要サンプル数の導出・精度向上などまとめ - あつまれ統計の森
真の分布 p(x) による期待値をデータ D による平均によって置き換える。
以下のようなエントロピーがあったとき、

H(X)=Xp(x)logq(x;θ)

以下のように置き換えることができる。

H(X)~=1ni=1nlogq(x;θ)