先日、とある研修に参加した際に、
「-LogPとは、情報量である」という理屈を直感的に理解できる考え方を教わったので紹介します。
結論、情報量とは驚き度合いを数値化したものであり、-LogPのグラフを見ると理解しやすいです。
Pとは?
Pとは、確率です。
例えば、P(X)とは、Xが起こる確率を示します。
確率なので、値は0<=P<=1の範囲に収まります。
-LogPとは?
-LogPとは、情報量を数値化したものです。
数式だけ見てもわからないので、グラフを表示してみます。
横軸は確率Pです。確率なので、0<=P<=1となります。
(今回は、Excelで自作したのでPの最小値は0.001となっています。)
縦軸は情報量です。値は-LogPをとります。(底は10)
今回は0.001~1.000の値となっているので、-LogPは3~0となっていますが、
実際の確立は0を含むので、-LogPは∞から0をとります。
なぜ-LogPが情報量になるのか?
まず、「-LogPは情報量である」というより、「情報量は-LogPを使うと表現しやすい」と捉えると良いです。
そして、情報量とは、驚きの度合いを数値化したものだと考えれば理解しやすいです。
理解しやすいように、先ほどのグラフにヒントを付け加えたものを表示します。
例えば、ある事柄が高い確率で発生するとします。
グラフで言うと、発生確率が高いので横軸は1に近い値になります。
そのような高い確率で発生する、しょっちゅう起こる事柄から得られる情報は、既知か、良くあることなので、まったく驚きを伴わず、情報量としては少なくなります。
そのため、グラフでも横軸が1に近い値の場合は、縦軸の情報量は0に近い値をとります。
逆に、ほとんど発生しない別の事柄を考えます。
グラフで言うと、発生確率が低いので横軸は0に近い値になります。
そのような低い確率で発生する、めったに起こらない事柄から得られる情報はとても珍しく、驚きをもって捉えられるので、情報量としては多くなります。
そのため、グラフでも横軸が0近い値の場合は、縦軸の情報量は高い値をとります。
まとめ
-LogPが情報量を表すことを直感的に理解するための記事でした。
普段使っていない対数(Log)などが急に出てくると、思考停止してしまい式の意味を理解できなかったりしますが、このようにグラフ化して意味をきちんと考えると納得できることが多かったりします。
「確率の対数は情報量である」ということは、直感的には理解できますが、最初にこの式を考えた人はすごいなぁと思いますね~
このような、数学者が作ってくれた式を我々は正確に理解しうまく使いこなす必要がありますね。
以上!
コメント