jyanjayakaの日記

はやめのリリース、しょっちゅうリリース

中心極限定理は誤差論の基本定理と見るべきだ

誤差の共通性質としての中心極限定理

例えばある測定を行うとしよう。

測定を正確に行えるよう、最新の注意を払うが、測定には誤差がつきものだ。

誤差には二種類ある。それは人為的誤差と、本質的誤差である。実験装置の設定不良などの、測定者の注意不足によって生じるものが人為的誤差である。一方、どのように注意深く実験状況を整えても拭うことのできない誤差が本質的誤差である。例えば望遠鏡で星を観測するとき、地球大気のゆらぎによる測定誤差が生じるが、これは観測者には制御できない誤差である。他にも様々な誤差の要因を考えることができる。一般に、誤差というのは様々な要因から生じたものが幾重にも重なって生じているのである。

こうしてどんな測定についても結果には(本質的)誤差が生じるが、その誤差にはどうやら共通性があるように見える。我々は多数の測定の結果を平均したものを、実験の結果として結論するから、測定の平均値と真の値との差を誤差と定義して、グラフ化してみると、だいたいこのようなグラフになる:

 

f:id:ziguzaku:20171015121328p:plain

 

誤差0が最も多く、誤差が大きくなればなるほどその数は少なくなってゆく。

世の中には様々な実験や測定があり、結果は種々のグラフにまとめられる。が、そこに生じる誤差に注目すると、上に示したような似通ったグラフが得られる。つまり誤差には様々な種類があるのではなく、ある単一の法則性に従っているように見えるのだ。誤差の法則性! 誤差とは我々には制御できないものなのに、そこに法則性があるとは。なんとも矛盾した物言いに聞こえるが、正確に予言できないものを予言する道具があった。それは確率論だ。そして実際、誤差を統治するいわゆる中心極限定理は、確率論によって定式化される。

 

中心極限定理

 X_1, X_2, \cdots, X_nを同じ確率分布に従う独立な確率変数とする。(要はある測定をn回繰り返すということだ。)この時新しい確率変数 Y_n

 \displaystyle{Y_n = \frac{X_1+ X_2 + \cdots + X_n}{n}}

で定義する。 Y_nはn回測定の平均値である。これが上で言うところの測定結果である。

次に確率変数 Z_n

 Z_n = Y_n - E[X]

で定義する。 Z_nは測定値 Y_nと真の値 E[X]との差であるから、測定の誤差を表している。このまま進んでも良いのだが、我々の目標は誤差の性質を明らかにすることであるから、ここにもう一工夫する。測定回数nを増やせば誤差の幅は小さくなる。これは誤差の性質の一つではあるのだが、このこと自体は大数の法則で既に示されている。今注目している誤差の性質とは関係ない。1万回の測定と100万回の測定を比べれば、確かに誤差の幅は小さくなるが、そのことはもう分かっていて、ある意味で当たり前で、今興味があるのは幅の大きさではなく、その分布である。

そこで、誤差の幅という目障りな因子を排除し、純粋に今見たい誤差の性質だけを取り出すため、 Z_n

 Z_n = \sqrt{n} (Y_n - E[X] )  

で定義し直そう。 \sqrt{n}倍したことで回数を増やしても誤差の幅が変わらなくなった。

中心極限定理とは

 Z_nはnを増大させた極限で正規分布 N(0, \sigma^2)に収束する。

という定理である。(ただしここで V[X] = \sigma^2。)こうして我々は誤差の分布が持つ本質的性質というものを知るに至った:

 十分大きなサンプル数で測定を行えば、その測定の誤差値の分布は正規分布に従う。

逆に言えば、小さなサンプル数の測定における誤差分布は、正規分布に従うとは必ずしも言えない。