jyanjayakaの日記

はやめのリリース、しょっちゅうリリース

中心極限定理は誤差論の基本定理と見るべきだ

誤差の共通性質としての中心極限定理

例えばある測定を行うとしよう。

測定を正確に行えるよう、最新の注意を払うが、測定には誤差がつきものだ。

誤差には二種類ある。それは人為的誤差と、本質的誤差である。実験装置の設定不良などの、測定者の注意不足によって生じるものが人為的誤差である。一方、どのように注意深く実験状況を整えても拭うことのできない誤差が本質的誤差である。例えば望遠鏡で星を観測するとき、地球大気のゆらぎによる測定誤差が生じるが、これは観測者には制御できない誤差である。他にも様々な誤差の要因を考えることができる。一般に、誤差というのは様々な要因から生じたものが幾重にも重なって生じているのである。

こうしてどんな測定についても結果には(本質的)誤差が生じるが、その誤差にはどうやら共通性があるように見える。我々は多数の測定の結果を平均したものを、実験の結果として結論するから、測定の平均値と真の値との差を誤差と定義して、グラフ化してみると、だいたいこのようなグラフになる:

 

f:id:ziguzaku:20171015121328p:plain

 

誤差0が最も多く、誤差が大きくなればなるほどその数は少なくなってゆく。

世の中には様々な実験や測定があり、結果は種々のグラフにまとめられる。が、そこに生じる誤差に注目すると、上に示したような似通ったグラフが得られる。つまり誤差には様々な種類があるのではなく、ある単一の法則性に従っているように見えるのだ。誤差の法則性! 誤差とは我々には制御できないものなのに、そこに法則性があるとは。なんとも矛盾した物言いに聞こえるが、正確に予言できないものを予言する道具があった。それは確率論だ。そして実際、誤差を統治するいわゆる中心極限定理は、確率論によって定式化される。

 

中心極限定理

 X_1, X_2, \cdots, X_nを同じ確率分布に従う独立な確率変数とする。(要はある測定をn回繰り返すということだ。)この時新しい確率変数 Y_n

 \displaystyle{Y_n = \frac{X_1+ X_2 + \cdots + X_n}{n}}

で定義する。 Y_nはn回測定の平均値である。これが上で言うところの測定結果である。

次に確率変数 Z_n

 Z_n = Y_n - E[X]

で定義する。 Z_nは測定値 Y_nと真の値 E[X]との差であるから、測定の誤差を表している。このまま進んでも良いのだが、我々の目標は誤差の性質を明らかにすることであるから、ここにもう一工夫する。測定回数nを増やせば誤差の幅は小さくなる。これは誤差の性質の一つではあるのだが、このこと自体は大数の法則で既に示されている。今注目している誤差の性質とは関係ない。1万回の測定と100万回の測定を比べれば、確かに誤差の幅は小さくなるが、そのことはもう分かっていて、ある意味で当たり前で、今興味があるのは幅の大きさではなく、その分布である。

そこで、誤差の幅という目障りな因子を排除し、純粋に今見たい誤差の性質だけを取り出すため、 Z_n

 Z_n = \sqrt{n} (Y_n - E[X] )  

で定義し直そう。 \sqrt{n}倍したことで回数を増やしても誤差の幅が変わらなくなった。

中心極限定理とは

 Z_nはnを増大させた極限で正規分布 N(0, \sigma^2)に収束する。

という定理である。(ただしここで V[X] = \sigma^2。)こうして我々は誤差の分布が持つ本質的性質というものを知るに至った。

大数の法則

ある実験を繰り返し行なった時、得られる結果の平均値がある値に近づいてゆくことが、観察されている。例えばコイントスの実験を1万回も行えば、表の出た回数の平均値は1/2付近となる。ここまでは確率論は全く関係ないことに注意する。これは一つの事実であり、確率は関係ない。ここまでは実験を繰り返し行うと、結果の平均値がある値に近づいてゆくように見える、という事実を述べているに過ぎない。確率論がどう言おうとも、この事実を変えることは出来ない。*1

 

この経験的な事実を確率論の枠組みで理論的に裏付け、説明するのが、大数の法則である。これは別に特殊なことをやっているのではなく、他の科学理論でも一般に行われていることである。例えば物理学では原子論という枠組みを使って、気体持つ性質を説明する。現実に対して何かモデルを構築し、それによって現実を説明するという科学の基本姿勢は変わらない。要するに、確率論は偶然という物理現象(と呼ぶのは些か抵抗があるが)についての理論だと考えれば良い。*2

 

大数の法則

要は、

平均値は確率に収束する。

*1:もしこの事実を疑うなら、自分でコイントスを1万回ほどやってみれば良い。ちなみにやったことがあるが、途中から苦行になってくる。

*2:ただしこの見方はだいぶ古典的確率論に偏っている。なぜなら現代的確率論では確率とは単に集合の大きさを測定する方法の一つであり、必ずしも現実と整合性が取れている必要がないからである。

古典的確率論と現代的確率論について

古典的確率論について

古典的確率論は確率を直感的に定義する:

 \displaystyle{(事象Aが発生する確率) = \frac{(事象Aのイベント数)}{(全イベント数)}}

この定義に従えば、原理的にはイベント数を「数える」ことで確率を計算することが出来る。古典的確率論で専ら興味があるのは個々の事象についての確率を求めるということである。(だから試験にはもってこいだ。「~の確率を求めよ」という問題が自然に出てくる。)

 

現代的確率論について

現代的確率論においては、確率は求めるものではなく、既に与えられているものと考えられている。そして、その上に何が築けるかに興味がある。

現代的確率論で言う確率とは、集合の「大きさ」を何らかの尺度(今の場合は「事象の起きやすさ)を元に与えるモノ=集合関数*1だと、非常に抽象化して捉えている。この視点に立つと、古典的確率論が扱う「確率」は、確率と呼ばれる集合関数を定義する一つの方法論を与えているに過ぎないことになる。実際、古典的確率は「全体に対する集合Aの割合」として集合Aの「大きさ」を測る。しかし一般には「割合」である必要はどこにもない。とは言っても、古典的確率論は現実世界に対する良いモデルを与えてくれるので、応用上役に立つ。

 

*1:集合に対して値を対応させる写像

統計学を現実世界に適応するための仮定について

統計学は、他の様々な現実を説明しようと試みる理論と同じく、現実に対して何らかのモデルを用意する。そのモデルが現実を上手く表現できていればいるほど、統計学は現実に対して有効な記述を行うことが出来る。

 

統計学が用意しているのは、個々のモデルについての理論的枠組みであって、それが実際に現実に当てはまるかどうかはこちらの判断に委ねられている。

こういう事情は例えば幾何学にもある。ユークリッド幾何学は数学的な理論であるが、これは現実の空間に対する精度の良いモデルとして用いられている。しかし、より精度の高いモデルも提案されていて、それは一般相対性理論を背景とした、リーマン幾何学*1である。

ユークリッド幾何学が我々の現実とどれだけ乖離しているのかという問題は、ユークリッド幾何学というモデルで考察できる範囲を超えている。それは物理学等が答えるべき問題である。

統計学も同じことなのだが、我々の直感から構成されているユークリッド幾何学と違って、統計学の提供するモデルを現実に当てはめることには、しばしば精神的ギャップを覚えることがある。

 

 

*1:正確には擬リーマン幾何学

確率論

確率というのは物事の起こりやすさを数値化したものである。

 

物事には起こりやすいものと、そうでないものがある、というのは経験的な事実である。そこでこの起こりやすさを数値化しようというのが、確率の基本的なアイデアである。

 

面白いのは、物事の起こりやすさを調べるだけで、2つの物事の関係性調べることが出来るという点である。

例えばAが起きたら確実にBが起きるという場合、AとBには何らかの関係があると言っていいだろうし、逆に、Aが起きようが起きまいが、Bが起きる確率に変化がない場合、AとBの間に関係があるというのは無茶だろう。

 

こうして、確率を使えば、物事の関係性や因果関係などを調べることが出来る。

 

この考え方を今のように定性的な表現から、確率論の枠組みのなかで数量的に定式化したのがベイズの定理である。

 

 

 

ガロア理論4

3乗根について

「3乗してAになる数」をAの3乗根と呼ぶ。

一般にこれは3つあって、その中の一つを我々が選んで {}^3 \sqrt{A}と表すことになる。問題は {}^3 \sqrt{A}を3つのうちどれにするか広く知られた基準が存在しないということだ。Aが実数であれば {}^3 \sqrt{A}をAの3乗根の中で実数のものとするというのが整合性の取れた自然な方法であるが、Aが実数でなければ、そのような方法は存在しない。

といってもこれはそこまで深刻な問題ではなく、こちらが勝手に決めていいのだから、場合によっては便利である。一度 {}^3 \sqrt{A}を決めた後はそれを変えないことだけを意識していれば良い。

また、これら三つを複素平面上で見てみると、

 {}^3 \sqrt{A},{}^3 \sqrt{A} \omega,{}^3 \sqrt{A} \omega^2

という関係のあることが分かる。ただしここで \omega複素平面上で120°回転を表す複素数である。*1 

*1:代数の文脈で言えば \omegaは1の3乗根に他ならない。

ガロア理論3

3次方程式の解の公式を求める

3次方程式

 x^3 + a_2 x^2 + a_1 x + a_0 = 0

の解の公式を求めてみよう。

3次方程式でも当然xの分離の問題を解決する必要がある。そこで、2次方程式で上手く行った方法を3次方程式でも使えないか考えてみる。2次の場合は平方完成を用いた。3次の場合では立方完成とでも呼ぶべきだろうか。

適当な変数変換

 x = Ay + B

を行うことによって、2次と1次の項を同時に消滅させることが出来れば良い。もちろんもっと一般的な変数変換を行うことも可能だが、とりあえずまずは平方完成の場合に沿った形での1次変数変換を考えている。

しかしよく考えると一般性を失わずにA=1と仮定して良い。*1

 このような変数変換を与えるBが存在しないことは、計算によって直接確かめることが出来る。計算は何のテクニックも必要ない初等的なものなので省略するが、結局変数変換

 x = y +B

を施すと、yの2乗と1乗の係数はそれぞれ

 a_2 + 3B

 3B^2 + 2a_2 B + a_1

となる。

この両式を満たすBは一般に存在しない。

これは考えてみれば計算するまでもなく分かることで、我々は一つの変数Bを使って、2つの変数 a_2, a_1を消去しようとしているのだから、上手くいくはずがない。上手くいくのは a_2, a_1の間に特別な関係のある場合だけだが、それは一般的ではない。したがって立方完成は一般には不可能である。

しかし今の考察から分かるように、一つの変数Bを用いれば、一つの変数を消すことが出来ることは期待できる。そこで a_2, a_1のどちらを消去するか選ぶわけだが、 a_1は常に消去できるわけではない事がわかる。というのは 3B^2 + 2a_2 B + a_1=0はBについて2次式であるから、場合によってはBが実数でなくなる可能性があるのだ。我々は今のところ、実係数の方程式を考えているからこれはよろしくない。変換後も方程式は実係数であることが望ましい。そこで消去するのは a_2ということになる。 a_2 + 3B=0はBについて1次であるから問題ない。これをBについて解くと

 \displaystyle{B = - \frac{a_2}{3}}

となる。

 結局、最初の3次方程式

 x^3 + a_2 x^2 + a_1 x + a_0 = 0

は、変数変換

 \displaystyle{x = y - \frac{a_2}{3}}

を行うことで、2次の項が消去された

 y^3 + py + q = 0

という方程式に書き換えることが出来ると分かった。

 p, qはもちろん a_2, a_1のある組み合わせなのだが、それは特に重要ではない。我々は一般に

 y^3 + py + q = 0

という3次方程式が解けるかどうか考察するからである。

さて、それではこの3次方程式はどうやって解いたらよいだろうか。

 

テクニックについて

これからその方法を見てゆくわけだが、これは単にテクニックの問題である。つまり上手い式変形を重ねることで、既に解き方のわかっている方程式へ還元するという方法論だ。そのためには、もちろん第一にその「上手い式変形」を見つけなければいけないのであるが、それは当然難しい。(難しくなければ「上手い」などと言われない!)そこで、天才のひらめきや、長年の努力が必要になってくる。

そういうテクニックを鑑賞するのも楽しいのだが、我々の目標は方程式というものの本質的な理解を推し進めることにある。だから、どんなに派手なテクニックでも、それがある特定の場面でしか使えないのであれば、あまり価値があるとは言えない。「役に立つが3次の場合にしか使えない」といったもののことだ。それよりもどんな次数の方程式にでも適用できる、普遍的な考え方、フレームワーク=理論の方が好ましい。

しかし、理論は帰納によって生まれるのであるから、個々のテクニックを蔑ろにする訳にはいかない。3次のテクニック、4次のテクニックを見て、それらがなぜ上手く行くのか、その背後にあるより普遍的な構造は何なのかを考察することで、理論が深まってゆく。*2なのでそもそも3次、4次のテクニックが見つかっていなければ、普遍的な理論など出来ないのだ。

理論が出来る前、そこは天才のひらめきが支配する混沌とした世界である。だが、一度理論が完成し、概念が整理され、視界がひらけてしまうと、かつてのテクニックはただのアルゴリズムとなり、ひらめきはシステムの影に消えてしまう。しかしそれでも先人達が未開の世界へ飛び込み、道を作らなければ理論は出来ないのである。

 

簡約化された三次方程式 y^3 + py + q = 0の解法

それではテクニックを鑑賞しよう。

まず

 y = u + v

とおく。これを方程式に代入して整理すると

 \left( u^{3}+v^{3}+q\right) +\left( 3uv+p\right) \left( u+v\right) =0

となる。これをu,vについての方程式と見て、u,vを求めることができれば、u+vで元の方程式の解も求まる。解が一つ見つかれば方程式を因数分解出来るから、後は2次方程式を解くだけである。つまり最初の解を見つけるのが問題なのだ。

方程式が一つで変数が二つあるから、この方程式を満たすu,vの組みは一般には無数にあると考えられる。そこで、それらの組みの中から、特に分かりやすい解、つまり

 u^{3}+v^{3}+q=0

 3uv+p=0

を満たすものを選ぶ。下の式を3乗してやれば、 u^3, v^3

 \displaystyle{t^{2}+qt-\dfrac {p^{3}}{27}=0}

という2次方程式の解だと分かる。(解と係数の関係。)

この2次方程式の解を t_1, t_2とする。ここから先へ進む前に、冪乗根について復習しよう。

 

(次回へ続く)

*1:仮にこの変数変換で、3次式が

 A^3 y^3 + C = 0

と書き換えられたとする。更に変数変換

 y = z/A

を行うことで

 z^3 +C = 0

となる。二度の変数変換は結局一つの変数変換

 x = z + B

にまとめることが出来る。よってAは最初から1としてよい。

*2:方程式論で言えば、それはラグランジュによって行われた。それ以前に知られていた方程式の解法を詳細に分析することで、その背後にある普遍性を見つけたのだ。