2012-11-11

"確率論の基礎概念" A. N. Kolmogorov 著

確率論といえば、ギャンブルの公理化というイメージがある。まぁ、それほど的外れでもあるまい。実際、事象が移り行く中で、その選択と結果によって成り立つ理論である。それが人為的であろうが、偶発的であろうが。過去の負けを引きずればマルコフ性を見失い、大局ではエルゴード性を示しながら賭け筋の本質、いわば性格や癖を露わにする。すべての結果を同時に体験することはできないし、いつも時間の方から判断を迫ってくる。うっかりしていると時は無意味に流れ、やり直しもきかない。まさに人生そのもの。そして、こんな不等式がいつも成り立ってやがる。

  人の欲望 ≧ 生きる時間

不等号が絶対に逆向きにできないのは、エントロピーの仕業かは知らんが、時間の収支が常に赤字であることははっきりしている。
さて、これを数学的に言うと、集合論の延長、いや、集合論の特化した理論とすることができよう。そこには、二つの重要な概念がある。一つは、独立性。事象の選択において、存在するかしないか、あるいは複数の状態に対してどちらかに転ぶということ。すなわち、事象族は和集合に限定でき、積集合にはならないということである。二つは、事象族が集合体をなすこと。すなわち、加法定理の世界に閉じられるということである。確率空間が集合体で定義されるのは都合がいい。結果も条件もすべての事象が有限加法族に属すとできるのだから。ただし、「条件つき」という概念が絡むと一概には言えないかもしれない。分布関数では条件別に検討しながら積で連結することになり、乗法定理を無視するわけにはいかない。たとえ、これら二つの概念によって完璧に説明できないにしても、確率論を基礎概念の観点から眺める上で、この方面からアプローチするのは取っ付きやすい。そして、有限空間から無限空間への拡張を論じることになる。また、集合論から特化できる法則が完璧に提示できるわけでもない。少なくとも、確率論は集合論の部分集合とすることはできそうか。
「2回またはそれ以上の回数の試行が、互いに独立であるという概念は、ある意味で確率論の中心的課題となるものである。実際すでに見てきたように、数学的観点に立てば、加法的集合関数の一般論をある特殊な場合へ適用したものが確率論である。」
本書には、アンドレイ・コルモゴロフの論文「確率論における解析的方法について」が併録される。ただ、基礎概念まではなんとか付いて行けるものの、実践例として紹介される解析的方法論に突入した途端に暗闇へと放り込まれる。やはり、数学の落ちこぼれを再認識させられる運命は変えられそうにない。

一般的な分布モデルは、時間の関数と捉えることができるだろう。そして、瞬間 t1, t2,... において、t0 ≦ t1 < t2 < ...の関係で考察することになる。また、事象の独立性の強弱、すなわちマルコフ的かどうかが重要な判断基準となる。あるいは、試行回数への依存性、すなわちエルゴード性を検討することも欠かせない。こうした考察は、「大数の法則」の適用限界から論じられる。
さらに、確率論には「抽象ルベーグ積分」が欠かせないという。期待値を抽出する上で積分的な思考が鍵となるのは想像に易い。極限の存在する集合体であれば、積分操作を可能にするのだから。ここでは、リーマン積分をかなりの部分で改善した考え方を提示してくれる。しかし、確率空間で連続性を前提にしているが、現実には積分不可能な領域もあろうに。ユークリッド空間上に存在する集合体であれば、なんらかの測度で幾何学的に記述できると仮定しているのだろうか?抽象ルベーグ積分の性質を眺めていると、なんでもありに見えてくる。実際、「すべての有界な確率変数は積分可能である。」と断言している。
また、「0-1法則」が付録されるのは、極限確率が 0 か 1 になるケースが基本ということであろうか?確率過程の生存定理として眺めれば、そうかもしれない。
本来、数学とは解釈の余地を与えないものであるが、基礎概念のレベルで解釈しようと躍起になっているところに数学のセンスの無さを思い知らされる。さて、分布関数が連続積分で定義できるならば、ラプラス変換に持ち込めて話は早い。とはいっても、変換表に頼るしかないけど。どうせ数学の落ちこぼれには、結果を鵜呑みにして使ってみるぐらいしかできないのよ。工学系とはそういう世界ではあるのだけど。理屈を知らずに実践することの恐さというものを痛感してきただけに、なんとかしたいものだが...
現実の世界では、ほとんど条件つき確率に支配されるだろうが、その条件の抽出が難しい。限られた条件で推測しようとすれば、極限の大小関係を考察することになる。そして、あの忌わしいε-δ論法的な思考が要求される。ここに登場する数式も不等式の山!おっと、アレルギーが...

ところで、確率ってやつは、基礎理論は単純でも、それを用いるとなると手強い!いくら立派な公理化を示しても、実践した途端に主観に支配されギャンブルに引きずり込まれる。条件を抽出するのは人間の直感なのだから。あらゆる科学的研究がこのジレンマに陥る。気象予測や市場予測といったあらゆるシミュレーション結果が思惑から大きく乖離すると、研究成果に疑問が持たれ予算がつかない。そこで、研究者は条件パラメータを微妙にいじりながら、思惑の範疇に結果を収めようとする。実際、世界最高レベルのコンピュータが弾き出した結果ですら、政治的思惑で揉み消される。人間とは、賭け事となると豹変し、目の前にある不都合な条件が見えなくなる生き物らしい。いまだ人類は、主観と客観を調和させることができないでいる。それが重要だと知りながら。確率論とは、直感を直観に昇華させる試みとでも言っておこうか。直観を研ぎ澄ますことができれば、あるいは確率論を決定論的モデルへと昇華させるかもしれない。そして、神の思惑が見える?かは知らん。

1. 公理系とベイズの定理
まず、確率空間を定義する。要素ωの集合をΩ とし、Ωの部分集合を要素とする集合族を とする。この時、ωを根元事象、Ωを標本空間、 の要素が確率事象である。

Ⅰ. は集合体である。
Ⅱ. の各集合Aに、非負の実数P(A)を定め、これが事象Aの確率である。
Ⅲ. P(Ω)= 1
Ⅳ. AとBが共通の要素をもたないとき、P(A + B) = P(A) + P(B)

上記公理を満たす3つの組 (Ω、、P) が確率空間である。
がΩと空集合からなるとすると、P(Ω) = 1, P(∅) = 0 となる。
しかしながら、この公理系は完全ではないという。実践してみると、様々な例外的な確率空間が考えられるようだ。
確率論では、現実世界に対して、ある事象が起こる確率と起こらない確率で抽象化する。しかも、確率は、何回でも繰り返し、階層構造として捉えることができる。この特徴は独立性と相性がいい。
A, B, ... , N が互いに排反であれば、加法定理が得られる。

  P(A + B + ... + N) = P(A) + P(B) + ... + P(N)

ここで、P(A) > 0 の時、条件付き確率を定義する。

  P(B|A) = P(AB) / P(A)

すると、次式が得られる。

  P(AB) = P(B|A) P(A)
  P(A12...An) = P(A1) P(A2|A1) P(A3|A12) ... P(An|A1...An-1)

つまり、条件付き確率は乗法定理で定義できる。
さらに、ごく当たり前の操作で変形していくと、次式が得られる過程を示してくれる。

  P(AB) = P(A|B) P(B)
  P(A|B) = P(A) P(B|A) / P(B)

これはベイズの定理に他ならない。

2. 確率変数
基礎集合 Ω = A1 + A2 + ... + Am と、関数ξ(ω) を対応させる。

  ξ(ω) = Σ xAi(ω), (1 ≦ i ≦ m)

Ai は集合の定義関数で、
  ω ∈ Ai ならば、Ai(ω) = 1
  ω ∈ Aic ならば、Ai(ω) = 0
尚、Aの補集合を、Ac で表す。この時、ξを有限個の値 x1, x2, ..., xm を確率変数と定義する。さらに、変数ξの期待値を次式で定義する。

  Eξ = Σ xP(Ai), (1 ≦ i ≦ m)

また、確率密度は分布関数 ξ(x)の導関数で定義される。

  fξ(x) = dξ(x) / dx

もちろん、微分可能であればだけど。変数列が収束すれば確率も収束し、確率が収束すれば期待値も導けるという仕組みであろうか。

3. 無限確率空間とボレル集合体
無限確率空間では、連続性の公理を前提すると宣言される。そして、公理Ⅴが定義される。

Ⅴ. の事象の減少列 A1 ⊇ A2 ⊇ ... ⊇ An ⊇ ... について、
    積集合 ∩An = ∅ ならば、lim P(An) = 0

しかしながら、加法定理からすると、次式が成り立つ。

  P(A) = P(A1) + P(A2) + ... + P(An) + P(Rn)

尚、Rnは、Rn = ΣAm (m > n) で抽象化したもの。
ん???独立な無限確率空間では、確率が 0 に収束しながら、加法定理に留まるということか?有限界では無矛盾に見えても、無限界に拡張した途端に完全な公理系ではないことを匂わせる。このあたりが確率論を難しくさせるところであろうか。
そして、「ボレル集合体」が紹介される。すべての開集合から生成される完全加法族で、集合ωの部分集合からなる集合体 に含まれる集合Anのすべての可算和 ΣAn もまた に含まれる集合体のことだそうな。その公式は、こうなる。

  和集合 ∪An = A1 + A21+ A32c1c + ...

尚、Aiの補集合を、Aic で表す。

4. 抽象ルベーグ積分とチェビシェフの不等式
条件付き期待値を、乗数の精度内で積分と一致させるようなことを考える。抽象ルベーグ積分の性質では、すべての有界な確率変数は積分可能だという。というより、そのように持ち込むのだろう。そして、次のことが導かれるという。

Ⅰ. |Eξ| ≦ E|ξ|
Ⅱ. ξ(ω)が積分可能として、0 ≦ η(ω) ≦ ξ(ω) であれば、η(ω)も積分可能で、Eη ≦ Eξ
Ⅲ. inf ξ(ω) ≦ Eξ ≦ sup ξ(ω)
Ⅳ. 実数 K, L において、E(Kξ+Lη) = KEξ + LEη
Ⅴ. 級数 ΣE|ξn| が収束すれば、E(Σξn) = ΣEξn
Ⅵ. ξ, η が同値ならば、Eξ = Eη
Ⅶ. すべての有界な確率変数は期待値をもつ

また、チェビシェフの不等式を紹介してくれる。実変数xの非負の関数f(x)において、x ≧ a の時、f(x)の値は、b > 0 より小さくなることはないものとする。すると、任意の確率変数ξ(ω) について、期待値Ef(ξ)が存在すると仮定すると、次式が成り立つという。

  P{ξ(ω) ≧ a} ≦ Ef(ξ) / b

さらに、特別に重要なケースは、f(x) = x2 の時だとし、次式が導かれる。

  P{|ξ(ω)| ≧ a} ≦ Eξ2 / a2

これが、チェビシェフの不等式と呼ばれるものらしい。確率変数ξ(ω)に対して確率の下限が規定できるということか。んー...証明はにわかに信じがたいが、結果は貴重である。

5. 大数の法則
確率変数の列 η1, η2, ..., ηn, ... において、任意の正数 ε に対し n → ∞ の時

  P{|ηn - dn| ≧ ε} → 0

となる数列 d1, d2, ..., dn, ... が存在する時、確率変数 ηn「安定」であるという。
また、すべての期待値 Eηn において

  dn = Eηn

とおくことができる時、安定性は「正規」であるという。
「有界な変数列の安定性は正規でなければならない。」
また、ε に対して n → 0 の時、確率変数 ηn - dn が 0 に収束するような、すなわち、次式が成り立つような場合

  P{lim(ηn - dn) = 0} = 1

確率変数 ηn「強安定」であるという。ここでは、試行回数への依存性を検討していることになる。個々の試行が、大きな試行回数 n に対して、依存が小さい時、変数 ηn は安定していることになる。つまり、マルコフ的。これは、エルゴード性の評価に使えそうだ。そして、生命保険会社は、大数の法則を当てにする。

6. 0-1法則
0-1法則とは、極限確率が 0 か 1 に限られる一般定理のことらしい。
任意の確率変数 ξ1, ξ2,... において、f(x) = f(x1, x2,...) は、変数 x = (x1, x2,...) のベール関数とする。そして、最初の n 個の変数 ξ1, ξ2, ..., ξn が既知であるとする。
これらの条件の下での関係
  f(x1, x2, ..., xn, ...) = 0
が成立する条件つき確率
  P{f(x1, x2, ..., xn, ...) = 0 | ξ1, ξ2, ..., ξn}
が、各 n について、絶対確率
  P{f(x1, x2, ...) = 0}
に等しいとすると、絶対確率は、0 または 1 になるという。
結果的に、確率が極端になるケースはよくある。存在するか存在しないかという問題も、0 か 1 に収束する。しかし、これを予測の段階で断言することは難しい。断言できるいくつかの事例が、レヴィによって発見されているそうな。

7. 確率過程と正規分布
「なんらかの物理システムにおいて、ある時刻 t0 での状態 X0 がわかるとき、時刻 t > t0 にとりうるこのシステムのすべての状態 X の確率分布がわかるのであれば、この物理過程(システムの変化)は"確率的に規定される"という(この過程を確率過程という)。」
確率過程という用語は当たり前のように使っているが、意外と説明するのが難しいことに気づかされる。通常、確率過程は、時間で区切った離散系列と見なすところがある。実際、出来事をスナップショットのように思い浮かべる。しかし、ここでは時間の連続性が暗示される。連続過程を前提するから、微分方程式に持ち込めるのだけど。
本書は、ラプラスの正規分布は自然で無理のない簡潔なものだという。そして、論文「確率論における解析的方法について」の中で、ラプラスの一般公式からポアソン分布を得る事例が紹介される。そして、級数
  a = ΣkPk, b2 = Σk2k
が絶対収束すれば、次のラプラスの一般公式の適用可能性の条件が問題になるとしている。

  Pkp = 1 / {b√(2πp)} exp [- (k - pa)2 / 2pb2 ] + o(1 / √p)

この式が正規分布の確率密度関数を予感させると言えばそうなんだけど、自然で簡潔な形と断言できる感覚は宇宙人か?確率過程の基本モデルが正規分布にあるにせよ、拒絶反応を増幅される結果に終わるのであった。はぁ~...

0 コメント:

コメントを投稿