2010-12-26

"道具としてのベイズ統計" 涌井良幸 著

統計学と言えば、一般的には数学に分類されるのであろう。確率論とも深くかかわるし。ただ、数学の中でも少々異質に思えるので、いまいち好きになれない。応用数学を学べば、解析学と結び付いて正規分布や誤差評価などに触れなければならないが、少々拒否反応を起こす。その源泉を遡れば人口分布や死亡統計などがあり、むしろ社会学や経済学に近い印象がある。しかも、結果を正規分布やポアソン分布などに無理やり当て嵌めようとする。モデリングに失敗すればまったく役に立たないのに...ド素人感覚で言えば、関数の直交性や対称性から地道に解析すればいいと思うのだが、おそらく複雑系を扱うような分野では、なんらかの法則や型に嵌め込んで近似する方が現実的なのだろう。つまり、いかに分布モデルに当て嵌めるかといったことに囚われ過ぎるあたりに、肌が合わない理由がある。
そんな統計学嫌いでも、ベイズ統計にはなんとなく興味がある。数年前から日常でお世話になっているからだ。お気に入りのツールの一つに、スパムメールのフィルタリングで活用しているPOPFileがある。これが、ナイーブ・ベイズ法というアルゴリズムの凄さを実感させてくれる。まず驚いたのが、2、3日でほぼ収束したことだ。一週間もすれば、誤り率は0.01%にも満たないだろう。このサンプル数の少なさで、これほどの実力が示せるのは、それなりの学習機能が具わっているに違いないと想像していた。
ところが、本書を読むとそれほど難しいアルゴリズムでもなさそうだ。確かに、POPFile自体は軽いツールである。ナイーブというからには単純化されているのかもしれない。あるいは個人で扱うメールのキーワードなんて、それだけ偏っているということか?ちなみに、このツールに一発で惚れた最大の理由は、嫌な奴からのメールをいきなりスパムと認識したことである。

本書は、ベイズ統計の入門書である。その名は18世紀後半のスコットランドの牧師トーマス・ベイズに由来するらしい。統計学は客観的な分析を主眼に置く世界だと思っていたら、いきなりベイズ統計は主観確率を支柱に据えているという。当時、数学的思考に主観性を持ちこむというだけで見下されたであろう。現在でもその風潮がある。統計データにも個性はあろうが、人間を取り巻く世界はますます複雑化し個性を抽出するのも難しくなってきた。しかも、社会学や経済学の現象では主観的要素が強いので、そういう分野を扱う方向性としては自然なのかもしれない。
その思考では、母集団全体の情報を必要とせず、不完全情報下での確率を求めるという従来の統計学とは真逆の発想がある。ちなみに、ベイズ統計は推測統計学に分類されるという。機械学習やデータマイニングなどと組み合わせると、推論の分野で強力な道具になりそうだということは想像している。
解析学で微分方程式や確率論が役立つのに対して、統計学では積分が重要な役割を果たす。確率分布は確率密度関数で表現され、その関数は平均値や分散などの形で積分的に表現される。本書にもその傾向が随所に現れる。ただ、例題でExcelを用いているところに少々抵抗がある。Excelが悪いツールとは思わないが、厄数2007に憑かれてから嫌いになった。まぁ、数値演算言語に置き換えて読むことは簡単なので、それほど目くじらをたてることもないかぁ。
しかーし、アル中ハイマーの理解力では肝心な事がウヤムヤで終わってしまった。入門書とはそうしたものであろうか。書かれていること自体に難しいところはないのだけど...もう一冊探してみるかぁ。ちなみに、ベイズ統計学派を「ベイジアン」と呼ぶそうな。こういういかにも経済学風の発想が嫌いなのだが...

1. ベイズの基本定理
本書は、乗法定理をちょいと変形しただけでシンプルな定理を説明している。その基本の考えは「条件付き確率」にあるという。
「ベイズ統計の基本公式: 事後分布は尤度と事前分布の積に比例する。」
まず、分布モデルに当て嵌める方法を紹介している。そして、その重要な概念に「自然な共役分布」があるという。事前分布を尤度と掛け合わせると、同形の分布、例えばベータ分布、正規分布、ガンマ分布などに事後分布が変換される時、その事前分布を尤度の「自然な共役分布」と呼ぶそうな。
また、尤度は、二項分布や正規分布やポアソン分布といった形に従う場合を扱っている。それぞれの分布モデルの組み合わせは、用途に応じて使い分けるようだが、その判断基準にベイズファクター(ベイズ因子)というものがある。それは「モデルの説明力」というものを尤度の総和で測るという。「モデルの説明力」とは、分布情報における個性の強さといったものであろうか、事後確率の母数についての確率の総和で示される。ちなみに、ベイズ統計における尤度とは、最尤推定法の尤度関数に相当するものらしい。「条件付き確率」の重ね合わせによって尤度関数の精度を上げていくようなイメージであろうか???

2. MCMC法
ベイズ統計は、推定の難しい複雑なモデルに対して強力な道具になるという。その鍵となるのが「マルコフ連鎖モンテカルロ法」という技術だそうな。これは、複雑な事後分布をそのまま計算するらしい。「マルコフ連鎖」とは、ランダムウォークを一般化した確率過程だという。完全なランダムウォークを記述することは不可能であろうが、もし記述するとすれば、すべての母数を対象にすることぐらいしか思いつかない。
ところが、マルコフ連鎖は一歩手前までの記憶情報を元にするだけでいいという。互いに隣の母数とのかかわりを持つだけで、二つ以上の母数の過去や未来に囚われない効率の良い関数のサンプリングが実現できるのだそうな。ちなみに、「モンテカルロ法」は、カジノで有名な地に由来する。
計算例では、サンプリングした点によって表れる関数の積分を、点列の総和で近似している。ただ、結局サンプリング数を多く取ることで精度を上げているようだ。サンプリング数を多くとれば複雑な関数になるが、コンピュータの性能に依存するところが大ということか。
また、「メトロポリス法」というものがあるという。分布の大きさに比例してサンプリング密度を変えるようだ。
サンプリング間隔を見極めながら、より効率的な演算量を模索するといった感じであろうが...

3. 階層ベイズ法
個性の見つけにくいデータ群を扱うには、多くの母数を駆使した複雑な統計モデルが必要となろう。モデルが収束しなければ母数を多く必要とするというような発想は現実的ではないのだろう。伝統的な統計学では、できるだけ単純なモデルに当て嵌めることを考える。母数が少なければ計算量も少なくできる。例えば、正規分布を仮定して、平均値と分散だけで統計モデルを決定できればありがたい。
その逆に、十分多くの母数を用意する考え方が、「階層ベイズ法」だという。コンピュータの性能が高まったことで、なせる技というわけか。とはいっても、例題では、事前分布を二項分布や正規分布などのモデルを仮定し、すべての母数で共通の特徴を数値化したものと、各母数の特有性を数値化したものを組み合わている。なんらかのモデルを仮定して、共通と個性の二面から解析し、差分を分析するような感じである。集団としての傾向が弱いということは個性が強過ぎるわけで、単に母数を増やすだけでは発散してしまいそうだ。結局、なんらかの統計モデルを仮定するしかないのかもしれない。
一方でモデルを仮定しながら、一方で個性の母数を増やすといった手法を組み合わせながら解析するイメージであろうか???

0 コメント:

コメントを投稿