2024-07-28

"集合知プログラミング" Toby Segaran 著

原題 "Programming Collective Intelligence"
"Collective Intelligence" を機械翻訳にかけると「集合知」と出る。なにやら宝の山を思わせるような...
しかし、情報をただ集めるだけでは、大衆の叡智に体臭がたちこめ、情報過多シンドロームを患う。集合知の元になるのは確かにデータだが、きわめて流動的で、こいつを活用するのは至難の業。それには知を高めてこそ...

本書は、統計情報に機械学習のアルゴリズムが絡んでいく物語である。データの収集やパースのやり方、効率的なデータ構造の持ち方、あるいは、ネット上に公開される API の利用など、いわば機械学習の入門書といったところ。
サンプルコードでは Python が採用され、プリミティブ型では List と Dictionary が多用され、可読性もいい。そして、データ収集、分析のためのライブラリ群を紹介してくれる。
尚、當山仁健、鴨澤眞夫訳版(オライリー・ジャパン)を手に取る。

登場するアルゴリズムは、大きく分けて「教師あり学習」「教師なし学習」の二つ。
教師あり学習では、ベイジアンフィルタ、決定木、K 近傍法、ニューラルネットワーク、サポートベクトルマシン(SVM)が...
教師なし学習では、クラスタリング、多次元尺度構成法、非負値行列因子分解、最適化が...
これらのアルゴリズムに、ユークリッド距離、ピアソン相関係数、Tanimoto 係数、ドット積(内積)、条件付き確率、エントロピー、ガウス関数といった数学が絡んでいく。
要するに主に問われている事は、データの関連性とその距離や確率、そして、これらの次元的マッピングや可視化である。こうした図式化は、人口分布、流行予測、株式市場の動向といった現象と重なり、行動経済学的ですらある。

具体的な事例は、購入やレンタルした商品の情報からユーザに推奨する方法、膨大なデータから類似したアイテムを発見してクラスタリングする方法、数多くの解決策の中から最適なものを選ぶ方法、オークションの最終価格を予測する方法、カップルになりそうなペアを探す方法など。
例えば、Amazon で本しか買っていなくても、類似のユーザに関連づければ、映画のオススメもできるといった具合。どんな些細な個人情報も、集団化して分類器にかければ、金になるってことだ。年齢、性別、家族構成、住まい、保険契約、プロバイダ契約から、お酒の嗜好や音楽の好みまで、データの集合体として組み立てれば、なんでもあり。
そして、ほんの些細な情報漏洩も... 情報収集社会から行動モニタリング社会へ、まったく油断も隙もならぬ時代を実感させられる。
さらに、遺伝的プログラミングに触れ、アルゴリズム自体を自動生成するアルゴリズムまでも登場。もはや人間様は不要ってか。いや、カモは必要だ!

おまけで付録には、日本語テキストを処理するためのサンプルコードが紹介される。英語のように単語と単語の間に空白があるような言語システムでは、デリミタで悩むことがなく、そのまま正規表現にかけたりできるが、日本語の場合そうはいかない。文章解析では、昔から悩ましいところ。こいつに、g さんの PageRank アルゴリズムを喰わせた日にゃ...

0 コメント:

コメントを投稿