mizterxのブログ

数学について自分の覚書き(忘れた頃に読んでもOK)

ベイズ統計から人工知能へ

ベイズ統計を勉強する場合によくある教科書ではなんとか分布というのがたっくさん出てきて目がまわりそう! でも僕は言いたい。まずはベータ分布を覚えましょ。そんな内容のお手紙を数学好き女史に送った内容からまずは。
 --------------------------------------------------------------------------------
これは確率分布で名前はベータ分布といいます。 確率には色んな分布がありすぎてややこしいのですが、この分布は高校数学でなじみの分布の親戚というか一般化をした分布になります。  
なんの一般化かというと二項分布です。 (簡単なコインの例で申しますと、表面が出やすいコインがあります。10回投げたら7回表でした。表面がでる確率をθとしますと確率は二項分布で記述できる。)  
で、以前からわたしが推奨してましたベイズ統計に話は戻りますが、ベイズ統計では最初に、推測する確率のまず”常識的な相場の確率”を設定します。コインですと相場は当然50%が表がでる確率ですよね。  
次に、実際にコインを投げてみて、その結果を常識的な相場へ反映させます。  
で、その最初の常識的な相場の分布を、そのベータ分布で表すわけです。(50%をピークとした山の分布ですとαとβの両方に1/2を導入)
  そして実際に投げてみた結果である二項分布を掛け算します。
  そうするとベータ分布と二項分布は相性がよくて、かけた結果もベータ分布になります。
  ですから、何度も何度も投げた結果である二項分布を掛け算していってどんどん結果であるベータ分布が修正されていって真の値に近づいて、最終的に「このコインはいかさまだ!」と決定づけられるわけです。  
  
 さきほどのベイズでは、相場の確率分布に、どんどんとコインを投げた結果を更新していきましたね。
そうすると当然、分布の中心値はコロコロと変わっていきます。
ところが! P値検定の場合はこの中心値が動かない分布とまず仮定して、何度も何度もコインを投げた時の結果が、この最初の中心値からある程度の幅をもった区間に、どれだけ入りますか?というのを確認するわけです。


ですから、100回なげて95回の結果が、その最初に仮定した中心値からの一定の区間内にはいればP値検定合格。なわけですね。


ベイズの方が支持されるようになった理由は、ベイズの方が人間の感覚に近く、わかりやすいからです。


----ここからは別の投稿をとりあえずペーストした。これから編集--------------
囲碁は中学の時に父親から教わって以来の長いお付き合いです。 


その囲碁で最近のNEWSは人工知能がトッププロに勝ったNEWSですね。私は実際に人工知能がどんな手を打ってるのかを碁盤に並べて検証してみました。そして人工知能の名手を肌で感じて感動しました。「相手の力を利用したマスター(AIのニックネーム)の返し技はまるで武術の達人のようです。」「このバランス感覚を習得するのに人間では相当な修練が必要でしょう。」 これは囲碁雑誌の解説がAIの名手を賞賛しているコメントですが、囲碁をされない方でもなんとなく察しがつくと思います。 


バランス感覚を要する囲碁の難所をAIは克服したのですけれど、はたしてどんな高度なプログラミングを実現したのでしょうか?そしてそのプログラミングの背景にある数学は? 


そこからここ数ヶ月わたしの数学との悪戦苦闘が始まりました。 


この人工知能に関わる数学の分野は機械学習あるいは最近よく耳にする別の言い方ですとDEEP LEARNINGです。ところでこれらを理解する上で大前提というかどうしても理解しておかないといけない数学があります。それが「ベイズ確率、ベイズ統計」と言われる確率の一分野です。 


ここまでの背景をもう一度おさらい 


AI囲碁のプログラミング>> DEEP LEARNINGの数学 >> 土台のベイズ統計 と遡りました。 


このベイズ統計 発見されたのが18世紀の牧師さんなんです。数学者でないの。しかもこのベイズさんの発見した概念、とっても自然なの。何が自然かといいますと、私たちが普段行っていることを数学に焼きなおしたような自然さがあります。 


簡単な例でいいますと、お見合いではじめて相手に会う前には事前に相手の釣書を確認して「ああ、こんな感じの人だろうな」と予測をたてますね。それで実際に会って「ああ、ここが出会う前の印象と違う」などと頭の中で修正を加えるわけです。このお見合いの例の男と女に限らず仕事の計画でも何でも基本はこのサイクルですよね?私たちの頭はこれを繰り返して学習していくわけですが、これと同様なことをやっているのがベイズ統計なんです。


そして人口知能もそうですよね。人間の脳を真似して、まずは予測をたてて実際のデータを積んで修正して学習する。 


そこでまずは、この基本のベイズ統計を理解しようとしたのですが、これさえ一苦労でした!私の理解力が悪いのと、もうひとつの理由はちゃんとわかりやすく書いた本がなかったことですね。何度読んでも概念が頭に入ってこない。


ちまたでは「簡単にわかる」と歌っている本は山ほどありますが、本当にポイントを掴んでいる本って少ないです。


事前予測 ----> Data経験を積んで -----> 事後分布 事後の結果 


そこから次のステップである機械学習、DEEP LEARNINGへと進んでいったわけですが、いったん先ほどのベイズ統計の概念を理解するとそれなりに進んでいってます。悪戦苦闘には変わらないですが。でも妻には3分たつと集中力が切れるウルトラマンと皮肉られてますが^^ 


何も今の仕事に直接かかわるわけではございません。 


でも私ある種の危惧があります。それはこの重要なベイズ統計の概念、もっと広く皆が学習すべきでは? 


言い方を変えますと、このベイズ統計の基本を理解するとな~んとなくですけれど、「ああ人工知能ってこうやって学習して賢くなっていくんだな」というのがこの時点でイメージできます。それだけでも大きな一歩と思います。


アポロ計画みたいに人類の大きな一歩とまでは言わないけれど、大事な始めの一歩と思います。


でも最近の受験数学をざっと見渡してもベイズ確率に関する問題は出題されてません。 過去に有名な早稲田で出題された問題があるのと昨年のセンター試験になったかな? (ベイズ確率ですと高校の分野、ベイズ統計になると大学数学かな、でも高校数学で理解できる内容です) 


人口知能の土台であると共に人間の脳の基本動作の数学です。 この概念をもっと普及させないと日本は将来AIの分野で置いてきぼりになるのではないか???


最低限、何か行動を起こす時に事前予測なしのフウテンの寅さんみたく行き当たりばったりでは人工知能の社会の置いてきぼりになりますよ~と、ちゃらんぽらんな私は訴えたいです。