Columns

機械学習とベイズ推論の勉強会・その3(社員ブログ)

こんにちは、エスディーテック機械学習エンジニアの酒谷です。

先日、機械学習・ベイズ推論のオンライン社内勉強会第3弾が開催されました!

前回の勉強会の記事はこちら

「その2」で予告された通り、「試験を受けた回数が異なる場合に、結果を公正に比較するにはどうすればよいか」という問題にベイズ推論の枠組みで取り組みました!
今回も、機械学習エンジニアのKさんと、デザイナーのTさんによる対話形式で進みました。

前回から引き続き、コイントスを題材として、コインごとの表が出る確率をデータから評価する方法を検討しました。
前回までは、それぞれのコインに対して表が出る確率を個別に推論していました。

しかし、この方法では、トスの回数がコインによって異なると、表が出る確率を公正に比較するのが難しいという課題がありました。 例えば、4回中4回表が出たコインの方が、38回中30回表が出たコインより表が出やすいコインだと評価されていました。 これは、試行回数による信頼性を考慮すると、公正な比較と言えるのでしょうか?

 

画像

今回は、階層ベイズモデルによってこの問題を解決しました。

具体的には、表が出る確率の分布を決定するパラメータについても分布を仮定して、コイン間のばらつきを表現しました。
これにより、表が出る確率がコイン間でどれくらいばらついているかについても合わせて推論することになり、個別のコインの表の出やすさは対象のコインだけでなくすべてのコインのデータの内容が反映されるようになりました。

結果として、試行回数の少ないコインほど他のコインのデータからの影響を強く受けやすくなり、4回中4回表が出たコインの表が出る確率は、38回中30回表が出たコインに比べて大きく下方修正されました。

 

画像

後半では、プレミアリーグのPKデータを使って階層ベイズモデルを試すとどうなるのかが実演されました。

成功率が100%でも1回か2回しかPKをしていない選手より、ミスがあっても7回ほどPKを行った選手の方が高く評価されるような結果が示されました。
試行回数による信頼性を表現できる階層モデルの威力を身近な例で感じることができて、みんな階層ベイズモデリングをやってみたくなりましたね!

司会のデザイナーTさんの感想:

画像

次回は、ベイズ推論による線形回帰についてだそうです!楽しみですね。

以上、機械学習勉強会第3弾の報告でした!