モンテカルロ法によるゲーム戦略の進化

従来の方式で、なかなかプロの棋士に勝利できない状況が続き、やがて、スコアの評価に問題があることがわかってきました。
スコアとは、ゲームの局面ごとに付けられるもので、各手で、選択肢の中から最高のスコア、最低のスコアを見極めながら進めることで、ゲームを有利に進める、という方式の基、生み出された方式です。
このスコアの評価に問題があれば、いくら計算上有利に進めたとしても、結果的にプロの棋士に軍配があがることは、珍しくありません。

 

そこで、モンテカロル法という方法が作り出されました。
モンテカルロ法では、ある局面までゲームが進んだところで、スコアにより評価する方法を完全に放棄してしまいます。
それ以降は、

  • コンピュータの中に仮装敵を作り、ランダムに手をさし続ける
  • いずれかのコンピュータが勝利することで、ゲームを終局させる(プレイアウト)
  • プレイアウトを複数回行うことで、最も勝率の高い手を採用する

という方法で、ゲームを勝利へと導くようにしたものです。
これにより、ある規模の囲碁(9マス×9マス)であればプロ棋士に勝利できるまでの水準になりました。

ただし、19マス×19マスの囲碁では、まだまだプロ棋士の方が強い状態が続きました。
これは、従来のスコア評価による手法を進化させたモンテカルロ法とて、探索する組み合わせがあまりにも膨大だと、ブルートフォース(力任せ)による探索に限界がある、ということへの証明でもあったのです。

昨今、AlphaGoが、この19マス×19マスの囲碁でプロ棋士に勝利できたのは、ディープラーニングの技術を駆使した結果によるものです。

このブログの人気の投稿

無料で使えるWeb版ホワイトボード「Google Jamboard」の使い方おさらい

GitLabで、認証なしにPrivateリポジトリのコードをgit cloneさせる方法