モンテカルロ法によるゲーム戦略の進化
従来の方式で、なかなかプロの棋士に勝利できない状況が続き、やがて、スコアの評価に問題があることがわかってきました。
スコアとは、ゲームの局面ごとに付けられるもので、各手で、選択肢の中から最高のスコア、最低のスコアを見極めながら進めることで、ゲームを有利に進める、という方式の基、生み出された方式です。
このスコアの評価に問題があれば、いくら計算上有利に進めたとしても、結果的にプロの棋士に軍配があがることは、珍しくありません。
そこで、モンテカロル法という方法が作り出されました。
モンテカルロ法では、ある局面までゲームが進んだところで、スコアにより評価する方法を完全に放棄してしまいます。
それ以降は、
- コンピュータの中に仮装敵を作り、ランダムに手をさし続ける
- いずれかのコンピュータが勝利することで、ゲームを終局させる(プレイアウト)
- プレイアウトを複数回行うことで、最も勝率の高い手を採用する
という方法で、ゲームを勝利へと導くようにしたものです。
これにより、ある規模の囲碁(9マス×9マス)であればプロ棋士に勝利できるまでの水準になりました。
ただし、19マス×19マスの囲碁では、まだまだプロ棋士の方が強い状態が続きました。
これは、従来のスコア評価による手法を進化させたモンテカルロ法とて、探索する組み合わせがあまりにも膨大だと、ブルートフォース(力任せ)による探索に限界がある、ということへの証明でもあったのです。
昨今、AlphaGoが、この19マス×19マスの囲碁でプロ棋士に勝利できたのは、ディープラーニングの技術を駆使した結果によるものです。