モンテカルロ法によるゲーム戦略の進化

- 4/06/2021

従来の方式で、なかなかプロの棋士に勝利できない状況が続き、やがて、スコアの評価に問題があることがわかってきました。
スコアとは、ゲームの局面ごとに付けられるもので、各手で、選択肢の中から最高のスコア、最低のスコアを見極めながら進めることで、ゲームを有利に進める、という方式の基、生み出された方式です。
このスコアの評価に問題があれば、いくら計算上有利に進めたとしても、結果的にプロの棋士に軍配があがることは、珍しくありません。

そこで、モンテカロル法という方法が作り出されました。
モンテカルロ法では、ある局面までゲームが進んだところで、スコアにより評価する方法を完全に放棄してしまいます。
それ以降は、

コンピュータの中に仮装敵を作り、ランダムに手をさし続ける
いずれかのコンピュータが勝利することで、ゲームを終局させる（プレイアウト）
プレイアウトを複数回行うことで、最も勝率の高い手を採用する

という方法で、ゲームを勝利へと導くようにしたものです。
これにより、ある規模の囲碁（9マス×9マス）であればプロ棋士に勝利できるまでの水準になりました。

ただし、19マス×19マスの囲碁では、まだまだプロ棋士の方が強い状態が続きました。
これは、従来のスコア評価による手法を進化させたモンテカルロ法とて、探索する組み合わせがあまりにも膨大だと、ブルートフォース（力任せ）による探索に限界がある、ということへの証明でもあったのです。

昨今、AlphaGoが、この19マス×19マスの囲碁でプロ棋士に勝利できたのは、ディープラーニングの技術を駆使した結果によるものです。

Manavi

モンテカルロ法によるゲーム戦略の進化

このブログの人気の投稿

無料で自分だけのWikiを作る方法

無料で使えるWeb版ホワイトボード「Google Jamboard」の使い方おさらい

Mac OSのbrewコマンドを使う人は、たまにお掃除をしましょう

英語で「通う」は何ていう？言い方を少し変えてみるだけで、伝わりかたも変わってくるよ

今更ながらAWS Lambdaの正しい読み方

Min-Max法によるゲーム戦略

色々なエキスパートシステム

AIにおけるプランニング

人工知能と人工無能

GitLabで、認証なしにPrivateリポジトリのコードをgit cloneさせる方法