OpenAIの研究者は、Minecraftのゲームプレイ動画とビデオ事前トレーニング(VPT)方法を使用してニューラルネットワークにMinecraftをプレイすることを教えました。彼らは人間の*Minecraft*プレイの巨大なラベル付けされていないビデオデータセットと、少量のラベル付けされた契約データを使用しました。
最初の段階では、AIは2千時間のラベル付けされたゲームプレイ動画を「視聴」しました。ラベル付けされたデータはキー押下とマウスの動きであり、AIは標準のマウスとキーボードのエミュレーションを使用しました。その結果、ニューラルネットワークはビデオを処理し、キー押下を推測し、それを記録する方法を学習しました。
次の段階では、ニューラルネットワークはオープンソースから取得された7万時間のラベル付けされていないゲームプレイ動画(キー押下に関するデータなし)を視聴しました。その結果、システムはゲームの世界で歩くだけでなく、資源を採掘し、オブジェクトを作成し、食べ物を探し、狩り、走り、水泳、障害物を回避する方法なども学びました。さらにAIは柱ジャンプ - ジャンプを繰り返しながら自身の下にブロックを置いて高さを増す方法も学びました。
次の段階では、研究者はユーザーにゲーム内で新しい世界を作り、必要な資源を集め、それらから基本的な必需品を作成するよう依頼しました。このデータはビデオで記録され、ニューラルネットワークに示されました。また、研究者は強化学習法を使用し、AIが最終的にダイヤモンドのピッケルを作成する方法も学習しました。
研究者は、ビデオ事前トレーニング(VPT)方法がニューラルネットワークを迅速に適切なタスク向けに訓練し、また人工知能をマウスとキーボードの使用に訓練することができると信じています。