Stable DiffusionのクリエイターRunway、新しいビデオ生成AIモデルを発表

人気のテキストから画像へのAIモデル「Stable Diffusion」の共同開発で知られるスタートアップRunwayは、最近テキストプロンプトに基づいて短いビデオを生成できる新しい人工知能モデルを発表しました。

生成ニューラルネットワークはGen-2と呼ばれ、少数のテキスト入力に基づいて短いビデオを生成できます。AIアルゴリズムはゼロから3秒間のビデオクリップを生成します。ただし、ユーザーはアルゴリズムの手がかりとして画像をアップロードすることもできます。

さまざまな理由から、Gen-2は最初からオープンソースまたは広く利用可能にはなりません。代わりに、ユーザーはRunwayのDiscordを介してGen-2の待機リストにサインアップできます。

GoogleのImagen AIツールはテキストの説明を使用して画像を生成
テキスト入力を認識するために、Imagenは自然言語処理アルゴリズムが基づく大規模な言語モデルを使用しています。この技術大手は、新しいテキストから画像生成器が「前例のないフォトリアリズムの度合い」を持っていると主張しています。

現在、Gen-1およびGen-2によって生成されたビデオには音がありません。Runway AIは、画像やビデオのみならずそれらに合った音を自動的に生成するシステムを作成することを目指して、音声生成に関する研究を行っています。