GoogleのImagen AIツールはテキスト記述を使用して画像を生成します

Googleは、テキスト入力に基づいて非常にリアルで正確な画像を生成できる新しい人工知能システム「Imagen」を発表しました。テキスト記述に基づいて、絵を描いたり、CGIレンダリングを作成したり、油絵を創作することができます。

A brain riding a rocketship heading towards the moon | Image: Google

Imagenは、機械知能を研究し、深層学習の理論的理解を深めることを専門とするGoogleリサーチのBrain Teamによって開発されました。

テキスト入力を認識するために、Imagenは自然言語処理アルゴリズムに基づいた大規模言語モデルを使用しています。この技術大手は、新しいテキストから画像生成ツールが「前例のない程度のフォトリアリズム」を持っていると主張しています。

An alien octopus floats through a portal reading a newspaper | Image: Google

提供されたテキスト記述を元に、Imagenは最初に64 x 64ピクセルの画像を生成し、AIがこれ以上の改善ができなくなるまで2回の連続した強化を行います。その後、画像は解像度の高い1024 x 1024ピクセルの画像に変換され、非常に細かな詳細が追加されます。

GoogleのImagenは他のテキストから画像生成ツール、例えばOpenAIのDALL-E-2に似ています。しかし、ImagenのDrawBenchベンチマークに基づいて、ImagenはDALL-E-2よりも一貫して優れた画像を生成することが主張されています。DrawBenchは200のテキストプロンプトのリストで構成され、これらはImagenおよび他の同様の画像生成ツールに供給されました。結果は人間の評価者に提示され、評価者は一般的に競合ツールよりもImagenの出力を好みました。

Imagenは現在一般公開されておらず、新しいツールを限定的に試すことができます。このウェブサイトで、事前に選択されたフレーズを使用してテキスト記述を作成できます。また、画像が油絵か写真か、動物の種類などを選択することもできます。