Perfusion、AI 画像生成の高いストレージ需要に対する Nvidia のソリューションNvidia の研究者は、最小限のストレージ要件で高度にカスタマイズされたテキストから画像へのモデルを可能にする新しい AI 画像生成技術を開発しました。arXiv で公開された論文によると、提案された「Perfusion」と呼ばれる手法は、コンセプトごとにわずか 100KB のパラメータを使用して、既存のモデルに新しいビジュアルコンセプトを追加できます。出典: Nvidia Research論文の著者らが説明しているように、Perfusion は「テキストから画像へのモデルの内部表現に小さな更新を加える」ことで機能します。より具体的には、テキストの説明を生成された視覚的特徴に結び付けるモデルの部分に、慎重に計算された変更が加えられます。クロスアテンション レイヤーに小さなパラメトリック編集を適用することで、Perfusion はテキスト入力を画像に変換する方法を変更できます。したがって、Perfusion はテキストから画像へのモデルをゼロから完全に再トレーニングしたわけではありません。代わりに、テキストを画像に変換する数学的変換をわずかに調整します。これにより、多くの計算能力やモデルの再トレーニングを必要とせずに、モデルをカスタマイズして新しいビジュアルコンセプトを生成できます。灌流法では 100kb しか必要としません。Perfusion は、競合する技術よりも 2 ~ 5 桁少ないパラメータでこれらの結果を達成します。他の方法ではコンセプトごとに数百メガバイトからギガバイトのストレージが必要になる場合がありますが、Perfusion では必要なストレージはわずか 100KB で、小さな画像、テキスト、WhatsApp メッセージに匹敵します。この大幅な削減により、高度にカスタマイズされた AI アート モデルの展開がより実現可能になる可能性があります。共著者のガル・チェチック氏によれば、「Infusion により、モデル サイズの数分の一でより正確なパーソナライゼーションが可能になるだけでなく、より複雑なキューの使用や、推論時に個別に学習した概念の組み込みも可能になります。」この方法では、個別に学習した「テディベア」と「ティーポット」の概念を使用して、「ティーポットで航海するテディベア」などの創造的な画像を生成できます。出典: Nvidia Research**効率的なパーソナライゼーションの可能性**コンセプトごとにわずか 100 KB を使用して AI モデルをパーソナライズできる Perfusion の独自の機能により、無数の潜在的なアプリケーションが開かれます。このアプローチにより、個人が新しいオブジェクト、シーン、またはスタイルを使用してテキストから画像へのモデルを簡単にカスタマイズできる道が開かれ、コストのかかる再トレーニングの必要がなくなります。 Perfusion のコンセプトごとの 100KB のパラメータ更新の効率により、このテクノロジーを使用してカスタマイズされたモデルを民生用デバイスに実装でき、デバイス上でのイメージ作成が可能になります。このテクノロジーの最も魅力的な側面の 1 つは、AI モデルに関する共有とコラボレーションに提供される可能性です。ユーザーは、パーソナライズされたコンセプトを小さな追加ファイルとして共有できるため、面倒なモデル チェックポイントの共有を回避できます。配布に関しては、特定の組織に合わせたモデルをより簡単に配布したり、エッジに展開したりできます。テキストから画像への生成が主流になり続けるにつれ、機能を犠牲にすることなくこのような劇的なサイズ削減を達成できることが重要になります。ただし、Perfusion は完全な生成機能自体ではなく、主にモデルのパーソナライゼーションを提供することは注目に値します。**制限と解除**この技術には有望ではありますが、いくつかの制限があります。著者らは、トレーニング中の重要な選択によって、概念が過度に一般化される可能性があると指摘しています。複数のパーソナライズされたアイデアを 1 つの画像にシームレスに組み合わせるには、さらに研究が必要です。著者らは、Perfusion のコードがプロジェクト ページで利用可能になると述べており、将来的にはピアレビューや公式の研究出版物が公開されるまで、このメソッドを一般に公開する意向を示しています。ただし、この作品は現在 arXiv でのみ公開されているため、公開の正確な詳細は不明のままです。このプラットフォームでは、研究者は正式な査読や雑誌/会議での出版の前に論文をアップロードできます。Perfusion のコードにはまだアクセスできていませんが、著者らが提案した計画は、このような高効率でパーソナライズされた AI システムが、やがて開発者、業界、クリエイターの手に渡る可能性があることを意味しています。MidJourney、DALL-E 2、Stable Diffusion などの AI アート プラットフォームの開発に伴い、より優れたユーザー制御を可能にする技術が現実世界の展開に不可欠になる可能性があります。 Perfusion のような優れた効率改善により、Nvidia は急速に進化する環境で優位性を維持することを決意しているようです。
Nvidia、AI 画像生成方法を WhatsApp メッセージのサイズに縮小
Perfusion、AI 画像生成の高いストレージ需要に対する Nvidia のソリューション
Nvidia の研究者は、最小限のストレージ要件で高度にカスタマイズされたテキストから画像へのモデルを可能にする新しい AI 画像生成技術を開発しました。
arXiv で公開された論文によると、提案された「Perfusion」と呼ばれる手法は、コンセプトごとにわずか 100KB のパラメータを使用して、既存のモデルに新しいビジュアルコンセプトを追加できます。
出典: Nvidia Research
論文の著者らが説明しているように、Perfusion は「テキストから画像へのモデルの内部表現に小さな更新を加える」ことで機能します。
より具体的には、テキストの説明を生成された視覚的特徴に結び付けるモデルの部分に、慎重に計算された変更が加えられます。クロスアテンション レイヤーに小さなパラメトリック編集を適用することで、Perfusion はテキスト入力を画像に変換する方法を変更できます。
したがって、Perfusion はテキストから画像へのモデルをゼロから完全に再トレーニングしたわけではありません。代わりに、テキストを画像に変換する数学的変換をわずかに調整します。これにより、多くの計算能力やモデルの再トレーニングを必要とせずに、モデルをカスタマイズして新しいビジュアルコンセプトを生成できます。
灌流法では 100kb しか必要としません。
Perfusion は、競合する技術よりも 2 ~ 5 桁少ないパラメータでこれらの結果を達成します。
他の方法ではコンセプトごとに数百メガバイトからギガバイトのストレージが必要になる場合がありますが、Perfusion では必要なストレージはわずか 100KB で、小さな画像、テキスト、WhatsApp メッセージに匹敵します。
この大幅な削減により、高度にカスタマイズされた AI アート モデルの展開がより実現可能になる可能性があります。
共著者のガル・チェチック氏によれば、
「Infusion により、モデル サイズの数分の一でより正確なパーソナライゼーションが可能になるだけでなく、より複雑なキューの使用や、推論時に個別に学習した概念の組み込みも可能になります。」
この方法では、個別に学習した「テディベア」と「ティーポット」の概念を使用して、「ティーポットで航海するテディベア」などの創造的な画像を生成できます。
出典: Nvidia Research
効率的なパーソナライゼーションの可能性
コンセプトごとにわずか 100 KB を使用して AI モデルをパーソナライズできる Perfusion の独自の機能により、無数の潜在的なアプリケーションが開かれます。
このアプローチにより、個人が新しいオブジェクト、シーン、またはスタイルを使用してテキストから画像へのモデルを簡単にカスタマイズできる道が開かれ、コストのかかる再トレーニングの必要がなくなります。 Perfusion のコンセプトごとの 100KB のパラメータ更新の効率により、このテクノロジーを使用してカスタマイズされたモデルを民生用デバイスに実装でき、デバイス上でのイメージ作成が可能になります。
このテクノロジーの最も魅力的な側面の 1 つは、AI モデルに関する共有とコラボレーションに提供される可能性です。ユーザーは、パーソナライズされたコンセプトを小さな追加ファイルとして共有できるため、面倒なモデル チェックポイントの共有を回避できます。
配布に関しては、特定の組織に合わせたモデルをより簡単に配布したり、エッジに展開したりできます。テキストから画像への生成が主流になり続けるにつれ、機能を犠牲にすることなくこのような劇的なサイズ削減を達成できることが重要になります。
ただし、Perfusion は完全な生成機能自体ではなく、主にモデルのパーソナライゼーションを提供することは注目に値します。
制限と解除
この技術には有望ではありますが、いくつかの制限があります。著者らは、トレーニング中の重要な選択によって、概念が過度に一般化される可能性があると指摘しています。複数のパーソナライズされたアイデアを 1 つの画像にシームレスに組み合わせるには、さらに研究が必要です。
著者らは、Perfusion のコードがプロジェクト ページで利用可能になると述べており、将来的にはピアレビューや公式の研究出版物が公開されるまで、このメソッドを一般に公開する意向を示しています。ただし、この作品は現在 arXiv でのみ公開されているため、公開の正確な詳細は不明のままです。このプラットフォームでは、研究者は正式な査読や雑誌/会議での出版の前に論文をアップロードできます。
Perfusion のコードにはまだアクセスできていませんが、著者らが提案した計画は、このような高効率でパーソナライズされた AI システムが、やがて開発者、業界、クリエイターの手に渡る可能性があることを意味しています。
MidJourney、DALL-E 2、Stable Diffusion などの AI アート プラットフォームの開発に伴い、より優れたユーザー制御を可能にする技術が現実世界の展開に不可欠になる可能性があります。 Perfusion のような優れた効率改善により、Nvidia は急速に進化する環境で優位性を維持することを決意しているようです。