ホームページ > 記事 > テクノロジー周辺機器 > ゾウPは振り向いて箱から出してすぐに活躍します! HKU、NTU、清華大学などが DragGAN の「レプリカ」バージョンを初めてオープンソース化
数日前にリリースされた DragGAN を覚えていますか?
そうです、わずか2秒で写真をレタッチできるツールです。
#あなたの撮った写真の表情が悪いですか?建てる!顔の形が十分に薄くありませんか?建てる!あなたの顔は間違った角度でカメラを向いていませんか?建てる!
もしかしたら、古代の PS ジョーク「象を振り向かせよう」かもしれません。実現
この AI 写真編集ツールのデモビデオは公開されるやいなや、国内外で瞬く間にヒットしました。
多くのネチズンは「PSはもう存在しない」と言いました。
わずか数日で、DragGAN の非公式実装が試用できるようになりました。この機能は InternGPT に統合されており、インターフェイスは次のようになります↓
##体験アドレス: https:// igpt.opengvlab.com/
予想に反して、デモの入り口が開くとすぐに、すぐに混雑しました。
公式デモ動画公式デモビデオを見る限り、再現された DragGAN の効果は素晴らしいです。
ニヤリ
#まずは、 という人の作り方です。笑わない、笑います。口の 2 つの角を選択して直接ドラッグするだけです。
最終結果には違反の意味がないことがわかります。笑顔だけでなく表情筋も一緒に変化するからです。
#口を閉じてください##顔編集
誰もがよく知っているこの小顔機能は、顔を 2 つ選択して押し込むと、非常に自然な出力になります。
# 男性の顔痩せ。しかし、これは少し細すぎます。出力は一見偽物で、顎が尖りすぎています。
#これは絶対にお勧めです!髪!ハゲの人にとってはなんとありがたいことでしょう。
ただし、出力結果を見る限り、額を選択してもどの場所でも同じ割合で毛が生えてきて、最終的には猿王のような仕上がりになります。
Face Turn
##顔の回転も非常に実用的な機能で、完成したパーツは非常に自然です。
その他の機能小規模な写真編集に加えて、InternGPT 自体には、実行できる他の多くの目を引く操作があります。
隠れたオブジェクトを削除
操作したい画像の部分をクリックするだけです。プロンプトに「削除」と入力します。
画像生成
この機能はさらに興味深いものです。最初に画像をアップロードし、プロンプトを入力して許可します。それを DragGAN Split し、プロンプトを入力して目的の画像を生成します。
黒い足を露出? (いいえ)
動画ハイライト解説プロンプトを使用してワンクリックでビデオを編集することもできます。
インタラクティブな視覚的な質問と回答
情報を認識した後でも、写真 オンラインで直接問い合わせることもできます。
インタラクティブな画像生成
ワンクリックで簡単に落書きができます美しい絵になります。
とにかく、これらの関数を読んだ後、編集者は本当にショックを受けました。すべての機能が「バカな操作性と究極の実用性」という 2 つの特徴を強調しています。
これを愛せない人はいないでしょうか?
技術的な実装非常に多くの優れた機能を見た後、InternGPT とは一体何でしょうか?
InternGPT (略して iGPT)/InternChat (略して iChat) は、ポインティング言語によって駆動される視覚的対話システムであり、ユーザーはクリック、ドラッグ、描画によって ChatGPT と対話できます。
純粋な言語に依存する既存のインタラクション システムとは異なり、iGPT はポインティング命令を統合することにより、ユーザーとチャットボット間の通信効率と、チャットボットのビジョン実行能力を大幅に向上させます。中心的なタスク、特に複雑なビジュアルシーンにおける正確さ。
#論文アドレス: https://arxiv.org/pdf/2305.05662.pdf
次の図は、InternGPT の全体的なアーキテクチャを示しています。この GPT は画像や動画だけでなく、音声やテキストも処理できることがわかります。
画像またはビデオ入力の場合、InternGPT は SAM (画像セグメンテーション モデル)、OCR (画像認識モデル) などを使用して処理します。
地理的位置、オブジェクト、またはラインを特定した後、さらに処理するためのツールボックス全体が表示されます。これらはすべて使い慣れたツールです。 例: BLIP (音声)、Stable Diffusion (画像)、Pix2Pix (画像翻訳) など。 同様に、テキストまたは音声入力の場合、InternGPT は GPT-4、LLaMA、およびその他のモデルまたはツールを呼び出して処理します。また、後でツールボックス全体も存在します。
#InternGPT の全体的なアーキテクチャ
使用上のヒント使用中もプロセス全体が非常に便利です。
ユーザーが画像を正常にアップロードした後、次のメッセージを送信して iGPT とマルチモーダル関連の会話を行うことができます:
"what is it in the image?" or "what is the background color of image?".
同様に、ユーザーは次のように対話的に画像を操作、編集、生成することもできます。
· 画像上の任意の場所をクリックし、[選択] ボタンを押して、分割された領域をプレビューします。また、OCR ボタンを押して、特定の位置に存在するすべての単語を識別することもできます;
· 画像からマスクされた領域を削除するには、次のメッセージを送信します:
“remove the masked region”
· マスクされたオブジェクトを画像内の別のオブジェクトに置き換えるには、次のメッセージを送信できます:
“replace the masked region with {your prompt}”
· 新しい画像を生成する場合は、次のメッセージを送信できます。
“generate a new image based on its segmentation describing {your prompt}”
· 落書きによって新しい画像を作成するには、[ホワイトボード] を押してホワイトボードに描画します。描画が完了したら、保存ボタンを押して次のメッセージを送信する必要があります:
“generate a new image based on this scribble describing {your prompt}”Netizen comments
That衝撃的な DragGAN 現在、非公式バージョンが存在します。正式版は 6 月にリリースされる予定ですが、これは将来のプレビューにすぎません。
DragGAN は InternGPT に統合され、非常に早く登場した画像編集ツールです。
以上がゾウPは振り向いて箱から出してすぐに活躍します! HKU、NTU、清華大学などが DragGAN の「レプリカ」バージョンを初めてオープンソース化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。