ホームページ > 記事 > テクノロジー周辺機器 > 生成 AI が画像検索をどのように再定義するか
元の意味を変えずに内容を書き直すには、言語を中国語に書き直す必要があり、元の文を表示する必要はありません
レビュー | 内容Chonglou の部分は書き換える必要があります
生成人工知能は、独自のテキスト、サウンド、画像を作成する機能により、ここ数か月で大きな関心を集めています。ただし、生成 AI の可能性は新しいデータの作成に限定されません。
生成 AI の基礎となる技術 (トランスフォーマーや拡散モデルなど) は、情報検索や情報検索など、他の多くのアプリケーションを強化できます。発見。特に、生成 AI は画像検索に革命をもたらし、人々がこれまで不可能だった方法で視覚情報を閲覧できるようにする可能性があります。
人々が必要としているものは次のとおりです。生成 AI が画像検索エクスペリエンスをどのように再定義しているかを知るために。
従来の画像検索方法は、画像に付随するテキストの説明、タグ、その他のメタデータに依存しているため、ユーザーは検索に手間がかかります。オプションは、画像に明示的に添付された情報に限定されます。画像をアップロードする人は、自分の画像が他の人に見つけられるように、入力する検索クエリの種類を慎重に検討する必要があります。画像を検索するとき、情報を求めるユーザーは、画像のアップロード者が画像にどのような説明を追加したかを想像する必要があります。
ことわざにあるように、「百聞は一見に如かず」 。」ただし、画像説明には記載できる内容に制限があります。もちろん、これは人々が画像をどのように見るかに応じてさまざまな方法で説明できます。ユーザーは、写真内のオブジェクトに基づいて検索する場合もあれば、スタイル、照明、場所などの特徴に基づいて検索する場合もあります。残念ながら、画像にこれほど豊富な情報が伴うことはほとんどありません。多くの人が情報をほとんど、またはまったく添付せずに多数の画像をアップロードするため、検索で発見するのが困難になります。
人工知能画像検索は、この点で重要な役割を果たします。 AI画像検索にはさまざまなアプローチがあり、各社が独自の技術を持っています。ただし、これらの企業が共同所有しているテクノロジーもあります。
人工知能画像検索やその他の多くの深層学習システムの中核には埋め込みが含まれています。埋め込みは、さまざまなデータ型を数値で表現する方法です。たとえば、解像度 512 × 512 の画像には、約 260,000 のピクセル (または特徴) が含まれています。埋め込みモデルは、数百万の画像をトレーニングすることで、視覚データの低次元表現を学習します。画像の埋め込みは、画像の圧縮、新しい画像の生成、異なる画像の視覚的特性の比較など、多くの有用な分野に適用できます。同じメカニズムがテキストなどの他の形式にも適用されます。テキスト埋め込みモデルは、テキストの抜粋の内容を低次元で表現したものです。テキストの埋め込みには、大規模言語モデル (LLM) の類似性検索や検索の強化など、多くの用途があります。
人工知能画像検索の仕組み
Contrastive Image Language Pre-trained (CLIP) モデルはテキストと画像の結合埋め込みを学習します
これで、次のツールが完成しました。テキストを視覚的な埋め込みに変換します。このジョイント モデルにテキストの説明を与えると、テキストの埋め込みと対応する画像の埋め込みが生成されます。次に、画像の埋め込みをデータベース内の画像と比較し、最も関連性の高い画像を取得できます。これが人工知能画像検索の基本原理であり、メタデータに登録されています。 「朝霧に包まれた緑豊かな森、高い松林から差し込む明るい日差し、草むらに生えたキノコ」など、これまで不可能だった豊富な検索ワードを使用できます。
上記の例では、AI 検索により、視覚的特徴がこのクエリと一致する一連の画像が返されました。テキスト説明の多くにはクエリ キーワードが含まれていません。ただし、その埋め込みはクエリの埋め込みと似ています。 AI 画像検索がなければ、適切な画像を見つけることははるかに困難になります。
人々が探している画像は存在せず、AI 検索でも見つからないことがあります。それ。この場合、生成 AI は、2 つの方法のいずれかでユーザーが望ましい結果を達成できるように支援します。
まず、ユーザーのクエリに基づいて新しい画像を最初から作成できます。このアプローチには、テキストから画像への生成モデル (安定拡散や DALL-E など) を使用してユーザーのクエリの埋め込みを作成し、その埋め込みを利用して画像を生成することが含まれます。生成モデルは、Contrastive Image Language Pretraining (CLIP) などの共同埋め込みモデルや、トランスフォーマーや拡散モデルなどの他のアーキテクチャを利用して、埋め込まれた数値を美しい画像に変換します
DALL -E は、Contrastive Image Language Pre-training (CLIP) と拡散を使用してテキストから画像を生成します
2 番目の方法は、既存の画像を活用し、個人的な好みのモデルに従って生成された画像を使用することです。編集。たとえば、松林を示す画像では、草からキノコが欠けています。ユーザーは開始点として適切な画像を選択し、生成モデルを介してそこにキノコを追加できます。
生成 AI はまったく新しいパラダイムを生み出します。発見と創造性の間の境界線。また、単一のインターフェイス内で、ユーザーは画像を検索したり、画像を編集したり、まったく新しい画像を作成したりできます。
#元のタイトル: 生成 AI が画像検索をどのように再定義しているか 、ベン・ディクソン著
##
以上が生成 AI が画像検索をどのように再定義するかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。