生成 AI が画像検索をどのように再定義するか-AI-php.cn

ホームページ

テクノロジー周辺機器

生成 AI が画像検索をどのように再定義するか

王林

Sep 29, 2023 pm 09:25 PM

AI画像検索

元の意味を変えずに内容を書き直すには、言語を中国語に書き直す必要があり、元の文を表示する必要はありません

レビュー | 内容Chonglou の部分は書き換える必要があります

生成人工知能は、独自のテキスト、サウンド、画像を作成する機能により、ここ数か月で大きな関心を集めています。ただし、生成 AI の可能性は新しいデータの作成に限定されません。

生成 AI の基礎となる技術 (トランスフォーマーや拡散モデルなど) は、情報検索や情報検索など、他の多くのアプリケーションを強化できます。発見。特に、生成 AI は画像検索に革命をもたらし、人々がこれまで不可能だった方法で視覚情報を閲覧できるようにする可能性があります。

生成 AI が画像検索をどのように再定義するか

人々が必要としているものは次のとおりです。生成 AI が画像検索エクスペリエンスをどのように再定義しているかを知るために。

画像とテキストの埋め込み

従来の画像検索方法は、画像に付随するテキストの説明、タグ、その他のメタデータに依存しているため、ユーザーは検索に手間がかかります。オプションは、画像に明示的に添付された情報に限定されます。画像をアップロードする人は、自分の画像が他の人に見つけられるように、入力する検索クエリの種類を慎重に検討する必要があります。画像を検索するとき、情報を求めるユーザーは、画像のアップロード者が画像にどのような説明を追加したかを想像する必要があります。

ことわざにあるように、「百聞は一見に如かず」。」ただし、画像説明には記載できる内容に制限があります。もちろん、これは人々が画像をどのように見るかに応じてさまざまな方法で説明できます。ユーザーは、写真内のオブジェクトに基づいて検索する場合もあれば、スタイル、照明、場所などの特徴に基づいて検索する場合もあります。残念ながら、画像にこれほど豊富な情報が伴うことはほとんどありません。多くの人が情報をほとんど、またはまったく添付せずに多数の画像をアップロードするため、検索で発見するのが困難になります。

人工知能画像検索は、この点で重要な役割を果たします。 AI画像検索にはさまざまなアプローチがあり、各社が独自の技術を持っています。ただし、これらの企業が共同所有しているテクノロジーもあります。

人工知能画像検索やその他の多くの深層学習システムの中核には埋め込みが含まれています。埋め込みは、さまざまなデータ型を数値で表現する方法です。たとえば、解像度 512 × 512 の画像には、約 260,000 のピクセル (または特徴) が含まれています。埋め込みモデルは、数百万の画像をトレーニングすることで、視覚データの低次元表現を学習します。画像の埋め込みは、画像の圧縮、新しい画像の生成、異なる画像の視覚的特性の比較など、多くの有用な分野に適用できます。同じメカニズムがテキストなどの他の形式にも適用されます。テキスト埋め込みモデルは、テキストの抜粋の内容を低次元で表現したものです。テキストの埋め込みには、大規模言語モデル (LLM) の類似性検索や検索の強化など、多くの用途があります。

人工知能画像検索の仕組み生成 AI が画像検索をどのように再定義するか

ただし、画像とテキストの埋め込みが一緒にトレーニングされると、物事はさらに面白くなります。 LAION のようなオープンソースデータセットには、数百万の画像とそれに対応するテキストの説明が含まれています。これらの画像とキャプションのペアに埋め込まれたテキストと画像が共同でトレーニングまたは微調整されると、視覚情報とテキスト情報の関連性が学習されます。これは、Contrastive Image Language Pretraining (CLIP) などの深層学習技術の背後にある考え方です。

Contrastive Image Language Pre-trained (CLIP) モデルはテキストと画像の結合埋め込みを学習します

生成 AI が画像検索をどのように再定義するかこれで、次のツールが完成しました。テキストを視覚的な埋め込みに変換します。このジョイントモデルにテキストの説明を与えると、テキストの埋め込みと対応する画像の埋め込みが生成されます。次に、画像の埋め込みをデータベース内の画像と比較し、最も関連性の高い画像を取得できます。これが人工知能画像検索の基本原理であり、メタデータに登録されています。「朝霧に包まれた緑豊かな森、高い松林から差し込む明るい日差し、草むらに生えたキノコ」など、これまで不可能だった豊富な検索ワードを使用できます。

上記の例では、AI 検索により、視覚的特徴がこのクエリと一致する一連の画像が返されました。テキスト説明の多くにはクエリキーワードが含まれていません。ただし、その埋め込みはクエリの埋め込みと似ています。 AI 画像検索がなければ、適切な画像を見つけることははるかに困難になります。

発見から創造へ

人々が探している画像は存在せず、AI 検索でも見つからないことがあります。それ。この場合、生成 AI は、2 つの方法のいずれかでユーザーが望ましい結果を達成できるように支援します。

まず、ユーザーのクエリに基づいて新しい画像を最初から作成できます。このアプローチには、テキストから画像への生成モデル (安定拡散や DALL-E など) を使用してユーザーのクエリの埋め込みを作成し、その埋め込みを利用して画像を生成することが含まれます。生成モデルは、Contrastive Image Language Pretraining (CLIP) などの共同埋め込みモデルや、トランスフォーマーや拡散モデルなどの他のアーキテクチャを利用して、埋め込まれた数値を美しい画像に変換します

生成 AI が画像検索をどのように再定義するか DALL -E は、Contrastive Image Language Pre-training (CLIP) と拡散を使用してテキストから画像を生成します

2 番目の方法は、既存の画像を活用し、個人的な好みのモデルに従って生成された画像を使用することです。編集。たとえば、松林を示す画像では、草からキノコが欠けています。ユーザーは開始点として適切な画像を選択し、生成モデルを介してそこにキノコを追加できます。

生成 AI が画像検索をどのように再定義するか

生成 AI はまったく新しいパラダイムを生み出します。発見と創造性の間の境界線。また、単一のインターフェイス内で、ユーザーは画像を検索したり、画像を編集したり、まったく新しい画像を作成したりできます。

#元のタイトル: 生成 AI が画像検索をどのように再定義しているか、ベン・ディクソン著

以上が生成 AI が画像検索をどのように再定義するかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。