元の意味を変えずに内容を書き直すには、言語を中国語に書き直す必要があり、元の文を表示する必要はありません
レビュー | 内容Chonglou の部分は書き換える必要があります
生成人工知能は、独自のテキスト、サウンド、画像を作成する機能により、ここ数か月で大きな関心を集めています。ただし、生成 AI の可能性は新しいデータの作成に限定されません。
生成 AI の基礎となる技術 (トランスフォーマーや拡散モデルなど) は、情報検索や情報検索など、他の多くのアプリケーションを強化できます。発見。特に、生成 AI は画像検索に革命をもたらし、人々がこれまで不可能だった方法で視覚情報を閲覧できるようにする可能性があります。
人々が必要としているものは次のとおりです。生成 AI が画像検索エクスペリエンスをどのように再定義しているかを知るために。
画像とテキストの埋め込み
従来の画像検索方法は、画像に付随するテキストの説明、タグ、その他のメタデータに依存しているため、ユーザーは検索に手間がかかります。オプションは、画像に明示的に添付された情報に限定されます。画像をアップロードする人は、自分の画像が他の人に見つけられるように、入力する検索クエリの種類を慎重に検討する必要があります。画像を検索するとき、情報を求めるユーザーは、画像のアップロード者が画像にどのような説明を追加したかを想像する必要があります。
ことわざにあるように、「百聞は一見に如かず」 。」ただし、画像説明には記載できる内容に制限があります。もちろん、これは人々が画像をどのように見るかに応じてさまざまな方法で説明できます。ユーザーは、写真内のオブジェクトに基づいて検索する場合もあれば、スタイル、照明、場所などの特徴に基づいて検索する場合もあります。残念ながら、画像にこれほど豊富な情報が伴うことはほとんどありません。多くの人が情報をほとんど、またはまったく添付せずに多数の画像をアップロードするため、検索で発見するのが困難になります。
人工知能画像検索は、この点で重要な役割を果たします。 AI画像検索にはさまざまなアプローチがあり、各社が独自の技術を持っています。ただし、これらの企業が共同所有しているテクノロジーもあります。
人工知能画像検索やその他の多くの深層学習システムの中核には埋め込みが含まれています。埋め込みは、さまざまなデータ型を数値で表現する方法です。たとえば、解像度 512 × 512 の画像には、約 260,000 のピクセル (または特徴) が含まれています。埋め込みモデルは、数百万の画像をトレーニングすることで、視覚データの低次元表現を学習します。画像の埋め込みは、画像の圧縮、新しい画像の生成、異なる画像の視覚的特性の比較など、多くの有用な分野に適用できます。同じメカニズムがテキストなどの他の形式にも適用されます。テキスト埋め込みモデルは、テキストの抜粋の内容を低次元で表現したものです。テキストの埋め込みには、大規模言語モデル (LLM) の類似性検索や検索の強化など、多くの用途があります。
人工知能画像検索の仕組み
ただし、画像とテキストの埋め込みが一緒にトレーニングされると、物事はさらに面白くなります。 LAION のようなオープンソース データセットには、数百万の画像とそれに対応するテキストの説明が含まれています。これらの画像とキャプションのペアに埋め込まれたテキストと画像が共同でトレーニングまたは微調整されると、視覚情報とテキスト情報の関連性が学習されます。これは、Contrastive Image Language Pretraining (CLIP) などの深層学習技術の背後にある考え方です。
Contrastive Image Language Pre-trained (CLIP) モデルはテキストと画像の結合埋め込みを学習します
これで、次のツールが完成しました。テキストを視覚的な埋め込みに変換します。このジョイント モデルにテキストの説明を与えると、テキストの埋め込みと対応する画像の埋め込みが生成されます。次に、画像の埋め込みをデータベース内の画像と比較し、最も関連性の高い画像を取得できます。これが人工知能画像検索の基本原理であり、メタデータに登録されています。 「朝霧に包まれた緑豊かな森、高い松林から差し込む明るい日差し、草むらに生えたキノコ」など、これまで不可能だった豊富な検索ワードを使用できます。
上記の例では、AI 検索により、視覚的特徴がこのクエリと一致する一連の画像が返されました。テキスト説明の多くにはクエリ キーワードが含まれていません。ただし、その埋め込みはクエリの埋め込みと似ています。 AI 画像検索がなければ、適切な画像を見つけることははるかに困難になります。
発見から創造へ
人々が探している画像は存在せず、AI 検索でも見つからないことがあります。それ。この場合、生成 AI は、2 つの方法のいずれかでユーザーが望ましい結果を達成できるように支援します。
まず、ユーザーのクエリに基づいて新しい画像を最初から作成できます。このアプローチには、テキストから画像への生成モデル (安定拡散や DALL-E など) を使用してユーザーのクエリの埋め込みを作成し、その埋め込みを利用して画像を生成することが含まれます。生成モデルは、Contrastive Image Language Pretraining (CLIP) などの共同埋め込みモデルや、トランスフォーマーや拡散モデルなどの他のアーキテクチャを利用して、埋め込まれた数値を美しい画像に変換します
DALL -E は、Contrastive Image Language Pre-training (CLIP) と拡散を使用してテキストから画像を生成します
2 番目の方法は、既存の画像を活用し、個人的な好みのモデルに従って生成された画像を使用することです。編集。たとえば、松林を示す画像では、草からキノコが欠けています。ユーザーは開始点として適切な画像を選択し、生成モデルを介してそこにキノコを追加できます。
生成 AI はまったく新しいパラダイムを生み出します。発見と創造性の間の境界線。また、単一のインターフェイス内で、ユーザーは画像を検索したり、画像を編集したり、まったく新しい画像を作成したりできます。
#元のタイトル: 生成 AI が画像検索をどのように再定義しているか 、ベン・ディクソン著
##
以上が生成 AI が画像検索をどのように再定義するかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました:無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。 あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

ロボットプロセスオートメーション(RPA)を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。 一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。 このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント:研究a

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか? Topher McDougalの今後の本、Gaia Wakes:

多くの場合、Harmonized System(HS)などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。 これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターと気候技術投資におけるエネルギー消費の将来 この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。 エネルギー需要の課題:大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました(JP Morgan、2024)(表1)。 エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。 生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptユーザーエクスペリエンスは低下します:それはモデルの劣化ですか、それともユーザーの期待ですか? 最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。 ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。 これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。 パフォーマンスの劣化の証拠 多くのユーザーは、特にGPT-4などの古いモデル(今月末にサービスから廃止される)で、ChatGPTパフォーマンスの大幅な分解を報告しています。 これ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ホットトピック









