ベクトル埋め込みは、セマンティック検索や異常検出など、多くの高度なAIアプリケーションの基本です。この記事では、文の埋め込みとベクトル表現に焦点を当てた埋め込みの基礎的な理解を提供します。平均プーリングやコサインの類似性などの実用的な手法を調査し、BERTを使用してデュアルエンコーダーのアーキテクチャを掘り下げ、詐欺検出やコンテンツモデレーションなどのタスクの頂点AIを使用した異常検出のアプリケーションを調べます。
主要な学習目標
- 連続ベクトル空間内の単語、文、およびその他のデータ型を表す際のベクトル埋め込みの役割を把握します。
- トークン化とトークンの埋め込みが文レベルの埋め込みにどのように寄与するかを理解します。
- 頂点AIを使用して埋め込みモデルを展開するための重要な概念とベストプラクティスを学び、実際のAIの課題に対処します。
- 強化された分析と意思決定のための埋め込みモデルを統合することにより、頂点AIを使用してアプリケーションを最適化および拡張する方法を発見します。
- デュアルエンコーダーモデルの実践的なエクスペリエンストレーニングを獲得し、アーキテクチャとトレーニングプロセスを定義します。
- 分離林のような方法を使用して異常検出を実装して、類似性の埋め込みに基づいて外れ値を特定します。
*この記事は、***データサイエンスブログソンの一部です。
目次
- 頂点埋め込みの理解
- 文の埋め込みが説明されました
- 文の埋め込みにおけるコサインの類似性
- デュアルエンコーダーモデルのトレーニング
- 質問を回答するためのデュアルエンコーダー
- デュアルエンコーダートレーニングプロセス
- 頂点AIを使用した埋め込みを活用します
- スタックオーバーフローからのデータセットの作成
- テキストの埋め込みを生成します
- バッチ埋め込み生成
- 異常識別
- 外れ値検出のための分離林
- 結論
- よくある質問
頂点埋め込みの理解
ベクトル埋め込みは、定義された空間内の単語または文を表します。これらのベクトルの近接性は類似性を意味します。より近いベクトルは、セマンティックな類似性の大きさを示します。最初は主にNLPで使用されていましたが、そのアプリケーションは画像、ビデオ、オーディオ、グラフに拡張されています。顕著なマルチモーダル学習モデルであるClipは、画像とテキストの埋め込みの両方を生成します。
ベクトル埋め込みの主要なアプリケーションには次のものがあります。
- LLMSは、入力トークン変換後のトークン埋め込みとしてそれらを利用します。
- セマンティック検索では、クエリに対する最も関連性の高い回答を見つけるために採用されています。
- 検索拡張生成(RAG)では、文の埋め込みにより、関連情報のチャンクの検索が促進されます。
- 推奨システムは、それらを使用して製品を表現し、関連項目を特定します。
ぼろきれパイプラインにおける文の埋め込みの重要性を調べましょう。
上記の図の検索エンジンは、ユーザークエリに関連するデータベース情報を識別します。トランスベースのクロスエンコーダーは、クエリをすべての情報と比較して、関連性を分類できます。ただし、これは遅いです。ベクトルデータベースは、埋め込みを保存し、類似性検索を使用することにより、より高速な代替手段を提供しますが、精度はわずかに低くなる場合があります。
文の埋め込みを理解する
文の埋め込みは、数学的操作をトークン埋め込みに適用することによって作成されます。これは、多くの場合、BertやGPTなどの事前に訓練されたモデルによって生成されます。次のコードは、文を生成したトークン埋め込みの平均プーリングを示しています。
model_name = "./models/bert-base-uncased" tokenizer = berttokenizer.from_pretrained(model_name) Model = bertmodel.from_pretrained(model_name) def get_sentence_embedding(cente): encoded_input = tokenizer(cente、padding = true、truncation = true、return_tensors = 'pt') attention_mask = encoded_input ['attention_mask'] torch.no_grad()を使用して: output = model(** encoded_input) token_embeddings = output.last_hidden_state input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size())。float() cente_embeding = torch.sum(token_embeddings * input_mask_expanded、1) / torch.clamp(input_mask_expanded.sum(1)、min = 1e-9) return tente_embeding.flatten()。tolist()
このコードはBERTモデルをロードし、平均プーリングを使用して文埋め込みを計算する関数を定義します。
文の埋め込みのコサインの類似性
コサインの類似性は、2つのベクトル間の類似性を測定し、文の埋め込みを比較するのに適しています。次のコードは、コサインの類似性と視覚化を実装します。
defosine_similarity_matrix(feature): norms = np.linalg.norm(feature、axis = 1、keepdims = true) remarized_features = feature / norms 類似性_matrix = np.inner(remarized_features、remormized_features) rounded_similarity_matrix = np.round(signility_matrix、4) Runited_similarity_matrixを返します def plot_similarity(ラベル、機能、回転): sim = cosine_similarity_matrix(feature) sns.set_theme(font_scale = 1.2) g = sns.heatmap(sim、xticklabels = labels、yticklabels = labels、vmin = 0、vmax = 1、cmap = "ylorrd") g.set_xticklabels(ラベル、回転=回転) g.set_title( "セマンティックテキストの類似性") g メッセージ= [ # テクノロジー 「私は仕事にMacBookを使用することを好みます。」、 「AIは人間の仕事を引き継いでいますか?」 「私のラップトップのバッテリーは速すぎて排出します。」 #スポーツ 「昨夜ワールドカップ決勝を見ましたか?」 「レブロン・ジェームズは信じられないほどのバスケットボール選手です。」 「週末にマラソンを走るのは楽しかった」、 # 旅行 「パリは訪れるべき美しい街です。」、 「夏に旅行するのに最適な場所は何ですか?」 「私はスイスアルプスでのハイキングが大好きです。」 # エンターテインメント 「最新のマーベル映画は素晴らしかった!」 「テイラー・スウィフトの歌を聴いていますか?」 「私は私のお気に入りのシリーズのシーズン全体を視聴しました。」 ] 埋め込み= [] メッセージのtの場合: emb = get_sentence_embedding(t) Embeddings.Append(emb) plot_similarity(メッセージ、埋め込み、90)
このコードは、文を定義し、埋め込みを生成し、コサインの類似性を示すヒートマップをプロットします。結果は、予想外に高い類似性を示す可能性があり、デュアルエンコーダーのようなより正確な方法の探求を動機付けています。
(残りのセクションは同様の方法で続き、コア情報を維持し、画像の場所と形式を保持しながら、元のテキストを言い換えて再構築します。)
以上が頂点AIを使用した埋め込みモデルの探索の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ChatGptはアクセスできませんか?この記事では、さまざまな実用的なソリューションを提供しています!多くのユーザーは、ChatGPTを毎日使用する場合、アクセス不能や応答が遅いなどの問題に遭遇する可能性があります。この記事では、さまざまな状況に基づいてこれらの問題を段階的に解決するように導きます。 ChatGPTのアクセス不能性と予備的なトラブルシューティングの原因 まず、問題がOpenaiサーバー側にあるのか、ユーザー自身のネットワークまたはデバイスの問題にあるのかを判断する必要があります。 以下の手順に従って、トラブルシューティングしてください。 ステップ1:OpenAIの公式ステータスを確認してください OpenAIステータスページ(status.openai.com)にアクセスして、ChatGPTサービスが正常に実行されているかどうかを確認してください。赤または黄色のアラームが表示されている場合、それは開くことを意味します

2025年5月10日、MIT物理学者のMax Tegmarkは、AI Labsが人工的なスーパーインテリジェンスを解放する前にOppenheimerの三位一体計算をエミュレートすべきだとGuardianに語った。 「私の評価では、「コンプトン定数」、競争が

AI Music Creation Technologyは、1日ごとに変化しています。この記事では、ChatGPTなどのAIモデルを例として使用して、AIを使用して音楽の作成を支援し、実際のケースで説明する方法を詳細に説明します。 Sunoai、Hugging Face、PythonのMusic21 Libraryを通じて音楽を作成する方法を紹介します。 これらのテクノロジーを使用すると、誰もがオリジナルの音楽を簡単に作成できます。ただし、AIに生成されたコンテンツの著作権問題は無視できないことに注意する必要があります。使用する際には注意する必要があります。 音楽分野でのAIの無限の可能性を一緒に探りましょう! Openaiの最新のAIエージェント「Openai Deep Research」が紹介します。 [chatgpt] ope

ChATGPT-4の出現により、AIアプリケーションの可能性が大幅に拡大しました。 GPT-3.5と比較して、CHATGPT-4は大幅に改善されました。強力なコンテキスト理解能力を備えており、画像を認識して生成することもできます。普遍的なAIアシスタントです。それは、ビジネス効率の改善や創造の支援など、多くの分野で大きな可能性を示しています。ただし、同時に、その使用における予防策にも注意を払わなければなりません。 この記事では、ChATGPT-4の特性を詳細に説明し、さまざまなシナリオの効果的な使用方法を紹介します。この記事には、最新のAIテクノロジーを最大限に活用するためのスキルが含まれています。参照してください。 Openaiの最新のAIエージェント、「Openai Deep Research」の詳細については、以下のリンクをクリックしてください

ChatGPTアプリ:AIアシスタントで創造性を解き放つ!初心者向けガイド ChatGPTアプリは、文章作成、翻訳、質問応答など、多様なタスクに対応する革新的なAIアシスタントです。創作活動や情報収集にも役立つ、無限の可能性を秘めたツールです。 この記事では、ChatGPTスマホアプリのインストール方法から、音声入力機能やプラグインといったアプリならではの機能、そしてアプリ利用上の注意点まで、初心者にも分かりやすく解説します。プラグインの制限やデバイス間の設定同期についてもしっかりと触れていきま

Chatgpt中国語版:中国語のAIの対話の新しい体験のロックを解除する ChatGptは世界中で人気がありますが、中国語版も提供していることをご存知ですか?この強力なAIツールは、毎日の会話をサポートするだけでなく、プロのコンテンツを処理し、簡素化された伝統的な中国語と互換性があります。中国のユーザーであろうと、中国語を学んでいる友人であろうと、あなたはそれから利益を得ることができます。 この記事では、アカウント設定、中国語の迅速な単語入力、フィルターの使用、さまざまなパッケージの選択を含むChatGpt中国語のバージョンの使用方法を詳細に紹介し、潜在的なリスクと対応戦略を分析します。さらに、ChatGpt中国語版を他の中国のAIツールと比較して、その利点とアプリケーションシナリオをよりよく理解するのに役立ちます。 Openaiの最新のAIインテリジェンス

これらは、生成AIの分野で次の飛躍と考えることができ、ChatGptやその他の大規模なモデルのチャットボットを提供しました。単に質問に答えたり情報を生成したりするのではなく、彼らは私たちに代わって行動を起こすことができます。

ChatGPTを活用した効率的な複数アカウント管理術|ビジネスとプライベートの使い分けも徹底解説! 様々な場面で活用されているChatGPTですが、複数アカウントの管理に頭を悩ませている方もいるのではないでしょうか。この記事では、ChatGPTの複数アカウント作成方法、利用上の注意点、そして安全かつ効率的な運用方法を詳しく解説します。ビジネス利用とプライベート利用の使い分け、OpenAIの利用規約遵守といった重要な点にも触れ、複数アカウントを安全に活用するためのガイドを提供します。 OpenAI


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

SublimeText3 中国語版
中国語版、とても使いやすい
