テキストの埋め込みは、自然言語処理(NLP)の基礎であり、単語やフレーズが実数の密度の高いベクターになるテキストの数値表現を提供します。これにより、マシンは単語間の意味的な意味と関係を理解し、人間の言語を処理する能力を大幅に改善できます。
これらの埋め込みは、テキスト分類、情報検索、セマンティックな類似性の検出などのタスクに不可欠です。 Openaiは、それらを作成するためのADA V2モデルを推奨し、テキスト内のコンテキストの意味と関連付けをキャプチャする際のGPTシリーズの強さを活用します。
先に進む前に、OpenaiのAPIとopenai
Pythonパッケージに精通していることが想定されています(ガイダンスについては、「PythonのPopenai APIを介してGPT-3.5およびGPT-4を使用する」を参照)。クラスタリング、特にK-meansの理解も役立ちます(「PythonのScikit-Learnを使用したK-Meansクラスタリングの紹介」を参照)。
テキスト埋め込みのアプリケーション:
テキスト埋め込み:以下を含む多くの領域でアプリケーションを見つけます。
- テキスト分類:感情分析またはトピック識別のための正確なモデルの構築。
- 情報検索:特定のクエリに関連する情報の取得、検索エンジン機能の模倣。
- セマンティックな類似性検出:テキストスニペット間のセマンティックな類似性の識別と定量化。
- 推奨システム:テキストインタラクションからのユーザーの好みを理解することにより、推奨品質を向上させます。
- テキスト生成:よりコヒーレントで文脈的に関連するテキストを生成します。
- 機械の翻訳:横断的な意味的な意味をキャプチャすることにより、機械翻訳の品質を向上させます。
セットアップとインストール:
次のPythonパッケージが必要です: os
、 openai
、 scipy.spatial.distance
、 sklearn.cluster.KMeans
、およびumap.UMAP
。それらを使用してそれらをインストールします:
PIPインストール-U Openai Scipy Plotly-Express Scikit-LearnUMap-Learn
必要なライブラリをインポートします。
OSをインポートします Openaiをインポートします Scipy.spatial Import距離から pxとしてplotly.Expressをインポートします Sklearn.Cluster Import KMeansから UMAPからImport UMAPから
Openai APIキーを構成します:
openai.api_key = "<your_api_key_here> 「</your_api_key_here>
(交換することを忘れないでください<your_api_key_here></your_api_key_here>
あなたの実際のキーで。)
埋め込みの生成:
このヘルパー関数はtext-embedding-ada-002
モデルを使用して、埋め込みを生成します。
def get_embeding(text_to_embed): response = openai.embeding.create( Model = "Text-embedding-ada-002"、 input = [text_to_embed] )) 埋め込み= response ["data"] [0] ["埋め込み"]] 埋め込みを返します
データセットと分析:
この例では、Amazonの楽器レビューデータセット(Kaggleまたは著者のGithubで入手可能)を使用しています。効率のために、100のレビューのサンプルが使用されます。
PDとしてパンダをインポートします data_url = "https://raw.githubusercontent.com/keitazoumana/experimentation-data/main/musical_instruments_reviews.csv" Review_df = pd.read_csv(data_url)[['reviewtext']] Review_df = Review_df.Sample(100) Review_df ["Embedding"] = review_df ["ReviewText"]。astype(str).apply(get_embeding) Review_df.reset_index(drop = true、inplace = true)
セマンティックの類似性:
scipy.spatial.distance.pdist()
を使用して計算されたユークリッド距離は、レビュー埋め込み間の類似性を測定します。距離が小さいことは、より大きな類似性を示します。
クラスター分析(k-means):
K-Meansクラスタリンググループ同様のレビュー。ここでは、3つのクラスターが使用されます。
kmeans = kmeans(n_clusters = 3) kmeans.fit(review_df ["embedding"]。tolist())
次元削減(UMAP):
UMAPは、視覚化のために埋め込み次元を2に減らします。
reducer = umap() embeddings_2d = reducer.fit_transform(review_df ["embedding"]。tolist()))
視覚化:
散布図はクラスターを視覚化します:
fig = px.scatter(x = embeddings_2d [:、0]、y = embeddings_2d [:、1]、color = kmeans.labels_) fig.show()
さらなる調査:
高度な学習については、微調整GPT-3およびOpenai APIチートシートに関するデータカンプリソースを探索してください。
コードの例は、より簡潔で組織化された方法で提示され、読みやすさと理解を向上させます。画像は要求に応じて含まれています。
以上がOpenai APIを使用したテキストの埋め込みを活用する:実用的なガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

2008年以来、私は共有ライドバンを擁護しました。これは、「Robotjitney」と呼ばれる「後に「Vansit」と呼ばれ、都市交通の未来として擁護しました。 私はこれらの車両を21世紀の次世代トランジットソリューション、スルパとして予見します

チェックアウトエクスペリエンスに革命をもたらす Sam's Clubの革新的な「Just Go」システムは、既存のAIを搭載した「スキャン&ゴー」テクノロジーに基づいて構築され、ショッピング旅行中にメンバーがサムズクラブアプリを介して購入をスキャンできるようになりました。

GTC 2025でのNvidiaの強化された予測可能性と新製品のラインナップ AIインフラストラクチャの重要なプレーヤーであるNvidiaは、クライアントの予測可能性の向上に焦点を当てています。 これには、一貫した製品配信、パフォーマンスの期待を満たすこと、および

GoogleのGemma 2:強力で効率的な言語モデル 効率とパフォーマンスで祝われるGoogleのGemmaファミリーは、Gemma 2の到着とともに拡大しました。この最新リリースは2つのモデルで構成されています。

データエピソードを率いるこの主要なのは、主要なデータサイエンティスト、天体物理学者、TEDXスピーカーであるカークボーン博士を特徴としています。 ビッグデータ、AI、および機械学習の有名な専門家であるボルネ博士は、現在の状態と将来のトラジェについて非常に貴重な洞察を提供しています

このスピーチには、人工知能が人々の運動をサポートするのに非常に優れている理由を示すエンジニアリングに関するバックグラウンド情報には、非常に洞察に満ちた視点がいくつかありました。 各寄稿者の観点からコアアイデアを概説し、スポーツにおける人工知能の適用の調査の重要な部分である3つの設計側面を実証します。 エッジデバイスと生の個人データ 人工知能に関するこのアイデアには、実際には2つのコンポーネントが含まれています。1つは大きな言語モデルを配置する場所に関連しており、もう1つは人間の言語と、リアルタイムで測定したときにバイタルサインが「表現」する言語の違いに関連しています。 アレクサンダー・アミニはランニングとテニスについて多くのことを知っていますが、彼はまだ

Caterpillarの最高情報責任者であり、その上級副社長であるJamie Engstromは、28か国の2,200人以上のITプロフェッショナルのグローバルチームを率いています。 彼女の現在の役割で4年半を含むCaterpillarで26年間、Engst

Google Photosの新しいUltra HDRツール:クイックガイド Google Photosの新しいUltra HDRツールで写真を強化し、標準画像を活気に満ちた高ダイナミックレンジの傑作に変換します。ソーシャルメディアに最適なこのツールは、あらゆる写真の影響を高め、


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

WebStorm Mac版
便利なJavaScript開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン
