文本嵌入是自然語言處理(NLP)的基石,提供了文本的數值表示,其中單詞或短語成為真實數字的密集向量。這使機器可以理解語義含義和單詞之間的關係,從而顯著提高其處理人類語言的能力。
這些嵌入對於文本分類,信息檢索和語義相似性檢測等任務至關重要。 Openai推薦了ADA V2模型來創建它們,從而利用GPT系列的強度來捕獲文本中的上下文含義和關聯。
在繼續之前,假定對OpenAI的API和openai
Python軟件包的熟悉程度(請參閱“使用Python中的OpenAI API使用GPT-3.5和GPT-4”以獲取指導。了解聚類,尤其是K-均值,也很有幫助(請參閱“與Scikit-Learn在Python中介紹K-Means聚類的簡介”)。
文本嵌入的應用:
文本嵌入在許多領域中找到應用程序,包括:
- 文本分類:建立精確的模型,以進行情感分析或主題標識。
- 信息檢索:檢索與特定查詢相關的信息,模仿搜索引擎功能。
- 語義相似性檢測:識別和量化文本片段之間的語義相似性。
- 建議系統:通過了解文本交互中的用戶偏好來增強建議質量。
- 文本生成:生成更連貫和上下文相關的文本。
- 機器翻譯:通過捕獲跨語義語義含義來改善機器翻譯質量。
設置和安裝:
需要以下python軟件包: os
, openai
, scipy.spatial.distance
, sklearn.cluster.KMeans
和umap.UMAP
。使用:
PIP安裝-U Openai Scipy Plotly-Express Scikit-Learn Umap-learn
導入所需的庫:
導入操作系統 進口Openai 從scipy.Spatial進口距離 導入plotly.extress為px 來自Sklearn.Cluster Import Kmeans 來自UMAP進口UMAP
配置您的OpenAI API密鑰:
openai.api_key =”<your_api_key_here> “</your_api_key_here>
(請記住要替換<your_api_key_here></your_api_key_here>
使用您的實際鑰匙。)
生成嵌入:
該輔助功能使用text-embedding-ada-002
模型生成嵌入:
def get_embedding(text_to_embed): 響應= openai.embedding.create( 型號=“ text-embedding-ada-002”, 輸入= [text_to_embed] ) 嵌入=響應[“數據”] [0] [“嵌入”] 返回嵌入
數據集和分析:
此示例使用Amazon樂器評論數據集(可在Kaggle或作者的GitHub上找到)。為了提高效率,使用了100個評論的樣本。
導入大熊貓作為pd data_url =“ https://raw.githubusercontent.com/keitazoumana/experimentation-data/main/main/musical_instruments_reviews.csv” 評論_df = pd.read_csv(data_url)[['eviewText']] 評論_df =評論_df.sample(100) 評論_df [“嵌入”] = eview_df [“評論Text”]。astype(str).apply(get_embedding) 評論_df.Reset_index(drop = true,inplace = true)
語義相似性:
使用scipy.spatial.distance.pdist()
計算的歐幾里得距離測量了回顧嵌入之間的相似性。較小的距離表示更大的相似性。
聚類分析(K-均值):
K-均值聚類小組類似評論。在這裡,使用了三個集群:
kmeans = kmeans(n_clusters = 3) kmeanss.fit(review_df [“嵌入”]。tolist())
減少維度(UMAP):
UMAP將嵌入維度降低至兩個以進行可視化:
還原= umap() embeddings_2d = reducer.fit_transform(eview_df [“ embedding”]。tolist())
可視化:
一個散點圖可視化簇:
無花果= px.scatter(x = embeddings_2d [:,0],y = embeddings_2d [:,1],color = kmeans.labels_) 圖show()
進一步探索:
要進行高級學習,請探索微調GPT-3和OpenAI API備忘單上的數據掃描資源。
代碼示例以更簡潔和有組織的方式提出,以提高可讀性和理解。根據要求包含圖像。
以上是使用OpenAI API利用文本嵌入:實用指南的詳細內容。更多資訊請關注PHP中文網其他相關文章!

自2008年以來,我一直倡導這輛共享乘車麵包車,即後來被稱為“ Robotjitney”,後來是“ Vansit”,這是城市運輸的未來。 我預見這些車輛是21世紀的下一代過境解決方案Surpas

革新結帳體驗 Sam's Club的創新性“ Just Go”系統建立在其現有的AI驅動“掃描和GO”技術的基礎上,使會員可以在購物旅行期間通過Sam's Club應用程序進行掃描。

NVIDIA在GTC 2025上的增強可預測性和新產品陣容 NVIDIA是AI基礎架構的關鍵參與者,正在專注於提高其客戶的可預測性。 這涉及一致的產品交付,達到績效期望以及

Google的Gemma 2:強大,高效的語言模型 Google的Gemma語言模型家族以效率和性能而慶祝,隨著Gemma 2的到來而擴展。此最新版本包括兩種模型:270億個參數VER

這一領先的數據劇集以數據科學家,天體物理學家和TEDX演講者Kirk Borne博士為特色。 Borne博士是大數據,AI和機器學習的著名專家,為當前狀態和未來的Traje提供了寶貴的見解

這次演講中出現了一些非常有見地的觀點——關於工程學的背景信息,這些信息向我們展示了為什麼人工智能如此擅長支持人們的體育鍛煉。 我將從每位貢獻者的觀點中概括出一個核心思想,以展示三個設計方面,這些方面是我們探索人工智能在體育運動中應用的重要組成部分。 邊緣設備和原始個人數據 關於人工智能的這個想法實際上包含兩個組成部分——一個與我們放置大型語言模型的位置有關,另一個與我們人類語言和我們的生命體徵在實時測量時“表達”的語言之間的差異有關。 Alexander Amini 對跑步和網球都很了解,但他還

卡特彼勒(Caterpillar)的首席信息官兼高級副總裁傑米·恩格斯特(Jamie Engstrom)領導了一支由28個國家 /地區的2200多名IT專業人員組成的全球團隊。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增強照片,將標準圖像轉換為充滿活力的高動態範圍傑作。對於社交媒體而言,此工具可提高任何照片的影響,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。