>多模式檢索儀(RAG)系統正在通過整合多種數據類型(TEXT,圖像,音頻和視頻)來徹底改變AI,從而獲得更多細微差別和上下文感知的響應。 這超過了傳統的抹布,這僅關注文本。 一個關鍵的進步是通訊嵌入,為視覺和文本數據創建了一個統一的空間,從而實現了無縫的跨模式交互。 高級模型會生成高質量的嵌入,改善信息檢索並彌合不同內容形式之間的差距,最終豐富用戶體驗。
學習目標
- 掌握了多模式抹布的基本原理及其優勢比傳統抹布。
- 了解嵌入統一文本和圖像嵌入空間中的作用。
- 比較剪輯模型的somic視覺嵌入,分析性能基準。
- >使用somic Vision和Text Embeddings在Python中實現多模式的RAG系統。
- 學習從PDF中提取和處理多模式檢索的文本和視覺數據。
*本文是*** 數據科學blogathon的一部分。
目錄的>
- 什麼是多模式的抹布?
- nive vision嵌入
- >雜誌嵌入的性能基準
- python實施多模式抹布,帶有通知嵌入
-
- >步驟1:安裝必要的庫
- >步驟2:設置OpenAI API鍵並導入庫
- > 步驟3:從PDF
- 中提取圖像 步驟4:從PDF
- 提取文本 步驟5:保存提取的文本和圖像
- 步驟6:塊文本數據
- >步驟7:加載名詞嵌入模型
- 步驟8:生成嵌入
- >步驟9:將文本嵌入在qdrant
- 中存儲 >步驟10:將圖像嵌入在qdrant
- 中 >步驟11:創建一個多模式獵犬
- 步驟12:用蘭鏈構建多模式抹布
查詢模型 - 結論
- 常見問題
>多模式抹布代表了一個顯著的AI進步,這是通過合併多種數據類型來基於傳統抹布的。與主要處理文本的傳統系統不同,多模式抹布處理並同時集成了多個數據表格。這導致了更全面的理解和背景感知的反應。
鍵多模式抹布組件:
>
媒體嵌入視覺與提名嵌入文本一起訓練,凍結文本編碼器並在圖像文本對上訓練視覺編碼器。這樣可以確保最佳的結果和與名詞嵌入文本嵌入的向後兼容性。 >雜誌嵌入的性能基準
解決剪貼模型限制:
python實施多模式抹布,帶有通知嵌入
本教程構建了一個多模式抹布系統,從包含文本和圖像的PDF檢索信息(使用帶有T4 GPU的Google Colab)。
>步驟1:安裝庫
>步驟2:設置OpenAI API鍵並導入庫
>>設置OpenAI API密鑰並導入所需的庫(Pymupdf,PIL,Langchain,OpenAI等)。 (為簡短而省略了代碼。)
步驟3:從PDF
中提取圖像>使用pymupdf從PDF提取圖像,然後將其保存到目錄中。 (為簡短而省略了代碼。)
步驟4:從PDF
提取文本>使用pymupdf從每個PDF頁面中提取文本。 (為簡短而省略了代碼。)
步驟5:保存提取的數據
>保存提取的圖像和文本。 (為簡短而省略了代碼。)
步驟6:塊文本數據
>使用Langchain'sRecursiveCharacterTextSplitter
將提取的文本分為較小的塊。 (為簡短而省略了代碼。)
>步驟7:加載名詞嵌入模型
>使用擁抱面孔的變形金剛加載Nomic的文本和視覺嵌入模型。 (為簡短而省略了代碼。)
步驟8:生成嵌入
生成文本和圖像嵌入。 (為簡短而省略了代碼。)
>步驟9:將文本嵌入在qdrant
中存儲>將文本嵌入在QDrant集合中。 (為簡短而省略了代碼。)
>步驟10:將圖像嵌入在qdrant
中>將圖像嵌入在單獨的QDrant集合中。 (為簡短而省略了代碼。)
>步驟11:創建一個多模式獵犬
>創建一個函數,以根據查詢檢索相關的文本和圖像嵌入。 (為簡短而省略了代碼。)
步驟12:用蘭鏈構建多模式抹布
>使用Langchain處理被檢索的數據並使用語言模型(例如GPT-4)生成響應。 (為簡短而省略了代碼。)
查詢模型
>示例查詢演示了系統從PDF中從文本和圖像中檢索信息的能力。 (示例查詢和輸出省略了,但在原始中存在。
結論
鑰匙要點
多模式抹布整合了多種數據類型,以更全面地理解。
nive vision嵌入統一視覺和文本數據以改進信息檢索。
該系統使用專門的處理,向量表示和存儲以進行有效檢索。
nimic嵌入視力克服了剪輯在單峰任務中的局限性。 -
- 常見問題
- (為簡潔而省略了常見問題,但以原始形式存在。)
>注意:為簡短而省略了代碼片段,但核心功能和步驟仍然準確地描述了。 原始輸入包含廣泛的代碼;包括所有這些都會使這一響應過長。 請參閱原始輸入以進行完整的代碼實現。
>
多模式抹布整合了多種數據類型,以更全面地理解。
nive vision嵌入統一視覺和文本數據以改進信息檢索。
該系統使用專門的處理,向量表示和存儲以進行有效檢索。
- nimic嵌入視力克服了剪輯在單峰任務中的局限性。
- 常見問題
- (為簡潔而省略了常見問題,但以原始形式存在。) >
注意:為簡短而省略了代碼片段,但核心功能和步驟仍然準確地描述了。 原始輸入包含廣泛的代碼;包括所有這些都會使這一響應過長。 請參閱原始輸入以進行完整的代碼實現。
>以上是用假嵌入增強破布系統的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隨著AI應用的爆炸式增長,企業正從傳統的搜索引擎優化(SEO)轉向生成式引擎優化(GEO)。 谷歌正引領這一轉變。其“AI概述”功能已服務於超過十億用戶,在用戶點擊鏈接之前提供完整的答案。 [^2] 其他參與者也在迅速崛起。 ChatGPT、微軟Copilot和Perplexity正在創造一種全新的“答案引擎”類別,完全繞過了傳統的搜索結果。 如果您的企業沒有出現在這些AI生成的答案中,潛在客戶可能永遠不會發現您——即使您在傳統的搜索結果中排名靠前。 從SEO到GEO——這究竟意味著什麼? 幾十年來

讓我們探索人工通用智能(AGI)的潛在途徑。 該分析是我正在進行的《福布斯》列的AI進步的一部分,並深入研究了達到AGI和人工超智慧(ASI)的複雜性。 (請參閱相關藝術

人機互動:一場互適應的微妙舞蹈 與AI聊天機器人互動,如同參與一場微妙的相互影響的舞蹈。你的提問、回應和偏好逐漸塑造著系統,使其更好地滿足你的需求。現代語言模型通過顯式反饋機制和隱式模式識別來適應用戶的偏好。它們學習你的溝通風格,記住你的偏好,並逐漸調整其回應以符合你的預期。 然而,在我們訓練數字夥伴的同時,同樣重要的事情也在反向發生。我們與這些系統的互動正在微妙地重塑我們自身的溝通模式、思維過程,甚至對人際對話的期望。 我們與AI系統的互動已經開始重塑我們對人際互動的期望。我們適應了即時回應、

AI簡化了野火恢復允許 澳大利亞科技公司Archistar的AI軟件,利用機器學習和計算機視覺,可以自動評估建築計劃以符合當地法規。這種驗證前具有重要意義

愛沙尼亞的數字政府:美國的典範? 美國在官僚主義的效率低下方面掙扎,但愛沙尼亞提供了令人信服的選擇。 這個小國擁有由AI支持的近100%數字化的,以公民為中心的政府。 這不是

計劃婚禮是一項艱鉅的任務,即使是最有條理的夫婦,也常常壓倒了婚禮。 本文是關於AI影響的持續福布斯系列的一部分(請參閱此處的鏈接),探討了生成AI如何徹底改變婚禮計劃。 婚禮上

企業越來越多地利用AI代理商進行銷售,而政府則將其用於各種既定任務。 但是,消費者倡導強調個人需要擁有自己的AI代理人作為對經常定位的辯護的必要性

Google正在領導這一轉變。它的“ AI概述”功能已經為10億用戶提供服務,在任何人單擊鏈接之前提供完整的答案。 [^2] 其他球員也正在迅速獲得地面。 Chatgpt,Microsoft Copilot和PE


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)