>多模式檢索儀(RAG)系統正在通過整合多種數據類型(TEXT,圖像,音頻和視頻)來徹底改變AI,從而獲得更多細微差別和上下文感知的響應。 這超過了傳統的抹布,這僅關注文本。 一個關鍵的進步是通訊嵌入,為視覺和文本數據創建了一個統一的空間,從而實現了無縫的跨模式交互。 高級模型會生成高質量的嵌入,改善信息檢索並彌合不同內容形式之間的差距,最終豐富用戶體驗。
學習目標
- 掌握了多模式抹布的基本原理及其優勢比傳統抹布。
- 了解嵌入統一文本和圖像嵌入空間中的作用。
- 比較剪輯模型的somic視覺嵌入,分析性能基準。
- >使用somic Vision和Text Embeddings在Python中實現多模式的RAG系統。
- 學習從PDF中提取和處理多模式檢索的文本和視覺數據。
*本文是*** 數據科學blogathon的一部分。
目錄的
>
什麼是多模式的抹布? -
nive vision嵌入-
>雜誌嵌入的性能基準-
python實施多模式抹布,帶有通知嵌入-
>步驟1:安裝必要的庫-
>步驟2:設置OpenAI API鍵並導入庫- >
步驟3:從PDF- 中提取圖像
步驟4:從PDF- 提取文本
步驟5:保存提取的文本和圖像-
步驟6:塊文本數據-
>步驟7:加載名詞嵌入模型-
步驟8:生成嵌入-
>步驟9:將文本嵌入在qdrant - 中存儲
>步驟10:將圖像嵌入在qdrant - 中
>步驟11:創建一個多模式獵犬-
步驟12:用蘭鏈構建多模式抹布-
查詢模型-
結論-
常見問題-
什麼是多模式的抹布?
>多模式抹布代表了一個顯著的AI進步,這是通過合併多種數據類型來基於傳統抹布的。與主要處理文本的傳統系統不同,多模式抹布處理並同時集成了多個數據表格。這導致了更全面的理解和背景感知的反應。
鍵多模式抹布組件:
- >數據攝入:來自各種來源的數據是使用專用處理器攝入的,確保驗證,清潔和歸一化。
>
- >向量表示:>使用神經網絡(例如,圖像的剪輯,文本的剪輯,bert for Text)來處理統一的矢量嵌入,保留語義關係。
>
使用索引技術(HNSW,FAISS),將> >向量數據庫存儲:- 嵌入嵌入在優化的矢量數據庫(例如qdrant)中,以有效檢索。
查詢處理:
>傳入查詢被分析,轉換為與存儲數據相同的向量空間,並用於識別相關模態並生成用於搜索的嵌入。
-
nive vision嵌入
解決剪貼模型限制:
>
>剪輯以零拍功能出色時,其文本編碼在圖像檢索之外的任務中表現不佳(如MTEB基準測試所示)。 Nimic Embed Vision通過將其視覺編碼器與嵌入式文本潛在空間保持一致來解決這一點。
媒體嵌入視覺與提名嵌入文本一起訓練,凍結文本編碼器並在圖像文本對上訓練視覺編碼器。這樣可以確保最佳的結果和與名詞嵌入文本嵌入的向後兼容性。
>
>雜誌嵌入的性能基準
剪輯模型雖然在零拍功能方面令人印象深刻,但在語義相似性(MTEB基準)等單峰任務中顯示出弱點。通用嵌入視覺通過將其視覺編碼器與名詞嵌入文本潛在空間保持一致,從而克服了這一點,從而在圖像,文本和多模式任務(Imagenet Zero-Shot,MTEB,MTEB,DataComp Benchmarks)中產生了強大的性能。
python實施多模式抹布,帶有通知嵌入
本教程構建了一個多模式抹布系統,從包含文本和圖像的PDF檢索信息(使用帶有T4 GPU的Google Colab)。
>步驟1:安裝庫
安裝必要的Python庫:OpenAI,QDRANT,Transformers,Torch,Pymupdf等
>步驟2:設置OpenAI API鍵並導入庫
>
>設置OpenAI API密鑰並導入所需的庫(Pymupdf,PIL,Langchain,OpenAI等)。 (為簡短而省略了代碼。)
步驟3:從PDF
中提取圖像
>使用pymupdf從PDF提取圖像,然後將其保存到目錄中。 (為簡短而省略了代碼。)
步驟4:從PDF
提取文本
>使用pymupdf從每個PDF頁面中提取文本。 (為簡短而省略了代碼。)
步驟5:保存提取的數據
>保存提取的圖像和文本。 (為簡短而省略了代碼。)
步驟6:塊文本數據
>使用Langchain'sRecursiveCharacterTextSplitter
將提取的文本分為較小的塊。 (為簡短而省略了代碼。)
>步驟7:加載名詞嵌入模型
>使用擁抱面孔的變形金剛加載Nomic的文本和視覺嵌入模型。 (為簡短而省略了代碼。)
步驟8:生成嵌入
生成文本和圖像嵌入。 (為簡短而省略了代碼。)
>步驟9:將文本嵌入在qdrant
中存儲
>將文本嵌入在QDrant集合中。 (為簡短而省略了代碼。)
>步驟10:將圖像嵌入在qdrant
中
>將圖像嵌入在單獨的QDrant集合中。 (為簡短而省略了代碼。)
>步驟11:創建一個多模式獵犬
>創建一個函數,以根據查詢檢索相關的文本和圖像嵌入。 (為簡短而省略了代碼。)
步驟12:用蘭鏈構建多模式抹布
>使用Langchain處理被檢索的數據並使用語言模型(例如GPT-4)生成響應。 (為簡短而省略了代碼。)
查詢模型
>示例查詢演示了系統從PDF中從文本和圖像中檢索信息的能力。 (示例查詢和輸出省略了,但在原始中存在。
結論
鑰匙要點
多模式抹布整合了多種數據類型,以更全面地理解。
nive vision嵌入統一視覺和文本數據以改進信息檢索。
該系統使用專門的處理,向量表示和存儲以進行有效檢索。
以上是用假嵌入增強破布系統的詳細內容。更多資訊請關注PHP中文網其他相關文章!