本指南展示了建立一個由AI驅動的聊天機器人,該聊天機器人將錄音(會議,播客,訪談)轉換為交互式對話。它利用彙編的彙編,QDRANT進行有效的數據存儲,而通過Sambanova Cloud進行DeepSeek-R1進行智能響應,從而創建了檢索增強發電(RAG)系統。聊天機器人回答了諸如“ [演講者]怎麼說?”之類的問題。或“總結此細分市場”。簡化的Web界面允許用戶實時上傳音頻,查看成績單並與聊天機器人進行交互。
關鍵特徵和學習目標:
- 精確的音頻轉錄:利用彙編API進行揚聲器診斷的準確轉錄,將音頻對話轉換為結構化文本數據。
- 有效的矢量數據庫:使用QDrant使用擁抱面部模型來存儲并快速檢索轉錄的音頻內容的嵌入。
- 上下文感知的響應:使用DeepSeek-R1模型(通過Sambanova Cloud)實現抹布,以生成上下文相關的聊天機器人響應。
- 交互式Web界面:開發一個簡化的Web應用程序,供用戶上傳音頻文件,可視化成績單並動態與聊天機器人互動。
- 端到端的工作流程:集成一個完整的工作流程,結合音頻處理,矢量數據庫管理和AI驅動的響應生成,為基於可擴展的音頻聊天應用程序。
本文是數據科學博客馬拉鬆的一部分。
目錄:
- 彙編概述
- Sambanova Cloud解釋了
- QDRANT:高速矢量數據庫
- DeepSeek-R1:強大的語言模型
- 構建抹布型號:AssemblyAi&DeepSeek-R1
- 先決條件
- 檢索增強發電(RAG)實施
- 簡化應用程序開發
- 結論
- 常見問題
彙編概述:
Assemblyai是從音頻中提取可行見解的強大工具。它的AI驅動語音到文本引擎提供了高度準確的轉錄,甚至可以有效地處理重音和背景噪聲。這使其非常適合轉錄播客,分析客戶呼叫或生成視頻字幕。
Sambanova雲:
Sambanova Cloud使您可以運行大型開源模型(例如DeepSeek-R1(671B參數),速度要比傳統方法快得多,從而消除了複雜的基礎架構管理。它利用可重新配置的數據流單元(RDU),通過以下方式進行出色的性能
- 高內存存儲:消除恆定模型重新加載。
- 優化的數據流:專為高通量任務而設計。
- 即時模型切換:微秒中的模型之間切換。
- 簡化的DeepSeek-R1部署:無需複雜的設置。
- 統一培訓/微調:全部在一個平台內。
QDRANT:高速矢量數據庫:
QDRANT是針對AI應用程序優化的非常快速的矢量數據庫。它在相似性搜索方面表現出色,非常適合推薦系統,圖像搜索和聊天機器人等任務。 Qdrant迅速找到了複雜數據(例如文本嵌入或視覺特徵)的最接近的匹配。
DeepSeek-R1:強大的語言模型:
DeepSeek-R1是一種先進的語言模型,將類似人類的適應性與尖端AI結合在一起。它的優勢在於其理解背景,語氣和意圖的能力,產生直覺和精確的反應。對於各種自然語言處理任務,包括內容創建,翻譯,代碼調試和報告摘要非常有效。
構建抹布型號:AssemblyAi&DeepSeek-R1
本節詳細介紹了抹布系統的構建。
1。先決條件:
克隆存儲庫: git clone https://github.com/karthikponna/chat_with_audios.git
創建並激活虛擬環境(為MacOS/Linux和Windows提供的說明)。
安裝依賴項: pip install -r requirements.txt
在.env
文件中設置環境變量(AssemblyAi和Sambanova API密鑰)。
2。檢索增強發電(RAG)實施:
代碼(在rag_code.py
中)是使用Llama索引構建的,並包含以下功能:
- 批處理處理和嵌入:有效處理大型數據集。
- QDRANT數據庫交互:設置並管理QDRANT矢量數據庫。
- 查詢嵌入和檢索:將查詢轉換為嵌入,並從QDRANT檢索相關結果。
- 抹布智能查詢助理:結合了檢索和Sambanova Cloud LLM,以獲取上下文感知的答案。
- 帶有彙編的音頻轉錄:用揚聲器診斷轉錄音頻文件。
(省略了詳細的代碼片段,但原始響應提供了完整的代碼。)
3。簡化應用程序開發:
app.py
文件創建一個簡化的Web應用程序,其中具有以下功能:
- 音頻文件上傳:用戶上傳音頻文件(MP3,WAV,M4A)。
- 轉錄顯示:顯示彙編生成的成績單。
- 聊天機器人交互:允許用戶詢問有關音頻內容的問題。
- 會話狀態管理:維護聊天歷史記錄和文件緩存。
(省略了詳細的代碼片段,但原始響應提供了完整的代碼。)
結論:
該項目成功地集成了AssemblyAi,Sambanova Cloud,Qdrant和DeepSeek-R1,以創建使用RAG的功能強大的基於音頻的聊天機器人。提供的代碼和說明使用戶能夠構建和部署此應用程序。 GitHub存儲庫提供了進一步的探索和定制機會。
GitHub repo: https://www.php.cn/link/4803eb7efe3ec7031867d3f9fe9f4f4dc5
常見問題(常見問題解答):
(原始響應包含有關抹布,嵌入模型自定義,提示模板修改和使用QDRANT的FAQ的答案。)
以上是使用彙編,QDRANT和DEEPSEEK-R1構建音頻抹布的詳細內容。更多資訊請關注PHP中文網其他相關文章!

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版
中文版,非常好用

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。