本指南展示了建立一个由AI驱动的聊天机器人,该聊天机器人将录音(会议,播客,访谈)转换为交互式对话。它利用汇编的汇编,QDRANT进行有效的数据存储,而通过Sambanova Cloud进行DeepSeek-R1进行智能响应,从而创建了检索增强发电(RAG)系统。聊天机器人回答了诸如“ [演讲者]怎么说?”之类的问题。或“总结此细分市场”。简化的Web界面允许用户实时上传音频,查看成绩单并与聊天机器人进行交互。
关键特征和学习目标:
- 精确的音频转录:利用汇编API进行扬声器诊断的准确转录,将音频对话转换为结构化文本数据。
- 有效的矢量数据库:使用QDrant使用拥抱面部模型来存储并快速检索转录的音频内容的嵌入。
- 上下文感知的响应:使用DeepSeek-R1模型(通过Sambanova Cloud)实现抹布,以生成上下文相关的聊天机器人响应。
- 交互式Web界面:开发一个简化的Web应用程序,供用户上传音频文件,可视化成绩单并动态与聊天机器人互动。
- 端到端的工作流程:集成一个完整的工作流程,结合音频处理,矢量数据库管理和AI驱动的响应生成,为基于可扩展的音频聊天应用程序。
本文是数据科学博客马拉松的一部分。
目录:
- 汇编概述
- Sambanova Cloud解释了
- QDRANT:高速矢量数据库
- DeepSeek-R1:强大的语言模型
- 构建抹布型号:AssemblyAi&DeepSeek-R1
- 先决条件
- 检索增强发电(RAG)实施
- 简化应用程序开发
- 结论
- 常见问题
汇编概述:
Assemblyai是从音频中提取可行见解的强大工具。它的AI驱动语音到文本引擎提供了高度准确的转录,甚至可以有效地处理重音和背景噪声。这使其非常适合转录播客,分析客户呼叫或生成视频字幕。
Sambanova云:
Sambanova Cloud使您可以运行大型开源模型(例如DeepSeek-R1(671B参数),速度要比传统方法快得多,从而消除了复杂的基础架构管理。它利用可重新配置的数据流单元(RDU),通过以下方式进行出色的性能
- 高内存存储:消除恒定模型重新加载。
- 优化的数据流:专为高通量任务而设计。
- 即时模型切换:微秒中的模型之间切换。
- 简化的DeepSeek-R1部署:无需复杂的设置。
- 统一培训/微调:全部在一个平台内。
QDRANT:高速矢量数据库:
QDRANT是针对AI应用程序优化的非常快速的矢量数据库。它在相似性搜索方面表现出色,非常适合推荐系统,图像搜索和聊天机器人等任务。 Qdrant迅速找到了复杂数据(例如文本嵌入或视觉特征)的最接近的匹配。
DeepSeek-R1:强大的语言模型:
DeepSeek-R1是一种先进的语言模型,将类似人类的适应性与尖端AI结合在一起。它的优势在于其理解背景,语气和意图的能力,产生直觉和精确的反应。对于各种自然语言处理任务,包括内容创建,翻译,代码调试和报告摘要非常有效。
构建抹布型号:AssemblyAi&DeepSeek-R1
本节详细介绍了抹布系统的构建。
1。先决条件:
克隆存储库: git clone https://github.com/karthikponna/chat_with_audios.git
创建并激活虚拟环境(为MacOS/Linux和Windows提供的说明)。
安装依赖项: pip install -r requirements.txt
在.env
文件中设置环境变量(AssemblyAi和Sambanova API密钥)。
2。检索增强发电(RAG)实施:
代码(在rag_code.py
中)是使用Llama索引构建的,并包含以下功能:
- 批处理处理和嵌入:有效处理大型数据集。
- QDRANT数据库交互:设置并管理QDRANT矢量数据库。
- 查询嵌入和检索:将查询转换为嵌入,并从QDRANT检索相关结果。
- 抹布智能查询助理:结合了检索和Sambanova Cloud LLM,以获取上下文感知的答案。
- 带有汇编的音频转录:用扬声器诊断转录音频文件。
(省略了详细的代码片段,但原始响应提供了完整的代码。)
3。简化应用程序开发:
app.py
文件创建一个简化的Web应用程序,其中具有以下功能:
- 音频文件上传:用户上传音频文件(MP3,WAV,M4A)。
- 转录显示:显示汇编生成的成绩单。
- 聊天机器人交互:允许用户询问有关音频内容的问题。
- 会话状态管理:维护聊天历史记录和文件缓存。
(省略了详细的代码片段,但原始响应提供了完整的代码。)
结论:
该项目成功地集成了AssemblyAi,Sambanova Cloud,Qdrant和DeepSeek-R1,以创建使用RAG的功能强大的基于音频的聊天机器人。提供的代码和说明使用户能够构建和部署此应用程序。 GitHub存储库提供了进一步的探索和定制机会。
GitHub repo: https://www.php.cn/link/4803eb7efe3ec7031867d3f9fe9f4f4dc5
常见问题(常见问题解答):
(原始响应包含有关抹布,嵌入模型自定义,提示模板修改和使用QDRANT的FAQ的答案。)
以上是使用汇编,QDRANT和DEEPSEEK-R1构建音频抹布的详细内容。更多信息请关注PHP中文网其他相关文章!

拥抱Face的OlympicCoder-7B:强大的开源代码推理模型 开发以代码为中心的语言模型的竞赛正在加剧,拥抱面孔与强大的竞争者一起参加了比赛:OlympicCoder-7B,一种产品

你们当中有多少人希望AI可以做更多的事情,而不仅仅是回答问题?我知道我有,最近,我对它的变化感到惊讶。 AI聊天机器人不仅要聊天,还关心创建,研究

随着智能AI开始融入企业软件平台和应用程序的各个层面(我们必须强调的是,既有强大的核心工具,也有一些不太可靠的模拟工具),我们需要一套新的基础设施能力来管理这些智能体。 总部位于德国柏林的流程编排公司Camunda认为,它可以帮助智能AI发挥其应有的作用,并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能,旨在帮助组织建模、部署和管理AI智能体。 从实际的软件工程角度来看,这意味着什么? 确定性与非确定性流程的融合 该公司表示,关键在于允许用户(通常是数据科学家、软件

参加Google Cloud Next '25,我渴望看到Google如何区分其AI产品。 有关代理空间(此处讨论)和客户体验套件(此处讨论)的最新公告很有希望,强调了商业价值

为您的检索增强发电(RAG)系统选择最佳的多语言嵌入模型 在当今的相互联系的世界中,建立有效的多语言AI系统至关重要。 强大的多语言嵌入模型对于RE至关重要

特斯拉的Austin Robotaxi发射:仔细观察Musk的主张 埃隆·马斯克(Elon Musk)最近宣布,特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射,最初出于安全原因部署了一支小型10-20辆汽车,并有快速扩张的计划。 h

人工智能的应用方式可能出乎意料。最初,我们很多人可能认为它主要用于代劳创意和技术任务,例如编写代码和创作内容。 然而,哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作,而是支持、组织,甚至是友谊! 报告称,人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。 另一方面,营销任务(例如撰写博客、创建社交媒体帖子或广告文案)在流行用途列表中的排名要低得多。 这是为什么呢?让我们看看研究结果及其对我们人类如何继续将


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3汉化版
中文版,非常好用

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。