このガイドは、オーディオ録音(会議、ポッドキャスト、インタビュー)をインタラクティブな会話に変換するAI駆動のチャットボットを構築することを示しています。インテリジェントな応答のためにサンバノバクラウドを介して、転写のためにアセンブリ、QDRANT、およびDeepSeek-R1を活用し、検索拡張生成(RAG)システムを作成します。チャットボットは、「[スピーカー]は何と言ったの?」などの質問に答えます。または「このセグメントを要約します。」 retrentlit Webインターフェイスを使用すると、ユーザーはオーディオをアップロードしたり、トランスクリプトを表示したり、チャットボットをリアルタイムでやり取りしたりできます。
主な機能と学習目標:
- 正確なオーディオ転写: Speaker Diarizationを使用した正確な転写のためにAssemblyAi APIを利用して、オーディオ会話を構造化されたテキストデータに変換します。
- 効率的なベクトルデータベース: QDRANTを使用して保存し、ハグするフェイスモデルを使用して、転写されたオーディオコンテンツの埋め込みをすばやく取得します。
- コンテキストアウェア応答: DeepSeek-R1モデル(Sambanova Cloud経由)でRAGを実装して、コンテキストに関連するチャットボット応答を生成します。
- インタラクティブなWebインターフェイス:ユーザーがオーディオファイルをアップロードし、トランスクリプトを視覚化し、チャットボットと動的に関与するためのretreamlit Webアプリケーションを開発します。
- エンドツーエンドのワークフロー:オーディオ処理、ベクトルデータベース管理、およびスケーラブルなオーディオベースのチャットアプリケーションのAI駆動型応答生成を組み合わせた完全なワークフローを統合します。
この記事は、Data Science Blogathonの一部です。
目次:
- Assemblyaiの概要
- Sambanova Cloudは説明しました
- QDRANT:高速ベクトルデータベース
- DeepSeek-R1:強力な言語モデル
- RAGモデルの構築:Assemblyai&Deepseek-R1
- 前提条件
- 検索拡張生成(RAG)実装
- retrylidアプリケーション開発
- 結論
- よくある質問
Assemblyaiの概要:
AssemblyAiは、オーディオから実用的な洞察を抽出するための強力なツールです。 AI駆動型の音声からテキストエンジンは、非常に正確な転写を提供し、アクセントやバックグラウンドノイズを効果的に処理することもできます。これにより、ポッドキャストの転写、顧客通話の分析、ビデオキャプションの生成に最適です。
Sambanova Cloud:
Sambanova Cloudを使用すると、DeepSeek-R1(671Bパラメーター)などの大規模なオープンソースモデルを従来の方法よりも大幅に速く実行し、複雑なインフラストラクチャ管理を排除できます。再構成可能なデータフローユニット(RDU)を使用して、優れたパフォーマンスを通じて以下を利用します。
- メモリ内の高いストレージ:一定のモデルのリロードを排除します。
- 最適化されたデータフロー:ハイスループットタスク用に設計されています。
- インスタントモデルスイッチング:マイクロ秒単位でモデルを切り替えます。
- Simplied DeepSeek-R1展開:複雑なセットアップは必要ありません。
- 統一されたトレーニング/微調整:すべて単一のプラットフォーム内。
QDRANT:高速ベクトルデータベース:
QDRANTは、AIアプリケーション向けに最適化された非常に高速なベクトルデータベースです。類似性の検索に優れており、推奨システム、画像検索、チャットボットなどのタスクに最適です。 QDRANTは、テキストの埋め込みや視覚的な機能など、複雑なデータに最も近い一致をすぐに見つけます。
DeepSeek-R1:強力な言語モデル:
DeepSeek-R1は、人間のような適応性と最先端のAIを組み合わせた高度な言語モデルです。その強さは、文脈、トーン、意図を理解する能力にあり、直感的で正確な反応を生み出します。コンテンツの作成、翻訳、コードデバッグ、レポートの要約など、さまざまな自然言語処理タスクに非常に効果的です。
RAGモデルの構築:Assemblyai&Deepseek-R1
このセクションでは、RAGシステムの構築について詳しく説明します。
1。前提条件:
リポジトリのクローン: git clone https://github.com/karthikponna/chat_with_audios.git
仮想環境(MacOS/LinuxおよびWindowsに提供される命令)を作成してアクティブ化します。
依存関係のインストール: pip install -r requirements.txt
.env
ファイルに環境変数(AssemblyAIおよびSambanova APIキー)をセットアップします。
2。検索拡張生成(RAG)実装:
コード( rag_code.py
)は、llamaインデックスを使用して構成されており、以下の機能が含まれています。
- バッチ処理と埋め込み:大規模なデータセットを効率的に処理します。
- QDRANTデータベースインタラクション: QDRANTベクターデータベースを設定および管理します。
- クエリの埋め込みと検索:クエリを埋め込みに変換し、QDRANTから関連する結果を取得します。
- Rag Smartクエリアシスタント:検索とSambanova Cloud LLMを組み合わせて、コンテキスト対応の回答を得ます。
- AssemblyAIを使用したオーディオ転写:スピーカーの日記を備えたオーディオファイルを転写します。
(Brevityのために詳細なコードスニペットは省略されていますが、元の応答は完全なコードを提供します。)
3。応援アプリケーション開発:
app.py
ファイルは、次の機能を備えたretrylid Webアプリケーションを作成します。
- オーディオファイルアップロード:ユーザーはオーディオファイルをアップロードします(MP3、WAV、M4A)。
- 転写ディスプレイ:アセンブリ生成転写産物を示しています。
- チャットボットインタラクション:ユーザーはオーディオコンテンツについて質問することができます。
- セッション状態管理:チャット履歴とファイルキャッシュを維持します。
(Brevityのために詳細なコードスニペットは省略されていますが、元の応答は完全なコードを提供します。)
結論:
このプロジェクトは、AssemblyAI、Sambanova Cloud、Qdrant、およびDeepSeek-R1を統合して、RAGを使用して強力なオーディオベースのチャットボットを作成します。提供されたコードと手順により、ユーザーはこのアプリケーションを構築および展開できます。 GitHubリポジトリは、さらなる調査とカスタマイズの機会を提供します。
Github Repo: https://www.php.cn/link/4803eb7efe3ec7031867d3f9fe9f4dc5
よくある質問(FAQ):
(元の応答には、RAG、埋め込みモデルのカスタマイズ、プロンプトテンプレートの変更、およびQDRANTの使用に関するFAQへの回答が含まれています。)
以上がAssemblyAI、QDRANT、DEEPSEEK-R1を使用してオーディオラグを構築しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

FaceのOlympiccoder-7Bを抱き締める:強力なオープンソースコード推論モデル 優れたコードに焦点を当てた言語モデルを開発するための競争は激化しており、顔を抱き締めることは、恐るべき競争相手との競争に参加しました:Olympiccoder-7B、製品

AIが質問に答えるだけでなく、AIができることを望んでいる人は何人いますか?私は自分が持っていることを知っています、そして最近、私はそれがどのように変容しているかに驚いています。 aiチャットボットはもうチャットするだけでなく、作成することです。

Smart AIは、エンタープライズソフトウェアプラットフォームとアプリケーションのあらゆるレベルのレベルに統合され始めているため(強力なコアツールと信頼性の低いシミュレーションツールの両方があることを強調する必要があります)、これらのエージェントを管理するための新しいインフラストラクチャ機能のセットが必要です。 ドイツのベルリンに拠点を置くプロセスオーケストレーション会社であるCamundaは、Smart AIが適切な役割を果たし、新しいデジタル職場での正確なビジネス目標とルールと一致するのに役立つと考えています。同社は現在、組織がAIエージェントのモデル化、展開、管理を支援するように設計されたインテリジェントオーケストレーション機能を提供しています。 実用的なソフトウェアエンジニアリングの観点から、これはどういう意味ですか? 確実性と非決定的プロセスの統合 同社は、鍵はユーザー(通常はデータサイエンティスト、ソフトウェア)を許可することだと言いました

次の'25年にGoogle Cloudに参加して、GoogleがどのようにAIの製品を区別するかを見たいと思っていました。 エージェントスペース(ここで説明)とカスタマーエクスペリエンススイート(ここで説明)に関する最近の発表は、ビジネス価値を強調し、

検索拡張生成(RAG)システムのための最適な多言語埋め込みモデルの選択 今日の相互接続された世界では、効果的な多言語AIシステムを構築することが最重要です。 REには、堅牢な多言語埋め込みモデルが重要です

テスラのオースティンロボタキシローンチ:マスクの主張を詳しく見る Elon Muskは最近、テキサス州オースティンでのテスラの今後のRobotaxi発売を発表しました。当初、安全上の理由で10〜20台の車両の小さな艦隊を展開し、迅速な拡大を計画しました。 h

人工知能の適用方法は予期しない場合があります。当初、私たちの多くは、それが主にコードの作成やコンテンツの作成など、創造的で技術的なタスクに使用されていると思うかもしれません。 ただし、Harvard Business Reviewによって報告された最近の調査では、そうではないことが示されています。ほとんどのユーザーは、仕事だけでなく、サポート、組織、さらには友情のために人工知能を求めています! 報告書は、AIアプリケーションの最初のケースは治療と交際であると述べています。これは、その24時間年中無休の可用性と匿名の正直なアドバイスとフィードバックを提供する能力が非常に価値があることを示しています。 一方、マーケティングタスク(ブログの作成、ソーシャルメディアの投稿の作成、広告コピーなど)は、一般的な使用リストではるかに低くランク付けされています。 なぜこれがなぜですか?研究の結果とそれがどのように続くかを見てみましょう

AIエージェントの台頭は、ビジネス環境を変えています。 Cloud Revolutionと比較して、AIエージェントの影響は指数関数的に大きく、知識作業に革命をもたらすことを約束していると予測されています。 人間の意思決定-makiをシミュレートする能力


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 中国語版
中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
