ホームページ > 記事 > テクノロジー周辺機器 > 音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問
大規模言語モデル (LLM) は、あらゆる業界でユーザーの期待を変えています。ただし、音声ファイルは大規模な言語モデルにとって課題となるため、人間の音声を中心とした生成 AI 製品を構築することは依然として困難です。
LLM をオーディオ ファイルに適用する際の主な課題は、LLM がコンテキスト ウィンドウによって制限されることです。音声ファイルを LLM に入力するには、その前にテキストに変換する必要があります。オーディオ ファイルが長ければ長いほど、LLM のコンテキスト ウィンドウの制限を回避するというエンジニアリングの課題が大きくなります。しかし、仕事のシナリオでは、数時間の会議の録音から核となるコンテンツを抽出したり、インタビューから特定の質問に対する答えを見つけたりするなど、非常に長い音声ファイルの処理に LLM が必要になることがよくあります...
最近、音声認識 AI 企業 AssemblyAI は、LeMUR と呼ばれる新しいモデルを発表しました。 ChatGPT が数十ページの PDF テキストを処理するのと同じように、LeMUR は最大 10 時間の録音を文字起こしして処理し、ユーザーがスピーチの核となる内容を要約し、ユーザーが入力した質問に答えるのを支援します。
トライアル用アドレス: https://www.assemblyai.com/playground/v2/source
LeMUR は、Leveraging Large Language Models to Understand Recognized Speech (認識された音声を理解するために大規模な言語モデルを使用する) の略称で、文字起こしされた音声に強力な LLM を適用する新しいフレームワークです。 LeMUR は、わずか 1 行のコード (AssemblyAI の Python SDK 経由) で、最大 10 時間の音声コンテンツの文字起こしを迅速に処理し、効果的に約 150,000 のトークンに変換できます。対照的に、既製のバニラ LLM は、コンテキスト ウィンドウの制約内で最大 8K、つまり約 45 分の文字起こしされた音声しか収容できません。
#書き起こされたオーディオ ファイルに LLM を適用する複雑さを軽減するために、LeMUR のパイプラインには主にインテリジェント セグメンテーション、高速 A ベクトルが含まれています。以下に示すように、データベースといくつかの推論ステップ (思考連鎖プロンプトや自己評価など):# #図 1: LeMUR のアーキテクチャにより、ユーザーは 1 回の API 呼び出しで、長い音声ファイルや複数の音声文字起こしファイルを LLM に送信できます。
#LeMUR は今後、カスタマーサービスなどの分野で広く活用されることが期待されています。
#LeMUR は、ほんの数年前には不可能だと思われていた驚くべき新しい可能性を解き放ちます。最適なアクションの決定や、営業、アポイント、通話の目的などの通話結果の見極めなど、貴重な洞察を簡単に抽出できるのは本当に素晴らしいと感じます。 —Ryan Johnson 氏、CallRail 社最高製品責任者(通話追跡および分析サービス技術会社)
LeMUR はどのような可能性を解き放ちますか?
LeMUR を使用すると、ユーザーは複数のオーディオ ファイルの LLM 処理を一度に取得できます。フィードバック以上音声文字起こしの結果が 10 時間になると、変換されたテキスト トークンの長さは 150K に達する可能性があります。
#信頼性と安全な出力
なぜならLeMUR には安全対策とコンテンツ フィルターが含まれており、有害または偏った言葉を生成する可能性が低い LLM からの応答がユーザーに提供されます。
#コンテキストを補足できます
推論 使用すると、LLM が出力生成時にパーソナライズされたより正確な結果を提供するために活用できる追加のコンテキスト情報を組み込むことができます。
##モジュール式の迅速な統合
LeMUR は常に、処理可能な JSON 形式で構造化データを返します。ユーザーは、LeMUR の出力形式をさらにカスタマイズして、LLM によって与えられる応答が、次のビジネス ロジックで期待される形式になるようにすることができます (例: 応答をブール値に変換する)。このプロセスでは、ユーザーは LLM の出力を処理するために特定のコードを記述する必要がなくなりました。試験結果
AssemblyAIが提供するテストリンクによると、Machine HeartはLeMURをテストしました。LeMUR のインターフェイスは、オーディオ ファイルとビデオ ファイルのアップロード、または Web リンクの貼り付けという 2 つのファイル入力方法をサポートしています。
#ヒントンへの最近のインタビューを入力として使用して、LeMUR のパフォーマンスをテストしました。
アップロード後、まず音声をテキストに変換する必要があるため、システムはしばらく待つように求めます。
文字起こし後のインターフェースは次のとおりです:
ページの右側で、LeMUR にインタビューの要約や質問への回答を依頼できます。 LeMUR は基本的に仕事を簡単にこなします:
##処理したい音声がスピーチやカスタマー サービスの返信である場合は、LeMUR に改善提案を求めることもできます。
#ただし、LeMUR はまだ中国語をサポートしていないようです。興味のある読者はぜひ試してみてください。
以上が音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。