音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問-AI-php.cn

ホームページ

テクノロジー周辺機器

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

王林

Jun 03, 2023 pm 02:05 PM

モデル

大規模言語モデル (LLM) は、あらゆる業界でユーザーの期待を変えています。ただし、音声ファイルは大規模な言語モデルにとって課題となるため、人間の音声を中心とした生成 AI 製品を構築することは依然として困難です。

LLM をオーディオファイルに適用する際の主な課題は、LLM がコンテキストウィンドウによって制限されることです。音声ファイルを LLM に入力するには、その前にテキストに変換する必要があります。オーディオファイルが長ければ長いほど、LLM のコンテキストウィンドウの制限を回避するというエンジニアリングの課題が大きくなります。しかし、仕事のシナリオでは、数時間の会議の録音から核となるコンテンツを抽出したり、インタビューから特定の質問に対する答えを見つけたりするなど、非常に長い音声ファイルの処理に LLM が必要になることがよくあります...

最近、音声認識 AI 企業 AssemblyAI は、LeMUR と呼ばれる新しいモデルを発表しました。 ChatGPT が数十ページの PDF テキストを処理するのと同じように、LeMUR は最大 10 時間の録音を文字起こしして処理し、ユーザーがスピーチの核となる内容を要約し、ユーザーが入力した質問に答えるのを支援します。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

トライアル用アドレス: https://www.assemblyai.com/playground/v2/source

LeMUR は、Leveraging Large Language Models to Understand Recognized Speech (認識された音声を理解するために大規模な言語モデルを使用する) の略称で、文字起こしされた音声に強力な LLM を適用する新しいフレームワークです。 LeMUR は、わずか 1 行のコード (AssemblyAI の Python SDK 経由) で、最大 10 時間の音声コンテンツの文字起こしを迅速に処理し、効果的に約 150,000 のトークンに変換できます。対照的に、既製のバニラ LLM は、コンテキストウィンドウの制約内で最大 8K、つまり約 45 分の文字起こしされた音声しか収容できません。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

#書き起こされたオーディオファイルに LLM を適用する複雑さを軽減するために、LeMUR のパイプラインには主にインテリジェントセグメンテーション、高速 A ベクトルが含まれています。以下に示すように、データベースといくつかの推論ステップ (思考連鎖プロンプトや自己評価など):

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

# #図 1: LeMUR のアーキテクチャにより、ユーザーは 1 回の API 呼び出しで、長い音声ファイルや複数の音声文字起こしファイルを LLM に送信できます。

#LeMUR は今後、カスタマーサービスなどの分野で広く活用されることが期待されています。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問 #LeMUR は、ほんの数年前には不可能だと思われていた驚くべき新しい可能性を解き放ちます。最適なアクションの決定や、営業、アポイント、通話の目的などの通話結果の見極めなど、貴重な洞察を簡単に抽出できるのは本当に素晴らしいと感じます。 —Ryan Johnson 氏、CallRail 社最高製品責任者（通話追跡および分析サービス技術会社）

LeMUR はどのような可能性を解き放ちますか?

LLM を複数のオーディオテキストに適用する

LeMUR を使用すると、ユーザーは複数のオーディオファイルの LLM 処理を一度に取得できます。フィードバック以上音声文字起こしの結果が 10 時間になると、変換されたテキストトークンの長さは 150K に達する可能性があります。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問 #信頼性と安全な出力

なぜならLeMUR には安全対策とコンテンツフィルターが含まれており、有害または偏った言葉を生成する可能性が低い LLM からの応答がユーザーに提供されます。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

#コンテキストを補足できます

推論使用すると、LLM が出力生成時にパーソナライズされたより正確な結果を提供するために活用できる追加のコンテキスト情報を組み込むことができます。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

##モジュール式の迅速な統合

LeMUR は常に、処理可能な JSON 形式で構造化データを返します。ユーザーは、LeMUR の出力形式をさらにカスタマイズして、LLM によって与えられる応答が、次のビジネスロジックで期待される形式になるようにすることができます (例: 応答をブール値に変換する)。このプロセスでは、ユーザーは LLM の出力を処理するために特定のコードを記述する必要がなくなりました。

試験結果

AssemblyAIが提供するテストリンクによると、Machine HeartはLeMURをテストしました。

LeMUR のインターフェイスは、オーディオファイルとビデオファイルのアップロード、または Web リンクの貼り付けという 2 つのファイル入力方法をサポートしています。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

#ヒントンへの最近のインタビューを入力として使用して、LeMUR のパフォーマンスをテストしました。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

アップロード後、まず音声をテキストに変換する必要があるため、システムはしばらく待つように求めます。

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

文字起こし後のインターフェースは次のとおりです:

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

ページの右側で、LeMUR にインタビューの要約や質問への回答を依頼できます。 LeMUR は基本的に仕事を簡単にこなします:

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問 ##処理したい音声がスピーチやカスタマーサービスの返信である場合は、LeMUR に改善提案を求めることもできます。

#ただし、LeMUR はまだ中国語をサポートしていないようです。興味のある読者はぜひ試してみてください。音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問

以上が音声を理解できる ChatGPT が登場: 10 時間の録音を投入、何でも質問の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

LLMSでのツール呼び出しApr 14, 2025 am 11:28 AM

大規模な言語モデル（LLM）は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか？ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

AIに関する国連入力：勝者、敗者、および機会Apr 14, 2025 am 11:25 AM

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

生成AIを介した交渉スキルを学ぶApr 14, 2025 am 11:23 AM

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。それについて話しましょう。革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

テッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますApr 14, 2025 am 11:22 AM

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているApr 14, 2025 am 11:21 AM

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベースとは何ですか？Apr 14, 2025 am 11:19 AM

グラフデータベース：関係を通じてデータ管理に革命をもたらすデータが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

LLMルーティング：戦略、テクニック、およびPythonの実装Apr 14, 2025 am 11:14 AM

大規模な言語モデル（LLM）ルーティング：インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。創造的なコンテンツGenに優れている人もいます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。