ホームページ >テクノロジー周辺機器 >AI >Byte の大型モデル同時通訳エージェントは、最初から人間と同等の同時通訳レベルを備えています。
초고속 스피치와 복잡한 발음을 갖춘 혀 트위스터든, 절묘한 고전 중국어든, 즉흥적이고 영감이 가득한 일상적인 채팅이든, 모델은 부드럽고 자연스럽게 정확하고 확실한 번역 결과를 제공할 수 있습니다.
최근 인공지능(AI), 특히 대규모 언어 모델(LLM)로 대표되는 AI는 놀라운 속도로 발전하고 있습니다. 이러한 모델은 다양한 자연어 처리 작업에 사용되어 뛰어난 능력을 보여줍니다. 그러나 여러 분야의 획기적인 발전에도 불구하고 인간 언어의 최고 수준을 대표하는 동시통역(SI)은 여전히 완전히 극복되지 못한 문제로 남아 있다.
시중에 나와 있는 기존 동시통역 소프트웨어는 일반적으로 계단식 모델 방식을 채택합니다. 즉, 자동 음성 인식(ASR)이 먼저 수행된 다음 기계 번역(MT)이 수행됩니다. 이 접근 방식에는 오류 전파라는 심각한 문제가 있습니다. ASR 프로세스의 오류는 후속 번역 품질에 직접적인 영향을 미치며 심각한 오류 누적으로 이어집니다. 또한 낮은 대기 시간 요구 사항으로 인해 기존 동시 통역 시스템은 일반적으로 성능이 낮은 작은 모델만 사용하므로 복잡하고 변경 가능한 실제 응용 프로그램 시나리오를 처리할 때 병목 현상이 발생합니다.
ByteDance 연구진은 엔드투엔드 동시통역 에이전트인 Cross Language Agent - 동시통역, CLASI를 출시했습니다. 그 효과는 전문적인 인공 수준 동시통역에 가깝고 엄청난 잠재력과 고급 기술 역량을 보여줍니다. CLASI는 캐스케이드 모델의 오류 전파 문제를 피하기 위해 엔드 투 엔드 아키텍처를 채택합니다. 이는 대형 빈백 기본 모델과 대형 빈백 모델 음성 그룹의 음성 이해 기능도 갖추고 있습니다. 외부로부터 지식을 습득하여 최종적으로 인간의 능력에 버금가는 동시통역 시스템을 형성합니다.
Effect Show
Video Demo: 먼저 몇 가지 즉석 동영상을 사용하여 CLASI의 효과를 경험해 보세요. 모든 자막이 실시간으로 녹음되고 출력됩니다. 빠른 말투와 복잡한 발음을 지닌 텅 트위스터든, 절묘한 고전 중국어든, 즉흥적이고 영감이 가득한 일상적인 채팅이든, 모델이 정확하고 진정성 있는 번역 결과를 원활하고 자연스럽게 제공할 수 있음을 알 수 있습니다. 말할 것도 없이 CLASI는 회의 장면 번역이라는 전문 분야에서 탁월합니다.
더 많은 영상을 보려면 "원문 읽기"를 클릭하세요.
정량적 비교: 연구진은 전문 동시통역가를 초빙하여 중영 번역, 영중 번역의 4가지 분야에 대한 수동 평가를 실시하고 수동 동시통역과 일치하는 평가 지표를 사용했습니다: 효과적인 정보의 비율(백분율 체계) . 그림에서 볼 수 있듯이 CLASI 시스템은 모든 상용 시스템 및 오픈 소스 SOTA 시스템보다 훨씬 앞서 있으며 일부 테스트 세트에서는 인간 동시 해석 수준에 도달하거나 초과합니다(일반적으로 인간의 평균 수준은 동시통역은 약 80%)
시스템 아키텍처
システム アーキテクチャの点では、CLASI は LLM エージェント (下図の左) に基づくアーキテクチャを採用しています。これは、音声ストリームの読み取り、取得 (オプション)、メモリの読み取りなど、同時通訳を一連の単純で調整された操作として定義します。メモリ、出力などを更新します。プロセス全体は大規模な言語モデルによって自律的に制御され、リアルタイムのパフォーマンスと翻訳品質の効率的なバランスが実現されます。このシステムは、実際のニーズに応じて各リンクの処理戦略を柔軟に調整することができ、情報を効率的に送信しながら、翻訳されたコンテンツの精度と一貫性を確実に維持します。 CLASI の基礎となるモデルは、大量の教師なしデータと教師ありデータで事前トレーニングされたエンコーダー条件付き LLM です。 CLASI モデルのシステム アーキテクチャを次の図に示します。
図 1: CLASI の全体的な操作プロセスを示す図。ステップ 1 では、CLASI は現在入力されているオーディオ データを処理します。次に、サーチャーがアクティブ化され (オプション)、ユーザー定義のナレッジ ベースから関連情報を取得します。この例では、ナレッジ ベース内の翻訳ペア「イジング モデル: イジング モデル」を使用すると、モデルが正しい翻訳を出力するのに役立ちます。ステップ 3 で、CLASI は前のラウンドのトランスクリプション (オプション) とメモリから翻訳をロードします。次に (ステップ 4 および 5)、CLASI は思考連鎖 (CoT) が音訳 (オプション) および翻訳結果を出力し、メモリを更新できるようにします。最後に、ステップ 1 に戻り、次のスピーチを処理します。
図 2: CLASI の構造図。ラウンド r では、CLASI は現在のオーディオ ストリーム、以前のメモリ (r-1)、および取得した知識 (存在する場合) を入力として受け取ります。 CLASIは与えられた命令に基づいてレスポンスを出力し、メモリを更新します。同時に、CLASI は現時点での最後のセマンティック フラグメントの期限タイムスタンプも出力します。指定された例では、「直前」というフレーズの前にあるものは完全な意味論的フラグメントとみなされるため、カットオフ タイムスタンプはこのフレーズの直前になります。
実験結果
表 1: 有効フィールド比率 (有効情報比率、VIP) の手動評価では、CLASI システムは他のすべての競合製品を大幅に上回り、両方の言語方向で78%以上の精度が達成されました。一般的に、人間の同時通訳の精度は 70% 以上、理想的には 95% に達すると考えられており、研究者は高レベルの人間翻訳者の平均基準として 80% の精度を使用しています。
分析例
中国語から英語:
英語から中国語:
CLASI の翻訳は、多くの点で商用システムよりも大幅に優れていることがわかります。
概要
ByteDance Research チームの研究者は、Beanbao の大規模モデルに基づく同時通訳エージェントである CLASI を提案しました。 CLASIは、大規模な事前トレーニングと模倣学習により、人間による評価において既存の自動同時通訳システムの性能を大幅に上回り、ほぼ人間による同時通訳のレベルに達しています。
1. 研究者は、プロの人間の翻訳者を模倣したデータ主導型のリテラシー戦略を提案します。この戦略では、人間による複雑な事前設計を必要とせずに、翻訳の品質と遅延のバランスを簡単にとることができます。品質を向上させるために翻訳中に出力を頻繁に書き換えるほとんどの商用システムとは異なり、この戦略では、高品質を維持しながらすべての出力が決定的であることが保証されます。
2. 通常、人間の翻訳者は同時通訳コンテンツを事前に準備する必要があります。これに触発されて、研究者は LLM がドメイン固有の知識をリアルタイムで取得できるようにするマルチモーダル検索拡張生成 (MM-RAG) プロセスを導入しました。提案されたモジュールは、推論中の計算オーバーヘッドを最小限に抑えて翻訳品質をさらに向上させます。
3. 研究者たちは、プロの人間の同時通訳者と緊密に協力して、新しい手動評価戦略「有効情報比率」(VIP) を開発し、詳細なガイドラインを公開しました。同時に、より現実のシナリオに近い長音声翻訳用のマルチドメイン手動アノテーション テスト セットもリリースされました。
以上がByte の大型モデル同時通訳エージェントは、最初から人間と同等の同時通訳レベルを備えています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。