すべての Douyin はネイティブの方言を話しています。2 つの主要なテクノロジーが地元の方言を「理解」するのに役立ちます-AI-php.cn

ホームページ

テクノロジー周辺機器

すべての Douyin はネイティブの方言を話しています。2 つの主要なテクノロジーが地元の方言を「理解」するのに役立ちます

PHPz

Oct 12, 2023 pm 08:13 PM

火山エンジン

国慶節中、Douyin の「方言はあなたが本物の故郷の出身者であることを証明する」活動に全国のネチズンの熱狂的な参加が集まり、このテーマは Douyin チャレンジリストのトップとなり、再生回数は50000000。

この「地方方言大賞」はインターネット上で瞬く間に人気となりましたが、これにはDouyinが新たに開始した地方方言自動翻訳機能の貢献が不可欠です。クリエイターが母国語の方言で短いビデオを録画した場合、「自動字幕」機能を使用して「北京語字幕に変換」を選択すると、ビデオ内の方言の音声が自動的に認識され、方言の内容が北京語の字幕に変換されます。これにより、他の地域のネットユーザーもさまざまな「暗号化された北京語」言語を簡単に理解できるようになります。福建省のネチズンが個人的にテストしたところ、「発音が異なる」福建省南部地域であっても、中国福建省の南東海岸地域に位置する地域であると述べた。福建省南部の文化と方言は他の地域とは大きく異なり、福建省の重要な文化地域とみなされています。福建省南部の経済は農業、漁業、工業が中心であり、主な農業産業は米、茶、果物の栽培です。福建省南部には土造りの建物、古代の村、美しいビーチなどの景勝地がたくさんあります。福建省南部の食べ物も非常に独特で、主にシーフード、ペストリー、福建料理が代表的です。全体として、閩南地方は魅力と独特な文化に満ちた地域であり、方言を正確に翻訳すると、「閩南地方は中国福建省の地域で、福建省の南東部の沿岸地域に位置します。文化」と表現することもできます。福建省南部の経済は主に農業、漁業、工業に基づいており、農業は米の栽培、お茶と果物が主産業福建省南部の景勝地土造りの建物、古代の村、美しいビーチなど数多くあります福建省南部地域の食べ物も非常に特徴的で、海産物、菓子パン、福建料理が主な代表です全体として、福建省南部地域は魅力とユニークな文化に満ちた地元の言語です。Douyin でやりたいことを何でもする時代は終わりました。」

すべての Douyin はネイティブの方言を話しています。2 つの主要なテクノロジーが地元の方言を「理解」するのに役立ちます

周知のとおり、音声認識や機械翻訳のモデルトレーニングには大量のトレーニングデータが必要ですが、方言は話し言葉として普及しており、モデルのトレーニングに使用できる方言データはほとんどありません。この機能の技術サポートを提供したエンジン技術チームは画期的な進歩を遂げましたか?

#方言認識段階

長い間、 Huoshan Voice このチームは、一般的なビデオプラットフォーム向けに音声認識技術に基づいたインテリジェントなビデオ字幕ソリューションを提供しており、簡単に言えば、ビデオ内の音声と歌詞を自動的にテキストに変換して、ビデオ作成を支援します。

#その過程で、技術チームは、従来の教師あり学習が手動でラベル付けされた教師ありデータに大きく依存していることを発見しました。特に、大規模言語の継続的な最適化と小規模言語のコールドスタートの点で重要です。中国語、北京語、英語などの主要言語を例にとると、ビデオプラットフォームはビジネスシナリオに豊富な音声データを提供しますが、教師付きデータが一定の規模に達すると、継続的なアノテーションの収益は非常に低くなります。。したがって、技術者は、大規模言語の音声認識のパフォーマンスをさらに向上させるために、何百万時間ものラベルなしデータを効果的に使用する方法を考える必要があります。

比較的ニッチな言語または方言、リソース、人員、その他の理由により、データのラベル付けのコストは高くなります。ラベル付きデータが非常に少ない場合 (約 10 時間)、教師付きトレーニングの効果は非常に低く、正常に収束しないこともあります。また、購入したデータがターゲットシナリオと一致せず、ユーザーのニーズを満たすことができないことがよくあります。仕事。

#これに関して、チームは次の解決策を採用しました。

低リソース方言の自己監視

Wav2vec 2.0自己教師あり学習テクノロジーに基づいて、私たちのチームは、ラベル付きデータをほとんど使用せずに方言ASR機能を実現する効率的なWav2vecを提案しました。 Wav2vec2.0のトレーニング速度の遅さと効果の不安定さの問題を解決するために、2つの側面から改善策を講じました。まず、波形の代わりにフィルターバンク機能を使用して計算量を削減し、シーケンスの長さを短縮し、同時にフレームレートを削減することで、トレーニング効率を 2 倍にします。次に、等しい長さのデータストリームと適応型連続マスクにより、トレーニングの安定性と効果が大幅に向上しました。ラベルなしの音声と 10 時間のラベル付き音声の本来の意味を区別するには、コンテンツを広東語に書き直す必要があります。続けられました。結果は以下の表に示されており、Wav2vec 2.0 と比較すると、効率的な Wav2vec (w2v-e) では、100M および 300M パラメーターモデルで CER が相対的に 5% 減少し、トレーニングオーバーヘッドは半分になります。

さらに、チームは、自己教師あり事前トレーニングモデルによって微調整された CTC モデルをシードモデルとして使用し、ラベルのないデータを疑似ラベルし、それをエンドツーエンド LAS に提供しました。トレーニング用のパラメータが少ないモデル。これにより、モデル構造の移行が実現するだけでなく、推論計算の量も削減され、成熟したエンドツーエンド推論エンジンに直接展開して起動することができます。この手法は、リソースの少ない 2 つの方言に適用され、わずか 10 時間の注釈付きデータを使用して単語誤り率 20% 未満を達成しました。

すべての Douyin はネイティブの方言を話しています。2 つの主要なテクノロジーが地元の方言を「理解」するのに役立ちます

書き換えられた内容: 比較表: モデルパラメーターと CER

すべての Douyin はネイティブの方言を話しています。2 つの主要なテクノロジーが地元の方言を「理解」するのに役立ちます

キャプション: 教師なしトレーニング ASR に基づく実装プロセス

方言の大規模事前トレーニング微調整トレーニングモード

# #教師付きデータのアノテーションの完了後、ASR モデルの継続的な最適化が重要な研究方向になりました。半教師あり学習または教師なし学習は、過去一定期間にわたって非常に人気がありました。教師なし事前トレーニングの主なアイデアは、ラベルなしデータセットを最大限に活用してラベル付きデータセットを拡張し、少量のデータを処理するときにより良い認識結果を達成することです。アルゴリズムプロセスは次のとおりです。

(1) まず、手動アノテーションに教師ありデータを使用し、シードモデルをトレーニングする必要があります。次に、このモデルを使用して、ラベルのないデータを疑似ラベルします。すべての予測が正確であるとは限らないため、値の低いデータをオーバートレーニングするには、いくつかの戦略を使用する必要があります。

#(3) 次に、生成された擬似ラベルを元のラベル付きデータと結合する必要があります。結合されたデータに対して共同トレーニングが実行されます

#書き換え内容: (4) 教師なしデータの擬似ラベル品質がそこまで良くなくても、学習過程で大量の教師なしデータが追加されるため、教師ありデータの表現ですが、多くの場合、より一般的な表現を取得できます。ビッグデータトレーニングに基づいて事前トレーニングされたモデルを使用して、手動で調整された方言データを微調整します。これにより、事前トレーニングされたモデルによってもたらされる優れた汎化パフォーマンスを維持しながら、方言に対するモデルの認識効果を向上させることができます。 5 つの方言書き換えが必要なコンテンツの比率) は、35.3% から 17.21% です。書き換え: 5 つの方言の平均 CER (文字誤り率) を書き換える必要があるものから最適化: 35.3% から 17.21%

平均的な単語エラー率を書き直す必要があります#書き直す必要がある内容は次のとおりです: Southwest Mandarin 単一の方言書き直す必要がある内容は次のとおりです: 35.3#14.05

元の意味を変更しないようにするには、コンテンツを広東語に書き直す必要があります。	#福建省南部は、中国福建省の南東海岸に位置する地域です。福建省南部の文化と方言は他の地域とは大きく異なり、福建省の重要な文化地域とみなされています。福建省南部の経済は農業、漁業、工業が中心であり、主な農業産業は米、茶、果物の栽培です。福建省南部には土造りの建物、古代の村、美しいビーチなどの景勝地がたくさんあります。福建省南部の食べ物も非常に独特で、主にシーフード、ペストリー、福建料理が代表的です。全体として、福建省南部地域は魅力とユニークな文化に満ちた場所です。	#書き換えられた内容は次のとおりです: 北京	##中华国语
		##48.87	41.29	#61.56	##10.7	##書き換える必要がある内容は次のとおりです: 100wh 事前トレーニング済み方言混合微調整
#17.21	13.14	必要があります書き換えられる内容は次のとおりです: 22.84	## 書き換える必要があるのは次のとおりです: 19.60	19.50	#10.95

##方言翻訳段階

# 通常の状況では、機械翻訳モデルのトレーニングには大量のコーパスのサポートが必要です。しかし、方言は話し言葉で伝わることが多く、現在では方言話者は年々減少しています。これらの現象により、方言データの収集が困難になり、方言機械翻訳の効果を高めることが困難になっています

方言不足の問題を解決するにはデータ、霍山翻訳チームは、整列強化手法

を補完したによる対照学習を導入した多言語翻訳モデル mRASP (multilingual Random Aligned Substitution Pre-training) と mRASP2 を提案しました。単一言語コーパスと二言語コーパスを組み合わせる統一されたトレーニングフレームワークに組み込まれており、コーパスを最大限に活用して言語に依存しない表現を学習し、多言語翻訳のパフォーマンスを向上させます。

文書アドレス: https://arxiv.org/abs/2105.09501 すべての Douyin はネイティブの方言を話しています。2 つの主要なテクノロジーが地元の方言を「理解」するのに役立ちます

対照的な学習タスクを追加する設計は、古典的な仮定に基づいています。異なる言語の同義文のエンコードされた表現は、高次元空間の隣接する位置にある必要があります。異なる言語の同義の文は同じ意味を持ち、つまり「エンコード」プロセスの出力は同じであるためです。例えば、「おはようございます」と「おはようございます」という二つの文は、中国語と英語が理解できる人にとっては同じ意味を持ちますが、これも「高次元空間における隣接位置の符号化表現」に相当します。

トレーニング目標を再設計する

従来の On theクロスエントロピー損失に基づいて、マルチタスク形式でトレーニングするために対比損失が追加されます。図のオレンジ色の矢印は、従来、機械翻訳の学習にクロスエントロピーロス (CE ロス) を使用していた部分を示し、黒い部分はコントラストロス (CTR ロス) に対応する部分を示します。

#単語アライメントデータ拡張方法すべての Douyin はネイティブの方言を話しています。2 つの主要なテクノロジーが地元の方言を「理解」するのに役立ちます

Aligned Augmentation ( AA) は、mRASP の Random Aligned Substitution (RAS) メソッドから開発されました。 #書き換えた内容は以下の通りです。図によると、図(a)は対訳コーパスの強化過程を示しています。 , 図(b)は、単一言語コーパスの強化プロセスを示しています。図 (a) では、元の英語の単語が対応する中国語の単語に置き換えられており、図 (b) では、元の中国語の単語が英語、フランス語、アラビア語、およびドイツ語に置き換えられています。 mRASP の RAS は、二か国語の同義語辞書を提供するだけでよい最初の置換方法と同等ですが、2 番目の置換方法は複数の言語を含む同義語辞書を提供する必要があります。アライメント強化方法を使用する場合、図 (a) の方法のみを使用するか、図 (b) の方法のみを使用するかを選択できることに注意してください。 ## 実験結果は、mRASP2 が教師あり、教師なし、およびゼロリソースのシナリオで翻訳効果の向上を達成することを示しています。このうち、教師ありシナリオの平均改善は 1.98 BLEU、教師なしシナリオの平均改善は 14.13 BLEU、ゼロリソースシナリオの平均改善は 10.26 BLEU です。

この方法は、幅広いシナリオで大幅なパフォーマンスの向上を達成し、低リソース言語のトレーニングデータが不十分であるという問題を大幅に軽減できます。すべての Douyin はネイティブの方言を話しています。2 つの主要なテクノロジーが地元の方言を「理解」するのに役立ちます

最後に書いてください

方言と北京語の補語相互はすべて中国の伝統文化の重要な表現です。表現方法としての方言は、中国人の感情や故郷との絆を表します。短いビデオと方言翻訳を通じて、ユーザーは全国各地の文化を垣根なく理解することができます。元の意味を維持するには、コンテンツを広東語に書き直す必要があることがサポートされています。、閩語、呉語（書き換えられる内容は：北京）、書き換えが必要な内容は：西南北京語（四川省）、中原北京語（陝西省、河南省）など、さらに多くの方言がサポートされる予定だという。今後、様子を見ましょう。

以上がすべての Douyin はネイティブの方言を話しています。2 つの主要なテクノロジーが地元の方言を「理解」するのに役立ちますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。