国慶節中、Douyin の「方言はあなたが本物の故郷の出身者であることを証明する」活動に全国のネチズンの熱狂的な参加が集まり、このテーマは Douyin チャレンジ リストのトップとなり、再生回数は50000000。
この「地方方言大賞」はインターネット上で瞬く間に人気となりましたが、これにはDouyinが新たに開始した地方方言自動翻訳機能の貢献が不可欠です。クリエイターが母国語の方言で短いビデオを録画した場合、「自動字幕」機能を使用して「北京語字幕に変換」を選択すると、ビデオ内の方言の音声が自動的に認識され、方言の内容が北京語の字幕に変換されます。これにより、他の地域のネットユーザーもさまざまな「暗号化された北京語」言語を簡単に理解できるようになります。福建省のネチズンが個人的にテストしたところ、「発音が異なる」福建省南部地域であっても、中国福建省の南東海岸地域に位置する地域であると述べた。福建省南部の文化と方言は他の地域とは大きく異なり、福建省の重要な文化地域とみなされています。福建省南部の経済は農業、漁業、工業が中心であり、主な農業産業は米、茶、果物の栽培です。福建省南部には土造りの建物、古代の村、美しいビーチなどの景勝地がたくさんあります。福建省南部の食べ物も非常に独特で、主にシーフード、ペストリー、福建料理が代表的です。全体として、閩南地方は魅力と独特な文化に満ちた地域であり、方言を正確に翻訳すると、「閩南地方は中国福建省の地域で、福建省の南東部の沿岸地域に位置します。文化」と表現することもできます。福建省南部の経済は主に農業、漁業、工業に基づいており、農業は米の栽培、お茶と果物が主産業 福建省南部の景勝地 土造りの建物、古代の村、美しいビーチなど数多くあります 福建省南部地域の食べ物も非常に特徴的で、海産物、菓子パン、福建料理が主な代表です全体として、福建省南部地域は魅力とユニークな文化に満ちた地元の言語です。Douyin でやりたいことを何でもする時代は終わりました。」
周知のとおり、音声認識や機械翻訳のモデル トレーニングには大量のトレーニング データが必要ですが、方言は話し言葉として普及しており、モデルのトレーニングに使用できる方言データはほとんどありません。この機能の技術サポートを提供したエンジン技術チームは画期的な進歩を遂げましたか?
#方言認識段階
長い間、 Huoshan Voice このチームは、一般的なビデオ プラットフォーム向けに音声認識技術に基づいたインテリジェントなビデオ字幕ソリューションを提供しており、簡単に言えば、ビデオ内の音声と歌詞を自動的にテキストに変換して、ビデオ作成を支援します。
#その過程で、技術チームは、従来の教師あり学習が手動でラベル付けされた教師ありデータに大きく依存していることを発見しました。特に、大規模言語の継続的な最適化と小規模言語のコールド スタートの点で重要です。中国語、北京語、英語などの主要言語を例にとると、ビデオプラットフォームはビジネスシナリオに豊富な音声データを提供しますが、教師付きデータが一定の規模に達すると、継続的なアノテーションの収益は非常に低くなります。 。したがって、技術者は、大規模言語の音声認識のパフォーマンスをさらに向上させるために、何百万時間ものラベルなしデータを効果的に使用する方法を考える必要があります。
比較的ニッチな言語または方言、リソース、人員、その他の理由により、データのラベル付けのコストは高くなります。ラベル付きデータが非常に少ない場合 (約 10 時間)、教師付きトレーニングの効果は非常に低く、正常に収束しないこともあります。また、購入したデータがターゲット シナリオと一致せず、ユーザーのニーズを満たすことができないことがよくあります。仕事。
#これに関して、チームは次の解決策を採用しました。
- 低リソース方言の自己監視
Wav2vec 2.0自己教師あり学習テクノロジーに基づいて、私たちのチームは、ラベル付きデータをほとんど使用せずに方言ASR機能を実現する効率的なWav2vecを提案しました。 Wav2vec2.0のトレーニング速度の遅さと効果の不安定さの問題を解決するために、2つの側面から改善策を講じました。まず、波形の代わりにフィルターバンク機能を使用して計算量を削減し、シーケンスの長さを短縮し、同時にフレーム レートを削減することで、トレーニング効率を 2 倍にします。次に、等しい長さのデータ ストリームと適応型連続マスクにより、トレーニングの安定性と効果が大幅に向上しました。ラベルなしの音声と 10 時間のラベル付き音声の本来の意味を区別するには、コンテンツを広東語に書き直す必要があります。 続けられました。結果は以下の表に示されており、Wav2vec 2.0 と比較すると、効率的な Wav2vec (w2v-e) では、100M および 300M パラメーター モデルで CER が相対的に 5% 減少し、トレーニング オーバーヘッドは半分になります。
さらに、チームは、自己教師あり事前トレーニング モデルによって微調整された CTC モデルをシード モデルとして使用し、ラベルのないデータを疑似ラベルし、それをエンドツーエンド LAS に提供しました。トレーニング用のパラメータが少ないモデル。これにより、モデル構造の移行が実現するだけでなく、推論計算の量も削減され、成熟したエンドツーエンド推論エンジンに直接展開して起動することができます。この手法は、リソースの少ない 2 つの方言に適用され、わずか 10 時間の注釈付きデータを使用して単語誤り率 20% 未満を達成しました。
書き換えられた内容: 比較表: モデル パラメーターと CER
キャプション: 教師なしトレーニング ASR に基づく実装プロセス
- 方言の大規模事前トレーニング微調整トレーニング モード
# #教師付きデータのアノテーションの完了後、ASR モデルの継続的な最適化が重要な研究方向になりました。半教師あり学習または教師なし学習は、過去一定期間にわたって非常に人気がありました。教師なし事前トレーニングの主なアイデアは、ラベルなしデータセットを最大限に活用してラベル付きデータセットを拡張し、少量のデータを処理するときにより良い認識結果を達成することです。アルゴリズム プロセスは次のとおりです。
(1) まず、手動アノテーションに教師ありデータを使用し、シード モデルをトレーニングする必要があります。次に、このモデルを使用して、ラベルのないデータを疑似ラベルします。すべての予測が正確であるとは限らないため、値の低いデータをオーバートレーニングするには、いくつかの戦略を使用する必要があります。
#(3) 次に、生成された擬似ラベルを元のラベル付きデータと結合する必要があります。結合されたデータに対して共同トレーニングが実行されます
#書き換え内容: (4) 教師なしデータの擬似ラベル品質がそこまで良くなくても、学習過程で大量の教師なしデータが追加されるため、教師ありデータの表現ですが、多くの場合、より一般的な表現を取得できます。ビッグデータトレーニングに基づいて事前トレーニングされたモデルを使用して、手動で調整された方言データを微調整します。これにより、事前トレーニングされたモデルによってもたらされる優れた汎化パフォーマンスを維持しながら、方言に対するモデルの認識効果を向上させることができます。 5 つの方言 書き換えが必要なコンテンツの比率) は、35.3% から 17.21% です。書き換え: 5 つの方言の平均 CER (文字誤り率) を書き換える必要があるものから最適化: 35.3% から 17.21%
元の意味を変更しないようにするには、コンテンツを広東語に書き直す必要があります。
|
#福建省南部は、中国福建省の南東海岸に位置する地域です。福建省南部の文化と方言は他の地域とは大きく異なり、福建省の重要な文化地域とみなされています。福建省南部の経済は農業、漁業、工業が中心であり、主な農業産業は米、茶、果物の栽培です。福建省南部には土造りの建物、古代の村、美しいビーチなどの景勝地がたくさんあります。福建省南部の食べ物も非常に独特で、主にシーフード、ペストリー、福建料理が代表的です。全体として、福建省南部地域は魅力とユニークな文化に満ちた場所です。 |
#書き換えられた内容は次のとおりです: 北京 |
##中华国语
| #書き直す必要がある内容は次のとおりです: Southwest Mandarin|||
| #14.05##48.87 | 41.29 | ||||
#17.21 |
13.14 |
## 書き換える必要があるのは次のとおりです: 19.60 |
19.50 |
#10.95 |
# 通常の状況では、機械翻訳モデルのトレーニングには大量のコーパスのサポートが必要です。しかし、方言は話し言葉で伝わることが多く、現在では方言話者は年々減少しています。これらの現象により、方言データの収集が困難になり、方言機械翻訳の効果を高めることが困難になっています
方言不足の問題を解決するにはデータ、霍山 翻訳チームは、整列強化手法
を補完した による対照学習を導入した多言語翻訳モデル mRASP (multilingual Random Aligned Substitution Pre-training) と mRASP2 を提案しました。単一言語コーパスと二言語コーパスを組み合わせる 統一されたトレーニング フレームワークに組み込まれており、コーパスを最大限に活用して言語に依存しない表現を学習し、多言語翻訳のパフォーマンスを向上させます。
文書アドレス: https://arxiv.org/abs/2105.09501
対照的な学習タスクを追加する設計は、古典的な仮定に基づいています。異なる言語の同義文のエンコードされた表現は、高次元空間の隣接する位置にある必要があります。異なる言語の同義の文は同じ意味を持ち、つまり「エンコード」プロセスの出力は同じであるためです。例えば、「おはようございます」と「おはようございます」という二つの文は、中国語と英語が理解できる人にとっては同じ意味を持ちますが、これも「高次元空間における隣接位置の符号化表現」に相当します。
トレーニング目標を再設計する
従来の On theクロスエントロピー損失に基づいて、マルチタスク形式でトレーニングするために対比損失が追加されます。図のオレンジ色の矢印は、従来、機械翻訳の学習にクロス エントロピー ロス (CE ロス) を使用していた部分を示し、黒い部分はコントラスト ロス (CTR ロス) に対応する部分を示します。
#単語アライメント データ拡張方法
Aligned Augmentation ( AA) は、mRASP の Random Aligned Substitution (RAS) メソッドから開発されました。 #書き換えた内容は以下の通りです。 図によると、図(a)は対訳コーパスの強化過程を示しています。 , 図(b)は、単一言語コーパスの強化プロセスを示しています。図 (a) では、元の英語の単語が対応する中国語の単語に置き換えられており、図 (b) では、元の中国語の単語が英語、フランス語、アラビア語、およびドイツ語に置き換えられています。 mRASP の RAS は、二か国語の同義語辞書を提供するだけでよい最初の置換方法と同等ですが、2 番目の置換方法は複数の言語を含む同義語辞書を提供する必要があります。アライメント強化方法を使用する場合、図 (a) の方法のみを使用するか、図 (b) の方法のみを使用するかを選択できることに注意してください。 ## 実験結果は、mRASP2 が教師あり、教師なし、およびゼロリソースのシナリオで翻訳効果の向上を達成することを示しています。このうち、教師ありシナリオの平均改善は 1.98 BLEU、教師なしシナリオの平均改善は 14.13 BLEU、ゼロリソース シナリオの平均改善は 10.26 BLEU です。
この方法は、幅広いシナリオで大幅なパフォーマンスの向上を達成し、低リソース言語のトレーニング データが不十分であるという問題を大幅に軽減できます。
最後に書いてください
方言と北京語の補語相互はすべて中国の伝統文化の重要な表現です。表現方法としての方言は、中国人の感情や故郷との絆を表します。短いビデオと方言翻訳を通じて、ユーザーは全国各地の文化を垣根なく理解することができます。元の意味を維持するには、コンテンツを広東語に書き直す必要があることがサポートされています。 、閩語、呉語(書き換えられる内容は:北京)、書き換えが必要な内容は:西南北京語(四川省)、中原北京語(陝西省、河南省)など、さらに多くの方言がサポートされる予定だという。今後、様子を見ましょう。
以上がすべての Douyin はネイティブの方言を話しています。2 つの主要なテクノロジーが地元の方言を「理解」するのに役立ちますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

火山引擎总裁谭待企业要做好大模型落地,面临模型效果、推理成本、落地难度的三大关键挑战:既要有好的基础大模型做支撑,解决复杂难题,也要有低成本的推理服务让大模型被广泛应用,还要更多工具、平台和应用帮助企业做好场景落地。——谭待火山引擎总裁01.豆包大模型首次亮相大使用量打磨好模型模型效果是AI落地最关键的挑战。谭待指出,只有大的使用量,才能打磨出好模型。目前,豆包大模型日均处理1,200亿tokens文本、生成3,000万张图片。为助力企业做好大模型场景落地,字节跳动自主研发的豆包大模型将通过火山

经过一年多的发展,AIGC已经从文字对话、图片生成逐步向视频生成迈进。回想四个月前,Sora的诞生让视频生成赛道经历了一场洗牌,大力推动了AIGC在视频创作领域的应用范围和深度。在人人都在谈论大模型的时代,我们一方面惊讶于视频生成带来的视觉震撼,另一方面又面临着落地难问题。诚然,大模型从技术研发到应用实践还处于一个磨合期,仍需结合实际业务场景进行调优,但理想与现实的距离正在被逐步缩小。营销作为人工智能技术的重要落地场景,成为了很多企业及从业者想要突破的方向。掌握了恰当方法,营销视频的创作过程就会

日前,火山引擎语音合成产品获得国家语音及图像识别产品质量检验检测中心(以下简称“AI国检中心”)颁发的语音合成增强级检验检测证书,在语音合成的基本要求以及扩展要求上已达AI国检中心的最高等级标准。本次评测从中文普通话、多方言、多语种、混合语种、多音色、个性化等维度进行评测,产品的技术支持团队-火山语音团队提供了丰富的音库,经评测其音色MOS评分最高可达4.64分,处行业领先水平。作为我国质检系统在人工智能领域的首家、也是唯一的国家级语音及图像产品质量检验检测机构,AI 国检中心一直致力于推动智能

1.购买商品前,消费者会在社交媒体上搜索并浏览商品评价。因此,企业在社交平台上针对产品进行营销变得越来越重要。营销的目的是为了:促进产品的销售树立品牌形象提高品牌认知度吸引并留住客户最终提高企业的盈利能力大模型具备出色的理解和生成能力,可以通过浏览和分析用户数据为用户提供个性化内容推荐。《AIGC体验派》第四期中,两位嘉宾将深入探讨AIGC技术在提升「营销转化率」方面发挥的作用。直播时间:7月10日19:00-19:45直播主题:留住用户,AIGC如何通过个性化提升转化率?第四期节目邀请到两位重

长期以来,火山引擎为时下风靡的视频平台提供基于语音识别技术的智能视频字幕解决方案。简单来说,就是通过AI技术自动将视频中的语音和歌词转化成文字,辅助视频创作的功能。但伴随平台用户的快速增长以及对语言种类更加丰富多样的要求,传统采用的有监督学习技术日渐触及瓶颈,这让团队着实犯了难。众所周知,传统的有监督学习会对人工标注的有监督数据产生严重依赖,尤其在大语种的持续优化以及小语种的冷启动方面。以中文普通话和英语这样的大语种为例,尽管视频平台提供了充足的业务场景语音数据,但有监督数据达到一定规模之后,继

国庆期间,抖音上“一句方言证明你是地道家乡人”的活动在吸引了全国各地的网友热情参与,话题最高登上抖音挑战榜第一位,播放量已超过5000万。这场“各地方言大赏”能够在网络上迅速走红,离不开抖音新推出的地方方言自动翻译功能的功劳。创作者们在录制家乡话的短视频时,使用了“自动字幕”功能,并选择了“转为普通话字幕”,这样就能够自动识别视频中的方言语音,并将方言内容转化为普通话字幕,让其他地区的网友也能轻松听懂各种“加密型国语”。福建的网友亲自测试后表示,就连“十里不同音”的闽南地区是中国福建省的一个地域

健康+AI=?中老年脑健康营养解决方案、数智化营养健康服务、AIGC大健康社区方案……随着“健康+AI”生态创新大赛的展开,一个个蕴含技术能量、赋能健康产业的创新方案呼之欲出,“健康+AI=?”的答案正在慢慢浮现。12月26日,伊利集团与火山引擎联合主办的“健康+AI”生态创新大赛圆满收官,上海博斯腾网络科技有限公司、中科苏州智能计算技术研究院等6家优胜企业脱颖而出。在历时一个多月的角逐中,伊利携手优秀科创企业共同探索AI技术与健康产业的深度融合,将大赛期待值持续拉满。“健康+AI”生态创新大赛

本站8月22日消息,据火山引擎官方消息,火山引擎视频云宣布其自研的视频编解码芯片已成功出片,今日正式发布。官方表示,该芯片的视频压缩效率相比“行业主流硬件编码器”可提升30%以上,未来将服务于抖音、西瓜视频等视频业务,并将通过火山引擎视频云开放给企业客户。据悉,火山引擎基于抖音等视频业务的大规模实践和打磨,将自研的视频编解码技术融入到专用芯片中,压缩效率相比行业主流硬件编码器提升30%以上,可应用于视频点播、直播、图像压缩、XR等业务场景。▲图源火山引擎第三方数据显示,中国用户量排名TOP100


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

WebStorm Mac版
便利なJavaScript開発ツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

メモ帳++7.3.1
使いやすく無料のコードエディター

ホットトピック



