検索
ホームページテクノロジー周辺機器AIHuoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

長年にわたり、Volcano Engine は、一般的なビデオ プラットフォーム向けに音声認識テクノロジに基づいたインテリジェントなビデオ字幕ソリューションを提供してきました。簡単に説明すると、AI技術を利用して動画内の音声や歌詞を自動でテキスト化して動画作成を支援する機能です。しかし、プラットフォーム ユーザーの急速な増加と、より豊富で多様な言語タイプの要求に伴い、従来使用されてきた教師あり学習テクノロジーがますますボトルネックに達し、チームは大きな問題に直面しています。

ご存知のとおり、従来の教師あり学習は、特に大規模言語の継続的な最適化や小規模言語のコールド スタートにおいて、手動で注釈が付けられた教師ありデータに大きく依存します。中国語、北京語、英語などの主要言語を例に挙げると、ビデオ プラットフォームはビジネス シナリオに十分な音声データを提供しますが、教師付きデータが一定の規模に達すると、継続的なアノテーションの ROI は非常に低くなります。技術担当者は必然的に、大規模言語の音声認識のパフォーマンスをさらに向上させるために、数百の教師付きデータ、数万時間のラベルなしデータを効果的に利用する方法を検討する必要があります。

比較的ニッチな言語または方言の場合、リソース、人員、その他の理由によりデータのラベル付けのコストが高くなります。ラベル付きデータが非常に少ない場合 (約 10 時間)、教師付きトレーニングの効果は非常に低く、正常に収束しないこともあります。また、購入したデータがターゲット シナリオと一致せず、ユーザーのニーズを満たすことができないことがよくあります。仕事。

したがって、火山エンジン音声チームは、ラベル付けされていない大量のデータを可能な限り低いラベル付けコストで最大限に活用し、少ない量で認識効果を向上させる方法を早急に検討する必要があります。ラベル付きデータを作成し、実際のビジネスに実装します。 したがって、教師なし事前トレーニング テクノロジーが、ビデオ プラットフォームの ASR (自動音声認識/自動音声認識) 機能を小規模言語に普及させるための鍵となっています。

学術コミュニティは、近年、Wav2vec2.0[1]など、音声の教師なし事前トレーニングの分野で多くの重要な進歩を遂げてきましたが、 、HuBERT[2]などがありますが、業界での導入事例は少ないので参考にしてください。 全体として、Volcano Voice チームは、次の 3 つの理由が教師なし事前トレーニング テクノロジの実装を妨げていると考えています。

  1. #モデルのパラメーターが大きく、推論のオーバーヘッドが高くなります。大量のラベルなしデータでは、高品質の音声表現を得るために、より大きなモデルを使用した教師なし事前トレーニングが必要ですが、そのようなモデルをオンラインで直接展開すると、高い推論コストが発生します。
  2. 教師なし事前トレーニングは音声表現の学習のみに焦点を当てており、目的の効果を達成するには、大量のプレーン テキストでトレーニングされた言語モデルと組み合わせて共同デコードする必要があります。また、エンドツーエンドの ASR 推論エンジンとは互換性がありません。
  3. 教師なしの事前トレーニングは費用がかかり、時間がかかり、不安定です。 Wav2vec2.0 を例にとると、3 億パラメータのモデルは、64 個の V100 GPU を使用して 600,000 ステップの事前トレーニングに最長で半月かかりました。また、データ分布の違いにより、ビジネス データのトレーニングは、発散。

上記の 3 つの主要な問題点を考慮して、アルゴリズムの改善とエンジニアリングの最適化が実行され、完全で推進しやすい実装計画が作成されました。この記事では、実装プロセス、アルゴリズムの最適化、エンジニアリングの最適化に至るまで、ソリューションを詳しく紹介します。

実装プロセス

次の図は、低リソース言語 ASR の教師なし事前トレーニングの実装プロセスであり、大きく分けて データ 収集、シード モデルのトレーニング、モデルの移行という 3 つの段階があります。

Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

教師なし事前トレーニングに基づく ASR 実装プロセス

# #具体的には、データ収集の最初の段階では、言語転用、調達、その他の手段を通じて、ターゲット言語のラベルなし音声、ラベル付き音声、およびプレーンテキストデータを収集できます。

シード モデル トレーニングの第 2 段階は、古典的な「教師なし事前トレーニングと教師あり微調整」プロセスです。 この段階で、音響モデルが取得されます。これは通常、コネクショニスト時間分類 (CTC[3]) 損失関数に基づいて微調整されます。純粋なテキストでトレーニングされた言語モデルと音響モデルを組み合わせることで、良好な認識結果を達成できる完全な音声認識システムが形成されます。シード モデルと呼ばれる理由は、このモデルがビジネスに直接導入するのには適していないためであり、Volcano エンジンは LAS (Listen, Attend and Spell[4]) または RNN- を使用することを好みます。 T (リカレント ニューラル) ネットワーク トランスデューサー[5]) このタイプのエンドツーエンド モデルはオンラインで展開されます。

主な理由は、LAS/RNN-T が優れたエンドツーエンドのモデリング機能を備えていると同時に、近年従来の CTC モデルよりも優れた結果を達成しているためです。 、業界で広く使用されています。 Volcano Engine は、エンドツーエンドの音声認識モデルの推論と展開に関して多くの最適化作業を行い、多くのビジネスをサポートする比較的成熟したソリューションを形成しました。効果をロスなく維持しつつ、エンドツーエンドの推論エンジンを利用できれば、エンジンの運用保守コストを大幅に削減できます。

これに基づいて、チームはモデル移行フェーズである 3 番目のフェーズを設計しました。 主に知識の蒸留のアイデアを活用し、シード モデルを使用してラベルのないデータを疑似ラベルし、トレーニング用に少数のパラメーターを備えた LAS モデルを同期的に提供します。モデル構造の移行と推論計算の圧縮を実現します。 プロセス全体の有効性は広東 ASR で検証されており、具体的な実験結果は次の表に示されています。 #まず第一に、チームは実験比較のために 1kh の完成品データを購入しましたが、LAS モデルを直接トレーニングした場合のパフォーマンスは低く、文字エラー率 (CER) は 44.2% と高かったです。ボルケーノ エンジンでは分析の結果、調達データ(会話)とビジネス テスト セット(ビデオ)フィールドの不一致が主な原因であると考えており、wav2vec2.0 の予備実験でも同様の現象が確認されました。

Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

調達データを使用した事前トレーニングと比較して、Volcano Engine は対象分野と一致したデータを事前トレーニングに使用するため、ビジネス テスト セットの CER を向上させることができます。は 42.0% から 29.4% に減少し、ビジネス シナリオのラベルなしデータが 50kh まで蓄積されると、モデル パラメーターは 100M から 300M に増加し、CER はさらに 23.1% に低下します。

最後に、火山エンジンはモデル移行の効果を検証し、広東語モデルを組み合わせて 50kh の言語をデコードしました。ラベルのないデータを使用して擬似ラベルを取得し、LAS モデルをトレーニングします。 擬似ラベルトレーニングに基づく LAS モデルは、基本的に CTC シード モデルの認識効果を維持でき、モデル パラメーターの数が 3 分の 1 に削減され、直接展開できることがわかります。オンラインの成熟したエンドツーエンド推論エンジンに基づいています。

#モデル パラメーターと CER の比較

最後に、モデル内でパラメーターの数が変わらないという前提の下で、チームは 50 時間のラベルなしビジネス データと 10 時間のラベル付きビジネス データを使用して、23.0% の CER を達成しました。これは、ベースライン モデルと比較して 48% 減少です。 Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

オンライン計算量と互換性の問題を解決した後、プロセス全体のコアとなる教師なし事前トレーニング技術に焦点を当て、wav2vec2.0 では、Volcano Engine がアルゴリズムとアルゴリズムの 2 つの次元から作業を実行しました。エンジニアリング、最適化。

アルゴリズム最適化wav2vec2.0 は、2020 年にメタ AI によって提案された自己教師あり事前トレーニング モデルとして、教師なし表現を可能にしますスピーチの新たな章。中心となるアイデアは、量子化モジュールを使用して入力特徴を離散化し、比較学習の最適化を通じて、モデルの本体が BERT と同様のランダム マスク部分入力特徴を実現することです。

wav2vec2.0 モデルの構造図 (出典: wav2vec 2.0 図 1 [1])

ビジネス データで wav2vec 2.0 モデルをトレーニングするときに遭遇する問題が 2 つあります。 : 1 つは学習効率が低く、64 枚のカードを含む 300M の大きなモデルを完了するのに 10 日以上かかること、もう 1 つは学習が不安定で分岐しやすいことです。 この Volcano エンジンは、上記 2 つの問題を軽減するために効率的な wav2vec を提案します。

トレーニング効率が低いという問題に関して、チームはモデルのフレーム レートを下げ、入力特徴を波形からフィルターバンクに置き換えることでトレーニング速度を加速しました。フレームレートは元の 20ms から 40ms に変更されました。これにより、特徴抽出畳み込みの計算量が大幅に削減されるだけでなく、Transformer の内部エンコード長も大幅に短縮され、学習効率が向上します。学習が不安定であるという問題は、教師なし事前学習と総合判断による学習方法をビジネスデータの実態と組み合わせて分析することで解決され、比較学習損失は次の式で表されます。

Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

各フレーム t について、ct はフレームのエンコーダ出力 を表します。 qt は、フレームの量子化された出力を表します。さらに、他のいくつかのフレームを負のサンプルとしてサンプリングする必要があるため、現在のフレームと負のサンプル フレームのセットは、動的に構築された語彙 Qt と同等になります。

対比学習の最適化目標は、現在のフレーム エンコーディングとフレームの量子化結果の間の類似性を最小限に抑えながら、現在のフレーム エンコーディングとフレームの量子化結果の間の類似性を最大化することです。他のフレーム。陰性サンプルと陽性サンプル間の類似性と陰性サンプルの数が対照学習の効果を直接決定することを見つけるのは難しくありません。実際の運用では、ビジネス データの平均長は短く、1 文で 50 個のネガティブ サンプルを提供するだけでは十分ではありません。隣接する音声フレーム間の類似性が非常に高いことを考慮すると、マスク領域の連続性を確保する必要があり、それによって表現再構成の難易度が高くなります。

上記の 2 つの問題を解決するために、Volcano エンジンは 2 つの改善を提案しました:

  1. 等しい長さのデータ ストリーム: 事前トレーニング プロセスでは、トレーニング セット全体が最初と最後から接続された音声の一部とみなされます。各文の各トレーニングサンプルを切り出し、固定長を取得します。これは、負のサンプルの数が十分であること、およびコンテキスト エンコーディング ネットワーク内の長さがさまざまなフレーム レートで一貫していることを確認して、トレーニングの堅牢性を確保するために行われます。
  2. 適応連続マスク: トレーニングに対するデータ ノイズの影響を軽減するには、より小さいマスク長を選択します。各マスク領域は強制的に連続しており、マスク領域に対応するオーディオの長さは異なるフレーム レートでも同等です。これにより、ノイズの多いデータ下での比較学習の困難が軽減されるだけでなく、さまざまなフレーム レートにも適応します。
wav2vec2.0 (w2v) と Efficient wav2vec (w2v-e) のビジネス データへの効果を比較した結果、次の表に示す結果が得られました (全モデル)はトレーニングに 64 個の V100 GPU を使用しています):

Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

改良された効率的な wav2vec は、以前と比較して安定して 5% パフォーマンスが向上していることがわかります。オリジナルの wav2vec 2.0 に比べて、トレーニング効率がほぼ 2 倍になっています。

エンジニアリングの最適化

チームが提案した効率的なwav2vecは、アルゴリズムレベルで学習効率を2倍近く向上させましたが、300Mモデルの通信量が多いため、学習にはまだばらつきがあります。通信効率やマルチマシン拡張効率が低い。これに関して、Volcano Engine Voice チームは次のように結論付けています。「同期勾配シナリオにおけるモデルの事前トレーニングの通信効率を向上させるために、BytePS 分散トレーニング フレームワークに基づいた通信バックエンド上のバケット グループ通信最適化テクノロジを完成させました。データ並列効率は 10% の向上を達成できます。同時に、モデル パラメーター定義の順序と勾配更新順序の違いによって引き起こされる待機問題に対処するために、適応パラメーターの並べ替え (パラメーター リオーダー) 戦略も実装されています。」 ##これらの最適化をベースに、さらに勾配累積やその他の技術を組み合わせることで、300M モデルのシングルカード拡張効率は 55.42% から 81.83% に向上し、マルチマシン拡張効率は 60.54% から 91.13% に向上しました。 %. 当初トレーニングに 6.5 日かかったモデルは、現在ではわずか 4 日でトレーニングできるようになり、時間が 40% 短縮されました。

さらに、将来検討される大規模モデルのビッグデータ シナリオをサポートするために、Volcano Engine 音声チームはさらにシリーズを完成させました。超大規模モデルの原子能力構築。 まず、ローカル OSS テクノロジが実装され、オプティマイザが占有する冗長メモリのほとんどを削除しながらマシン間の拡張効率の問題を解決しました。その後、同期勾配でのバケットをサポートしました。 Lazy init は、ビデオ メモリの使用量をパラメータ数の 2 倍に削減し、ピーク メモリ値を大幅に削減し、ビデオ メモリ リソースが不足している非常に大規模なモデル シナリオに適応します。最後に、データ並列処理に基づいて、モデル並列処理とパイプライン並列処理がサポートされます。 、1B および 10B モデルでは検証とカスタマイズのサポートが完了しています。この一連の最適化により、大規模モデルとビッグデータのトレーニングのための強固な基盤が築かれます。

現在、低リソース ASR 実装プロセスを採用することで、2 つの低リソース言語がビデオ字幕とコンテンツ セキュリティ サービスの実装に成功しています。 wav2vec2.0 に基づく事前トレーニング モデルは、音声認識に加えて、オーディオ イベント検出、言語認識、感情検出など、他の多くの下流タスクでも大幅な向上を達成しており、ビデオ コンテンツのセキュリティにも段階的に実装される予定です。 、将来の推奨および分析、オーディオオフロード、電子商取引顧客サービスセンチメント分析およびその他の関連事業。 教師なし事前トレーニング テクノロジの実装により、さまざまな種類の音声データのラベル付けコストが大幅に削減され、ラベル付けサイクルが短縮され、ビジネス ニーズへの迅速な対応が実現されます。

概要と展望

実際には、Volcano Engine は wav2vec2.0 に基づいた一連の低リソース言語 ASR 実装ソリューションを検討してきました。問題を解決します。 高い推論オーバーヘッドの問題を解決し、エンドツーエンド エンジンとのシームレスな接続を実現します。 wav2vec2.0 のトレーニング効率の低さと不安定性という中心的な問題に対処するために、効率的な wav2vec が提案されました。 wav2vec2.0 と比較して、下流タスクへの効果が 5% 向上し、事前トレーニング時間が半分に短縮され、エンジニアリングの最適化と組み合わせることで、最終的な事前トレーニング時間はオリジナル バージョンと比較して 70% 短縮されました。 今後も、Volcano Engine は次の 3 つの方向への探求を続けていきます:

  1. 教師なしアルゴリズムのアップグレード: wav2vec 2.0 の後、教師なし音声の事前トレーニングに関する研究作業が始まり、チームは最新の研究を追跡し、それをビジネス シナリオに反映します。この段階では、主に HuBERT[2]、MAE[6]、data2vec[7] などの教師なしモデルを試し、それぞれのダウンストリーム アプリケーションを調査します。 . タスクのパフォーマンス。将来的には、教師なしモデルのパフォーマンスは、さまざまなビジネス シナリオに応じた効率的で適応性のある教師なしソリューションの設計、およびさまざまな下流タスクのパフォーマンスを向上させるための一般的な教師なしモデルの設計という 2 つの側面から改善されるでしょう。
  2. 多言語とマルチモーダル: 現在、教師なし言語とマルチモーダル言語の組み合わせに関する研究が数多く行われています。 XLSR[8] などの多言語。これに基づいて、Volcano Engine は、事前トレーニング モデルで複数の疎なサブネットワークを分割して異なる言語をモデル化することで、異なる言語間の競合を効果的に軽減する S3Net[9] を提案しました。干渉 (言語干渉) は、大規模なコーパス言語に対して大幅なパフォーマンス向上効果をもたらします。既存の研究は主にオーディオ エンコーダ側に焦点を当てており、現在の主流のエンドツーエンド モデルはすべてエンコーダ - デコーダ構造、つまりオーディオ テキスト マルチモーダル モデリングを採用しています。チームは、純粋なオーディオ エンドの事前トレーニングではもはやエンドツーエンド モデルのニーズを満たすことができないと判断し、将来的には、大規模な非整列の共同モデリングを含む、オーディオ テキストのマルチモーダル事前トレーニングを検討する予定です。オーディオ テキスト、エンドツーエンド モデル、および純粋な教師なしマルチモーダル事前トレーニング。
  3. ビッグデータ ビッグ モデル: 既存モデルのパフォーマンスは 100,000 規模では飽和に近い時間、チームは 100,000 時間の中国語ラベル付きデータでトレーニングされたモデルに基づいて NST[10] トレーニングを行うために 100 万時間のラベルなしデータを使用し、一般的なテスト セットで相対的に 7% の CER 削減を達成しました。同時に、モデルの汎化能力が大幅に向上し、20 ドメインのテスト セットの平均 CER が 15% 低下しました。数百万時間オーダーの膨大なデータを完全に吸収するには、より大きなモデルが必要ですが、現在、Volcano Engine は 1B パラメータレベルのモデルで暫定的な進歩を遂げています。大規模モデルのパフォーマンス限界は高く、実装が難しいという問題があります。大規模なモデルを実際のビジネスに実装するために、可能な限り可逆圧縮効果を達成するために、行列分解、重みクリッピング、知識蒸留など、さまざまなモデル圧縮手法が今後試行されます。

Volcano Voice、長期サービス ByteDance の各ビジネスライン向けの最先端の音声テクノロジーは Volcano エンジンを通じて開かれ、業界をリードする AI 音声テクノロジー機能と優れた完全な機能を提供します。 -スタック音声製品 ソリューションには、音声理解、音声合成、仮想デジタル ヒューマン、会話型インタラクション、音楽検索、インテリジェント ハードウェアなどが含まれます。現在、Volcano Engine の音声認識と音声合成は複数の言語と方言をカバーしており、多くの技術論文がさまざまなトップ AI カンファレンスに選ばれており、Douyin、Jianying、Feishu、Tomato Novels、Pico およびその他のビジネスに主要な音声機能を提供しています。ショートビデオ、ライブブロードキャスト、ビデオ作成、オフィス、ウェアラブルデバイスなどのさまざまなシナリオに適しています。

参考文献

[1] Baevski, A.、Zhou, Y.、Mohamed, A.、Auli, M. 、2020. wav2vec 2.0: 音声表現の自己教師あり学習のためのフレームワーク. Advances in Neural Information Processing Systems, 33, pp.12449-12460.

#[ 2] Hsu, W.N.、Bolte, B.、Tsai, Y.H.H.、Lakhotia, K.、Salakhutdinov, R.、Mohamed, A.、2021. Hubert: 隠れ単位のマスク予測による自己教師あり音声表現学習. IEEE /ACM Transactions on Audio, Speech, and Language Processing, 29, pp.3451-3460.

##[3] Graves, A.、Fernández, S.、Gomez, F. および Schmidhuber, J.、2006 年 6 月. コネクショニスト時間分類: リカレント ニューラル ネットワークによるセグメント化されていないシーケンス データのラベル付け. 第 23 回機械学習国際会議議事録 (pp. 369-376).

#[4] Chan, W.、Jaitly, N.、Le, Q.、Vinyals, O.、2016 年 3 月、聞いて、参加して、綴る: 大量の語彙のためのニューラル ネットワーク会話型音声認識。2016 年の音響、音声、信号処理に関する IEEE 国際会議 (ICASSP) (pp. 4960-4964)。IEEE.

[5] Graves, A.、2012 年。リカレント ニューラル ネットワークによるシーケンス変換。 arXiv プレプリント arXiv:1211.3711.

[6] He、K.、Chen、X.、Xie、S.、Li、Y.、Dollár、Pマスクされたオートエンコーダは、スケーラブルな視覚学習器です。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録 (pp. 16000-16009).

[7] Baevski, A.、Hsu、 W.N.、Xu、Q.、Babu、A.、Gu, J.、Auli, M.、2022年。 Data2vec: 音声、視覚、言語における自己教師あり学習のための一般的なフレームワーク。 arXiv プレプリント arXiv:2202.03555.

[8] Conneau, A.、Baevski, A.、Collobert, R.、Mohamed, A.、および Auli, M ., 2020. 音声認識のための教師なし異言語表現学習。 arXiv プレプリント arXiv:2006.13979.

[9] Lu, Y.、Huang, M.、Qu, X.、Wei, P.、および Ma, Z 、2022年5月。スパース共有サブネットワークを使用した言語適応型クロスリンガル音声表現学習。 ICASSP 2022-2022 IEEE 音響、音声および信号処理に関する国際会議 (ICASSP) (pp. 6882-6886)。 IEEE.

[10] Park, D.S.、Zhang, Y.、Jia, Y.、Han, W.、Chiu, C.C.、Li, B. 、Wu、Y. および Le、Q.V.、2020 年。自動音声認識のための騒々しい学生のトレーニングを改善しました。 arXiv プレプリント arXiv:2005.09629.

以上がHuoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
字节跳动豆包大模型发布,火山引擎全栈 AI 服务助力企业智能化转型字节跳动豆包大模型发布,火山引擎全栈 AI 服务助力企业智能化转型Jun 05, 2024 pm 07:59 PM

火山引擎总裁谭待企业要做好大模型落地,面临模型效果、推理成本、落地难度的三大关键挑战:既要有好的基础大模型做支撑,解决复杂难题,也要有低成本的推理服务让大模型被广泛应用,还要更多工具、平台和应用帮助企业做好场景落地。——谭待火山引擎总裁01.豆包大模型首次亮相大使用量打磨好模型模型效果是AI落地最关键的挑战。谭待指出,只有大的使用量,才能打磨出好模型。目前,豆包大模型日均处理1,200亿tokens文本、生成3,000万张图片。为助力企业做好大模型场景落地,字节跳动自主研发的豆包大模型将通过火山

营销效果大幅提升,AIGC视频创作就该这么用营销效果大幅提升,AIGC视频创作就该这么用Jun 25, 2024 am 12:01 AM

经过一年多的发展,AIGC已经从文字对话、图片生成逐步向视频生成迈进。回想四个月前,Sora的诞生让视频生成赛道经历了一场洗牌,大力推动了AIGC在视频创作领域的应用范围和深度。在人人都在谈论大模型的时代,我们一方面惊讶于视频生成带来的视觉震撼,另一方面又面临着落地难问题。诚然,大模型从技术研发到应用实践还处于一个磨合期,仍需结合实际业务场景进行调优,但理想与现实的距离正在被逐步缩小。营销作为人工智能技术的重要落地场景,成为了很多企业及从业者想要突破的方向。掌握了恰当方法,营销视频的创作过程就会

火山语音TTS技术实力获国检中心认证 MOS评分高达4.64火山语音TTS技术实力获国检中心认证 MOS评分高达4.64Apr 12, 2023 am 10:40 AM

日前,火山引擎语音合成产品获得国家语音及图像识别产品质量检验检测中心(以下简称“AI国检中心”)颁发的语音合成增强级检验检测证书,在语音合成的基本要求以及扩展要求上已达AI国检中心的最高等级标准。本次评测从中文普通话、多方言、多语种、混合语种、多音色、个性化等维度进行评测,产品的技术支持团队-火山语音团队提供了丰富的音库,经评测其音色MOS评分最高可达4.64分,处行业领先水平。作为我国质检系统在人工智能领域的首家、也是唯一的国家级语音及图像产品质量检验检测机构,AI 国检中心一直致力于推动智能

主打个性化体验,留住用户全靠AIGC?主打个性化体验,留住用户全靠AIGC?Jul 15, 2024 pm 06:48 PM

1.购买商品前,消费者会在社交媒体上搜索并浏览商品评价。因此,企业在社交平台上针对产品进行营销变得越来越重要。营销的目的是为了:促进产品的销售树立品牌形象提高品牌认知度吸引并留住客户最终提高企业的盈利能力大模型具备出色的理解和生成能力,可以通过浏览和分析用户数据为用户提供个性化内容推荐。《AIGC体验派》第四期中,两位嘉宾将深入探讨AIGC技术在提升「营销转化率」方面发挥的作用。直播时间:7月10日19:00-19:45直播主题:留住用户,AIGC如何通过个性化提升转化率?第四期节目邀请到两位重

深探无监督预训练技术落地 火山语音“算法优化+工程革新”并举深探无监督预训练技术落地 火山语音“算法优化+工程革新”并举Apr 08, 2023 pm 12:44 PM

长期以来,火山引擎为时下风靡的视频平台提供基于语音识别技术的智能视频字幕解决方案。简单来说,就是通过AI技术自动将视频中的语音和歌词转化成文字,辅助视频创作的功能。但伴随平台用户的快速增长以及对语言种类更加丰富多样的要求,传统采用的有监督学习技术日渐触及瓶颈,这让团队着实犯了难。众所周知,传统的有监督学习会对人工标注的有监督数据产生严重依赖,尤其在大语种的持续优化以及小语种的冷启动方面。以中文普通话和英语这样的大语种为例,尽管视频平台提供了充足的业务场景语音数据,但有监督数据达到一定规模之后,继

全抖音都在说家乡话,两项关键技术助你“听懂”各地方言全抖音都在说家乡话,两项关键技术助你“听懂”各地方言Oct 12, 2023 pm 08:13 PM

国庆期间,抖音上“一句方言证明你是地道家乡人”的活动在吸引了全国各地的网友热情参与,话题最高登上抖音挑战榜第一位,播放量已超过5000万。这场“各地方言大赏”能够在网络上迅速走红,离不开抖音新推出的地方方言自动翻译功能的功劳。创作者们在录制家乡话的短视频时,使用了“自动字幕”功能,并选择了“转为普通话字幕”,这样就能够自动识别视频中的方言语音,并将方言内容转化为普通话字幕,让其他地区的网友也能轻松听懂各种“加密型国语”。福建的网友亲自测试后表示,就连“十里不同音”的闽南地区是中国福建省的一个地域

火山引擎和伊利合作举办的“健康+AI”生态创新大赛成功结束火山引擎和伊利合作举办的“健康+AI”生态创新大赛成功结束Jan 13, 2024 am 11:57 AM

健康+AI=?中老年脑健康营养解决方案、数智化营养健康服务、AIGC大健康社区方案……随着“健康+AI”生态创新大赛的展开,一个个蕴含技术能量、赋能健康产业的创新方案呼之欲出,“健康+AI=?”的答案正在慢慢浮现。12月26日,伊利集团与火山引擎联合主办的“健康+AI”生态创新大赛圆满收官,上海博斯腾网络科技有限公司、中科苏州智能计算技术研究院等6家优胜企业脱颖而出。在历时一个多月的角逐中,伊利携手优秀科创企业共同探索AI技术与健康产业的深度融合,将大赛期待值持续拉满。“健康+AI”生态创新大赛

火山引擎自研视频编解码芯片今日正式发布,压缩效率相比行业主流提升 30% 以上火山引擎自研视频编解码芯片今日正式发布,压缩效率相比行业主流提升 30% 以上Aug 24, 2023 pm 07:53 PM

本站8月22日消息,据火山引擎官方消息,火山引擎视频云宣布其自研的视频编解码芯片已成功出片,今日正式发布。官方表示,该芯片的视频压缩效率相比“行业主流硬件编码器”可提升30%以上,未来将服务于抖音、西瓜视频等视频业务,并将通过火山引擎视频云开放给企业客户。据悉,火山引擎基于抖音等视频业务的大规模实践和打磨,将自研的视频编解码技术融入到专用芯片中,压缩效率相比行业主流硬件编码器提升30%以上,可应用于视频点播、直播、图像压缩、XR等业务场景。▲图源火山引擎第三方数据显示,中国用户量排名TOP100

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール