最近、「中国語を披露するテイラー・スウィフト」の動画が主要なソーシャルメディアで急速に人気を博し、その後「英語を披露する郭徳剛」などの同様の動画も登場しました。これらのビデオの多くは、「HeyGen」と呼ばれる人工知能アプリケーションによって作成されています
# ただし、HeyGen の現在の人気から判断すると、同様のビデオを作成するためにそれを使用したいと考えています。長い間列に並んで待ちます。幸いなことに、これが唯一の方法ではありません。テクノロジーを理解している友人は、音声からテキストへのモデル Whisper、テキスト翻訳 GPT、オーディオ so-vits-svc を生成するための音声クローン、オーディオ GeneFace dengdeng に一致する口の形のビデオの生成など、他の代替案を探すこともできます。
#書き換えられた内容は次のとおりです。 その中でも、Whisper は OpenAI によって開発されオープンソース化されている自動音声認識 (ASR) モデルであり、非常に使いやすいです。彼らは、Web から収集した 680,000 時間の多言語 (98 言語) およびマルチタスク監視データに基づいて Whisper をトレーニングしました。 OpenAI は、このような大規模で多様なデータセットを使用することで、アクセント、背景雑音、専門用語を認識するモデルの能力を向上できると考えています。 Whisper は音声認識に加えて、複数の言語を書き起こして英語に翻訳することもできます。現在、Whisper には多くのバリアントがあり、多くの AI アプリケーションを構築する際に必要なコンポーネントとなっています
最近、HuggingFace チームは新しいバリアント Distil-Whisper を提案しました。このバリアントは Whisper モデルの改良版であり、小型、高速、非常に高い精度を特徴としており、低遅延が必要な環境やリソースが限られている環境での使用に非常に適しています。ただし、複数の言語を処理できる元の Whisper モデルとは異なり、Distil-Whisper は英語のみを処理できます。
具体的には、Distil-Whisper には 2 つのバージョンがあり、パラメーター サイズは 756M (distil-large-v2) と 394M (distil-medium.en)
#OpenAI の Whisper-large-v2 と比較すると、756M バージョンの distil-large-v2 はパラメータが半分以上ありますが、6 倍の加速を達成し、精度は Whisper に非常に近くなります。 -large-v2. 短い音声の Word Error Rate (WER) の差は 1% 以内で、長い音声では Whisper-large-v2 よりも優れています。これは、慎重なデータの選択とフィルタリングにより、Whisper の堅牢性が維持され、錯覚が軽減されるためです。
Whisper の Web バージョンの速度を Distil-Whisper の速度と視覚的に比較します。画像出典:https://twitter.com/xenovacom/status/1720460890560975103
つまり、リリースされてまだ2、3日ですが、Distil-Whisperはすでに1000を超えています出演者。
- モデルのアドレス: https://huggingface.co/models?other=arxiv:2311.00430
- さらに、テスト結果では、150 分のオーディオを処理する場合、Distil-Whisper は Faster-Whisper より 2.5 倍高速であることが示されています。
テストリンクは次のとおりです: https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper
では、このような良い結果はどのようにして達成されるのでしょうか?論文の著者らは、擬似ラベル技術を使用して大規模なオープンソース データセットを構築し、このデータセットを使用して Whisper モデルを Distil-Whisper に圧縮したと述べています。シンプルな WER ヒューリスティックを使用し、トレーニング用に最高品質の疑似ラベルのみを選択します
以下は元の内容を書き直したものです。 Distil-Whisper のアーキテクチャを以下の図 1 に示します。研究者らは、教師モデルからエンコーダー全体をコピーすることで学生モデルを初期化し、トレーニング中にそれをフリーズさせました。彼らは、OpenAI の Whisper-medium.en モデルと Whisper-large-v2 モデルから最初と最後のデコーダー層をコピーし、蒸留後に distil-medium.en と ditil-medium.en という名前の 2 つのデコーダー チェックポイントを取得しました。 v2
を表 3 に示します。
データに関しては、モデルは 9 つの異なるオープンソース データセットで 22,000 時間トレーニングされています (表 2 を参照)。疑似タグは Whisper によって生成されます。 WER フィルターを使用し、WER スコアが 10% を超えるタグのみが保持されたことは注目に値します。著者は、これがパフォーマンスを維持するための鍵であると述べています。
以下の表 5 は、Distil-Whisper の主なパフォーマンス結果を示しています。
#著者によると、エンコーダの動作をフリーズすることで、Distil-Whisper はノイズに対して非常に堅牢に動作するとのことです。以下の図に示すように、Distil-Whisper はノイズの多い条件下で Whisper と同様の堅牢性曲線に従い、Wav2vec2
# # などの他のモデルよりも優れたパフォーマンスを発揮します。比較的長い音声ファイルを処理する場合、Whisper と比較して、Distil-Whisper は幻覚を効果的に軽減します。著者によれば、これは主に WER フィルタリングによるものです。
同じエンコーダを共有することで、Distil-Whisper を Whisper と組み合わせて、投機的デコードを行うことができます。 (投機的デコード)。これにより、Whisper とまったく同じ出力を生成しながら、パラメータを 8% 増加させるだけで 2 倍のスピードアップが実現します。
詳細については、原文をご覧ください。
以上がOpenAIのWhisper蒸留後、音声認識速度が大幅に向上:星の数は2日で1,000を超えたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました:無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。 あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

ロボットプロセスオートメーション(RPA)を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。 一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。 このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント:研究a

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか? Topher McDougalの今後の本、Gaia Wakes:

多くの場合、Harmonized System(HS)などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。 これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターと気候技術投資におけるエネルギー消費の将来 この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。 エネルギー需要の課題:大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました(JP Morgan、2024)(表1)。 エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。 生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptユーザーエクスペリエンスは低下します:それはモデルの劣化ですか、それともユーザーの期待ですか? 最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。 ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。 これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。 パフォーマンスの劣化の証拠 多くのユーザーは、特にGPT-4などの古いモデル(今月末にサービスから廃止される)で、ChatGPTパフォーマンスの大幅な分解を報告しています。 これ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

ホットトピック









