非常に高速！ 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します-AI-php.cn

ホームページ

テクノロジー周辺機器

非常に高速！ 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 27, 2024 pm 01:55 PM

チクタク音声認識pytorchrust

非常に高速！ 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します

皆さん、こんにちは。私は Kite です。

2 年前、オーディオファイルとビデオファイルをテキストコンテンツに変換する必要は困難でした。しかし今では、わずか数分で簡単に解決できるようになりました。

一部の企業は、トレーニングデータを取得するために、Douyin や Kuaishou などのショートビデオプラットフォーム上のビデオを完全にクロールし、ビデオから音声を抽出し、テキスト形式に変換して使用していると言われています。ビッグデータモデルトレーニングコーパス。

ビデオまたはオーディオファイルをテキストに変換する必要がある場合は、現在入手可能なこのオープンソースソリューションを試すことができます。たとえば、映画やテレビ番組のセリフが登場する特定の時点を検索できます。

早速、本題に入りましょう。

Whisper

このソリューションは、OpenAI のオープンソース Whisper です。もちろん、Python で書かれています。必要なのは、いくつかのパッケージをインストールし、数行のコードを記述するだけです。しばらく待つと (マシンのパフォーマンスや音声とビデオの長さによって異なります)、最終的なテキストコンテンツが表示されます。非常に簡単です。

GitHub ウェアハウスアドレス: https://github.com/openai/whisper

Fast-Whisper

かなり簡略化されていますが、プログラムはスタッフにとってまだ十分に合理化されていません。結局のところ、プログラマーはシンプルさと効率を好む傾向があります。 Whisper のインストールと呼び出しは比較的簡単ですが、PyTorch、ffmpeg、さらには Rust を個別にインストールする必要があります。

そこで、Whisper よりも高速かつ簡潔な Fast-Whisper が登場しました。 Fast-Whisper は、Whisper を単純にカプセル化したものではなく、CTranslate2 を使用して OpenAI の Whisper モデルを再構築したものです。 CTranslate2 は、Transformer モデルの効率的な推論エンジンです。

要約すると、Whisper よりも高速であり、公式発表では Whisper の 4 ～ 8 倍高速です。 GPUだけでなくCPUにも対応しており、壊れたMacでも使えます。

GitHub ウェアハウスのアドレス: https://github.com/SYSTRAN/faster-whisper

使用するには 2 つの手順だけが必要です。

依存関係パッケージをインストールします

pip install faster-whisper

コードを作成します、

from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

はい、とても簡単です。

どうすればよいでしょうか?

たまたま友人が短いビデオを作成して、チキンスープに関する文学ビデオを投稿したいと考えています。チキンスープは、何人かの有名人へのインタビューから生まれました。。ただし、彼はビデオ全体をもう一度見たくはなく、テキストコンテンツを取得する最速の方法を使用してテキストを読みたかっただけです。テキストを読むほうがビデオを見るよりはるかに速く、また、検索した。

言っておきますが、ビデオを最後まで見る敬虔ささえないのに、どうやってアカウントをうまく管理できるでしょうか?

そこで、Fast-Whisper を使って彼のためにこれを作りました。

クライアント

クライアントは Swift を使用し、Mac のみをサポートします。

ビデオを選択します;
次に「テキストの抽出」をクリックすると、Python インターフェースが呼び出され、しばらく待つ必要があります;
読み込み解析されたテキストと、表示される開始時間と終了時間;
開始時間と終了イベントを選択します;
[エクスポート] ボタンをクリックすると、ビデオクリップがエクスポートされます。

、継続時間 00:10

サーバー

サーバーはもちろん Python です。 Flask にパッケージ化されており、インターフェイスは外部にオープンです。

rreeee

以上が非常に高速！ 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

ホットツール

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。