検索
ホームページテクノロジー周辺機器AI非常に高速! 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します

非常に高速! 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します

皆さん、こんにちは。私は Kite です。

2 年前、オーディオ ファイルとビデオ ファイルをテキスト コンテンツに変換する必要は困難でした。しかし今では、わずか数分で簡単に解決できるようになりました。

一部の企業は、トレーニング データを取得するために、Douyin や Kuaishou などのショートビデオ プラットフォーム上のビデオを完全にクロールし、ビデオから音声を抽出し、テキスト形式に変換して使用していると言われています。ビッグデータ モデル トレーニング コーパス。

ビデオまたはオーディオ ファイルをテキストに変換する必要がある場合は、現在入手可能なこのオープン ソース ソリューションを試すことができます。たとえば、映画やテレビ番組のセリフが登場する特定の時点を検索できます。

早速、本題に入りましょう。

Whisper

このソリューションは、OpenAI のオープン ソース Whisper です。もちろん、Python で書かれています。必要なのは、いくつかのパッケージをインストールし、数行のコードを記述するだけです。しばらく待つと (マシンのパフォーマンスや音声とビデオの長さによって異なります)、最終的なテキスト コンテンツが表示されます。非常に簡単です。

GitHub ウェアハウス アドレス: https://github.com/openai/whisper

Fast-Whisper

かなり簡略化されていますが、プログラムはスタッフにとってまだ十分に合理化されていません。結局のところ、プログラマーはシンプルさと効率を好む傾向があります。 Whisper のインストールと呼び出しは比較的簡単ですが、PyTorch、ffmpeg、さらには Rust を個別にインストールする必要があります。

そこで、Whisper よりも高速かつ簡潔な Fast-Whisper が登場しました。 Fast-Whisper は、Whisper を単純にカプセル化したものではなく、CTranslate2 を使用して OpenAI の Whisper モデルを再構築したものです。 CTranslate2 は、Transformer モデルの効率的な推論エンジンです。

要約すると、Whisper よりも高速であり、公式発表では Whisper の 4 ~ 8 倍高速です。 GPUだけでなくCPUにも対応しており、壊れたMacでも使えます。

GitHub ウェアハウスのアドレス: https://github.com/SYSTRAN/faster-whisper

使用するには 2 つの手順だけが必要です。

  1. 依存関係パッケージをインストールします
pip install faster-whisper
  1. コードを作成します、
from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

はい、とても簡単です。

どうすればよいでしょうか?

たまたま友人が短いビデオを作成して、チキン スープに関する文学ビデオを投稿したいと考えています。チキン スープは、何人かの有名人へのインタビューから生まれました。 。ただし、彼はビデオ全体をもう一度見たくはなく、テキスト コンテンツを取得する最速の方法を使用してテキストを読みたかっただけです。テキストを読むほうがビデオを見るよりはるかに速く、また、検索した。

言っておきますが、ビデオを最後まで見る敬虔ささえないのに、どうやってアカウントをうまく管理できるでしょうか?

そこで、Fast-Whisper を使って彼のためにこれを作りました。

クライアント

クライアントは Swift を使用し、Mac のみをサポートします。

  1. ビデオを選択します;
  2. 次に「テキストの抽出」をクリックすると、Python インターフェースが呼び出され、しばらく待つ必要があります;
  3. 読み込み解析されたテキストと、表示される開始時間と終了時間;
  4. 開始時間と終了イベントを選択します;
  5. [エクスポート] ボタンをクリックすると、ビデオ クリップがエクスポートされます。

、継続時間 00:10

サーバー

サーバーはもちろん Python です。 Flask にパッケージ化されており、インターフェイスは外部にオープンです。

rreeee

以上が非常に高速! 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
迅速なエンジニアリングにおける思考のグラフは何ですか迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますGenaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

PIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaPIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析Vidhya生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

金融セクターにおける生成AIの応用金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドオンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。