真快！几分钟就把视频语音识别为文本了，不到10行代码-人工智能-PHP中文网

首页

科技周边

人工智能

真快！几分钟就把视频语音识别为文本了，不到10行代码

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 27, 2024 pm 01:55 PM

抖音语音识别pytorchrust

真快！几分钟就把视频语音识别为文本了，不到10行代码

大家好，我是风筝

两年前，将音视频文件转换为文字内容的需求难以实现，但是如今只需几分钟便可轻松解决。

据说一些公司为了获取训练数据，已经对抖音、快手等短视频平台上的视频进行了全面爬取，然后将视频中的音频提取出来转换成文本形式，用作大数据模型的训练语料。

如果您需要将视频或音频文件转换为文字，可以尝试今天提供的这个开源解决方案。例如，可以搜索影视节目的对话出现的具体时间点。

话不多说，进入正题。

Whisper

这个方案就是 OpenAI 开源的 Whisper，当然是用 Python 写的了，只需要简单安装几个包，然后几行代码一写，稍等片刻（根据你的机器性能和音视频长度不一），最终的文本内容就出来了，就是这么简单。

GitHub 仓库地址：https://github.com/openai/whisper

Fast-Whisper

尽管已经相当简化，但对于程序员而言仍不够精简。毕竟，程序员们往往偏爱简洁高效。虽然安装和调用Whisper已经相对容易，但仍需要单独安装PyTorch、ffmpeg，甚至Rust。

因此，Fast-Whisper应运而生，它比Whisper更快速、更简洁。Fast-Whisper并非仅仅是对Whisper进行简单封装，而是通过采用CTranslate2重新构建了OpenAI的Whisper模型。CTranslate2是Transformer模型的一种高效推理引擎。

总结一下，也就是比 Whisper 更快，官方的说法是比 Whisper 快了 4-8 倍。不仅能支持 GPU ，还能支持 CPU，连我这台破 Mac 也能用。

GitHub 仓库地址：https://github.com/SYSTRAN/faster-whisper

使用起来就两步。

安装依赖包

pip install faster-whisper

写代码，

from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

没错，就是这么简单。

能做什么呢

正好有个朋友想做短视频，发一些鸡汤文学的视频，鸡汤就来自于一些名家访谈的视频。但是，他又不想把完整的视频看一遍，就想用最快的方式把文本内容弄下来，然后读文字，因为读文字要比看一篇视频快的多，而且还可以搜索。

我就说，连完整的看一篇视频的虔诚之心都没有，能经营好账号吗。

于是我给他做了一个，就是用的 Fast-Whisper。

客户端

客户端用 Swift ，只支持 Mac 端。

选则一个视频；
然后点击「提取文本」，这时会调用 Python 接口，需要等待一段时间；
加载解析出的文本以及出现的开始、截止时间；
选了一个开始时间和一个结束事件；
点击「导出」按钮，视频片段就导出了；

，时长00:10

服务端

服务端当然就是 Python ，然后用 Flask 包装一下，对外放开接口。

from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)

以上是真快！几分钟就把视频语音识别为文本了，不到10行代码的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除