首页  >  文章  >  未来说话:超低延迟的实时人工智能语音代理

未来说话:超低延迟的实时人工智能语音代理

James Robert Taylor
James Robert Taylor原创
2024-09-24 16:34:31203浏览

语音模式已迅速成为对话式人工智能的旗舰功能,让用户感到轻松并允许他们以最自然的方式(通过语音)进行交互。 OpenAI 不断开拓创新,推出了延迟低于 500 毫秒的实时 AI 语音代理。这一成就背后的技术现已开源,提供了无与伦比的工具访问权限,使构建高质量的响应式语音代理成为可能。

thumbnail (1).jpg

语音模式有迅速成为对话式人工智能的旗舰功能,让用户感到轻松并允许他们以最自然的方式(通过语音)进行交互。 OpenAI 不断开拓创新,推出了延迟低于 500 毫秒的实时 AI 语音代理。这一成就背后的技术现已开源,提供了无与伦比的工具访问权限,使构建高质量的响应式语音代理成为可能。

OpenAI 并没有采取任何行动。当他们为 ChatGPT 开发语音功能时,他们引进了顶尖的选角和导演人才,以确保声音具有身临其境的感觉,同时又让他们看起来像是属于自己的。随后,400 名试镜者被削减至今天的 5 名。这并不是说一切都是一帆风顺的。不是当公司不得不搁置“天空”,因为它与斯嘉丽约翰逊惊人的相似。

但真正令人兴奋的是最新的发展:能够在本地利用这项技术。想象一下,在您自己的 GPU 上进行实时语音到语音处理,延迟低于 500 毫秒。这不再是一个遥远的梦想:系统现已完全开源。

它是如何工作的?

为了实现如此小的延迟,AI 管道被分为不同的组件,每个组件都经过优化为了速度和效率:

1。语音活动检测 (VAD)

管道从 Silero VAD v5 模块开始,负责检测用户何时结束讲话。它是触发下一阶段处理的“看门人”。

2.实时转录(语音到文本)

这部分流程使用一些更复杂的模型(例如 Whisper 或 DeepSpeech)将用户的语音转录为文本。例如,Whisper 是实时运行的,系数为 0.5;因此,它可以以两倍于实时速度的速度处理语音,并在大约 100 毫秒内提供准确的转录。

3.响应生成

随着转录的进行,大型语言模型(LLM)开始同时预测可能的响应。在 200 毫秒内,系统可以生成相关的基于文本的回复。

4.语音合成(文本到语音)

使用快速语音合成器立即将生成的响应转换为语音,这还需要 200 毫秒才能产生高质量的音频。

通过并行提高效率处理

这种令人印象深刻的速度的秘密在于并行处理。与顺序处理组件或一次处理一项任务相比,系统同时进行转录、响应生成和语音合成。这种端到端的设计保证了流程的各个部分协同工作,极大地减少了完成用户交互所需的总体时间

例如,当系统检测到语音结束时,系统会启动转录过程。当转录完成时,语言模型已生成响应,随后立即开始语音合成。这种任务并行处理确保从用户语音到 AI 响应的整体交互在 500 毫秒内完成。

结论:解锁语音 AI 的未来

AI 语音代理 down人机交互延迟达到500ms,是无缝人机交互的重大发展。该技术的使用是通过实时转录、快速响应生成和语音合成,同时提供超响应的对话体验。

这意味着,随着整个管道开源,可以集成此技术技术融入您的项目。开发人员可以针对各种应用程序微调和定制其语音代理,包括语音助手甚至实时游戏化身。

这不仅仅是向前迈出的一步;这是构建对话式人工智能未来的邀请。那么,你会用它创造什么?


以上是未来说话:超低延迟的实时人工智能语音代理的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn