首页 >web前端 >js教程 >如何使用 Web 音频 API 防止语音转录中的说话者反馈

如何使用 Web 音频 API 防止语音转录中的说话者反馈

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原创: 2024-07-18 00:09:311343浏览

How to Prevent Speaker Feedback in Speech Transcription Using Web Audio API

最近我需要弄清楚另一件事，将我的 Assembly.ai 转录引擎连接到一个声音很大的前端。

这是我尝试过的：

请求使用回声消除功能的麦克风访问权限。
使用 Web Audio API 设置音频处理链。
将此设置与语音识别集成。
利用 DynamicsCompressorNode 进行额外的音频处理。

第 1 步：请求使用回声消除功能的麦克风访问权限

第一步是请求访问启用了回声消除的麦克风。此功能内置于大多数现代浏览器中，有助于减少扬声器的反馈。

async function getMicrophoneStream() {
    const constraints = {
        audio: {
            echoCancellation: true,
            noiseSuppression: true,
            autoGainControl: true
        }
    };

    try {
        const stream = await navigator.mediaDevices.getUserMedia(constraints);
        return stream;
    } catch (err) {
        console.error('Error accessing the microphone', err);
        return null;
    }
}

解释

约束：我们指定音频约束以启用回声消除、噪声抑制和自动增益控制。
错误处理：如果用户拒绝访问或存在任何其他问题，我们会捕获并记录错误。

第 2 步：设置 Web 音频 API 节点

接下来，我们设置 Web Audio API 来处理音频流。这涉及创建 AudioContext 并连接各种节点，包括 DynamicsCompressorNode。

async function setupAudioProcessing(stream) {
    const audioContext = new AudioContext();
    const source = audioContext.createMediaStreamSource(stream);

    // Create a DynamicsCompressorNode for additional processing
    const compressor = audioContext.createDynamicsCompressor();
    compressor.threshold.setValueAtTime(-50, audioContext.currentTime); // Example settings
    compressor.knee.setValueAtTime(40, audioContext.currentTime);
    compressor.ratio.setValueAtTime(12, audioContext.currentTime);
    compressor.attack.setValueAtTime(0, audioContext.currentTime);
    compressor.release.setValueAtTime(0.25, audioContext.currentTime);

    // Connect nodes
    source.connect(compressor);
    compressor.connect(audioContext.destination);

    return { audioContext, source, compressor };
}

解释

AudioContext：代表音频环境。
MediaStreamSource：将麦克风流连接到音频上下文。
DynamicsCompressorNode：降低音频信号的动态范围，帮助管理背景噪音和反馈。

第 3 步：与语音识别集成

最后，我们将音频处理设置与 Web Speech API 集成以执行语音识别。

async function startSpeechRecognition() {
    const stream = await getMicrophoneStream();
    if (!stream) return;

    const { audioContext, source, compressor } = await setupAudioProcessing(stream);

    const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
    recognition.continuous = true;
    recognition.interimResults = true;

    recognition.onresult = (event) => {
        for (let i = event.resultIndex; i < event.results.length; i++) {
            const transcript = event.results[i][0].transcript;
            console.log('Transcript:', transcript);
        }
    };

    recognition.onerror = (event) => {
        console.error('Speech recognition error', event.error);
    };

    recognition.start();

    // Handle audio context resume if needed
    if (audioContext.state === 'suspended') {
        audioContext.resume();
    }

    return recognition;
}

// Start the speech recognition process
startSpeechRecognition();

解释

语音识别设置：我们设置了 Web Speech API 以进行连续和临时语音识别。
事件处理：我们处理onresult和onerror事件来处理识别结果和错误。
开始识别：我们开始语音识别过程并确保音频上下文不会暂停。

希望您发现这很有用。

编码愉快！

蒂姆。

以上是如何使用 Web 音频 API 防止语音转录中的说话者反馈的详细内容。更多信息请关注PHP中文网其他相关文章！

echo if for catch Error auto signal using finally Event this background issue Access

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Junior level: Lifecycle Methods and Hooks in React下一篇：Integração Elegante de TailwindCSS com React

查看更多