Maison  >  Article  >  interface Web  >  Saisie audio en texte via Google Speech to Text

Saisie audio en texte via Google Speech to Text

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-10-20 14:33:29138parcourir

Audio to Text Input via Google Speech to Text

Dans cet article, nous examinerons les sujets suivants

  1. navigator.mediaDevices.getUserMedia API du navigateur
  2. API Google Speech to Text

nous commencerons par créer un hook de réaction qui fera toutes les choses comme startRecording, stopRecording, la création d'Audio Blob, la gestion des erreurs, etc.

Il y a peu d'autres choses à régler avant d'entrer dans le vif du sujet

  1. Décibel minimum au-dessus duquel nous considérerions un dialogue comme entrée, par exemple -35 dB (juste un nombre aléatoire)
  2. Quelle devrait être la durée de la pause qui indiquerait que l'utilisateur a arrêté la saisie, par exemple 2000 ms
const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

Nommons notre hook comme useAudioInput.ts, nous utiliserions les API du navigateur comme navigator.mediaDevices.getUserMedia, MediaRecorder et AudioContext. AudioContext nous aidera à identifier si l'audio d'entrée est supérieur au décibel minimum requis pour qu'il soit considéré comme une entrée, nous commencerions donc par les variables et accessoires suivants

const defaultConfig = {
    audio: true
};

type Payload = Blob;

type Config = {
    audio: boolean;
    timeSlice?: number
    timeInMillisToStopRecording?: number
    onStop: () => void;
    onDataReceived: (payload: Payload) => void
};

export const useAudioInput = (config: Config = defaultConfig) => {
    const mediaChunks = useRef<Blob[]>([]);
    const [isRecording, setIsRecording] = useState(false);
    const mediaRecorder = useRef<MediaRecorder | null>(null);
    const [error, setError] = useState<Error| null>(null);
    let requestId: number;
    let timer: ReturnType<typeof setTimeout>;

    const createBlob = () => {
      const [chunk] = mediaChunks.current;
      const blobProperty = { type: chunk.type };
      return new Blob(mediaChunks.current, blobProperty)
    }
  ...
}

Dans le code ci-dessus, nous utiliserions mediaChunks comme variable pour contenir le blob d'entrée et mediaRecorder pour avoir une instance du nouveau MediaRecorder qui prend le flux comme entrée de navigator.mediaDevices.getUserMedia. Ensuite, occupons-nous des cas où getUserMedia n'est pas disponible

...
useEffect(() => {
        if(!navigator.mediaDevices || !navigator.mediaDevices.getUserMedia) {
            const notAvailable = new Error('Your browser does not support Audio Input')
            setError(notAvailable)
        }

    },[]);
...

nous allons commencer à écrire la fonctionnalité réelle du hook qui comprendra diverses fonctions telles que setupMediaRecorder, setupAudioContext, onRecordingStart, onRecordingActive, startRecording, stopRecording etc.

const onRecordingStart = () => mediaChunks.current = [];

const onRecordingActive = useCallback(({data}: BlobEvent) => {
        if(data) {
            mediaChunks.current.push(data);
            config?.onDataReceived?.(createBlob())
        }
    },[config]);

const startTimer = () => {
        timer = setTimeout(() => {
            stopRecording();
        }, config.timeInMillisToStopRecording)
    };

const setupMediaRecorder = ({stream}:{stream: MediaStream}) => {
        mediaRecorder.current = new MediaRecorder(stream)
        mediaRecorder.current.ondataavailable = onRecordingActive
        mediaRecorder.current.onstop = onRecordingStop
        mediaRecorder.current.onstart = onRecordingStart
        mediaRecorder.current.start(config.timeSlice)

    };

 const setupAudioContext = ({stream}:{stream: MediaStream}) => {
        const audioContext = new AudioContext();
        const audioStreamSource = audioContext.createMediaStreamSource(stream);
        const analyser = audioContext.createAnalyser();

        analyser.minDecibels = VOICE_MIN_DECIBELS;

        audioStreamSource.connect(analyser);
        const bufferLength = analyser.frequencyBinCount;
        const domainData = new Uint8Array(bufferLength)

        return {
            domainData,
            bufferLength,
            analyser
        }
    };

const startRecording = async () => {
        setIsRecording(true);

        await navigator.mediaDevices
            .getUserMedia({
                audio: config.audio
            })
            .then((stream) => {
                setupMediaRecorder({stream});
                if(config.timeSlice) {
                    const { domainData, analyser, bufferLength } = setupAudioContext({ stream });
                    startTimer()
                }
            })
            .catch(e => {
                setError(e);
                setIsRecording(false)
            })
    };



    const stopRecording = () => {
        mediaRecorder.current?.stop();

        clearTimeout(timer);
        window.cancelAnimationFrame(requestId);

        setIsRecording(false);
        onRecordingStop()
    };

    const createBlob = () => {
        const [chunk] = mediaChunks.current;
        const blobProperty = { type: chunk.type };
        return new Blob(mediaChunks.current, blobProperty)
    }

    const onRecordingStop = () => config?.onStop?.();

avec le code ci-dessus, nous en avons presque fini avec le hook, la seule chose en attente est d'identifier si l'utilisateur a arrêté de parler ou non, nous utiliserions DELAY_BETWEEN_DIALOGUE comme temps d'attente, s'il n'y a pas d'entrée pour 2 secondes, nous supposerons que l'utilisateur a arrêté de parler et atteindra le point de terminaison parole-texte.

...
const detectSound = ({ 
        recording,
        analyser,
        bufferLength,
        domainData
    }: {
        recording: boolean
        analyser: AnalyserNode
        bufferLength: number
        domainData: Uint8Array
    }) => {
        let lastDetectedTime = performance.now();
        let anySoundDetected = false;

        const compute = () => {
            if (!recording) {
                return;
            }

            const currentTime = performance.now();

            const timeBetweenTwoDialog =
                anySoundDetected === true && currentTime - lastDetectedTime > DELAY_BETWEEN_DIALOGUE;

            if (timeBetweenTwoDialog) {
                stopRecording();

                return;
            }

            analyser.getByteFrequencyData(domainData);

            for (let i = 0; i < bufferLength; i += 1) {
                if (domainData[i] > 0) {
                    anySoundDetected = true;
                    lastDetectedTime = performance.now();
                }
            }

            requestId = window.requestAnimationFrame(compute);
        };

        compute();

    }
...

const startRecording = async () => {
 ... 
  detectSound()
 ... 
}

dans le code ci-dessus, nous utilisons requestAnimationFrame pour détecter l'entrée audio de l'utilisateur, avec cela, nous en avons terminé avec le hook et pouvons maintenant commencer à utiliser le hook à divers endroits.

par exemple

  const onDataReceived = async (data: BodyInit) => {
    const rawResponse = await fetch('https://backend-endpoint', {
      method: 'POST',
      body: data
    });
    const response = await rawResponse.json();

    setText(response)
  };

  const { isRecording, startRecording, error } = useAudioInput({
    audio: true,
    timeInMillisToStopRecording: 2000,
    timeSlice: 400,
    onDataReceived
  })

La deuxième partie consiste à câbler un serveur de nœuds qui peut communiquer avec l'API Google Speech to Text. J'ai joint la documentation à laquelle j'ai fait référence lors de la création du côté nœud des choses.
https://codelabs.developers.google.com/codelabs/cloud-speech-text-node.

// demo node server which connects with google speech to text api endpoint

const express = require('express');
const cors = require('cors');

const speech = require('@google-cloud/speech');

const client = new speech.SpeechClient();

async function convert(audioBlob) {
  const request = {
    config: {
      encoding: 'WEBM_OPUS', // Ensure this matches the format of the audio being sent
      sampleRateHertz: 48000, // This should match the sample rate of your recording
      languageCode: 'en-US'
    },
    audio: {
      content: audioBlob
    }
  };

  const [response] = await client.recognize(request);

  const transcription = response.results
    .map(result => result.alternatives[0].transcript)
    .join('\n');
  return transcription;
}

const app = express();

app.use(cors())
app.use(express.json());

app.post('/upload', express.raw({ type: '*/*' }), async (req, res) => {
    const audioBlob = req.body;

    const response = await convert(audioBlob);

    res.json(response);
});

app.listen(4000,'0.0.0.0', () => {
  console.log('Example app listening on port 4000!');
});


Dans cet article, j'ai couvert l'envoi de contenu audio ou de blob au point de terminaison Google Speech to Text, nous pouvons également envoyer un uri de blob au lieu du contenu, le seul changement sera la charge utile

// sending url as part of audio object to speech to text api 
...
audio: {url: audioUrl} or audio: {content: audioBlob}
...

Le code lié à l'article est présent dans Github.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn