Maison  >  Article  >  développement back-end  >  Guide du débutant sur la génération de parole naturelle en PHP

Guide du débutant sur la génération de parole naturelle en PHP

王林
王林original
2023-06-11 09:49:391388parcourir

PHP, en tant que langage de script côté serveur, est de plus en plus utilisé et continue de se développer. Dans le processus de réalisation de l’interaction homme-machine, la technologie de génération de langage naturel a toujours joué un rôle important. Si les ordinateurs peuvent être capables d’interagir entre humains et machines par la voix, cela pourrait apporter des changements révolutionnaires dans de nombreux domaines. En PHP, il existe de nombreux excellents outils de génération de parole naturelle parmi lesquels choisir. Cet article explique comment utiliser PHP pour la génération de parole naturelle.

1. Qu'est-ce que la technologie de génération naturelle de la parole ?

La génération naturelle de la parole fait référence à l'utilisation d'ordinateurs pour générer une parole similaire à la parole humaine, c'est-à-dire pour obtenir une parole qui ressemble à un son produit par des humains, de sorte que les ordinateurs peuvent communiquer avec les gens par la parole.

La technologie actuelle de génération de parole naturelle est généralement divisée en deux catégories, l'une est la génération de parole naturelle basée sur du texte et l'autre est la génération de parole naturelle basée sur la synthèse vocale.

La génération de parole naturelle basée sur le texte nécessite la conversion du texte saisi en signal vocal. Cela nécessite l'utilisation de la technologie de synthèse vocale pour convertir le texte en signaux sonores similaires à la parole humaine.

La génération de parole naturelle basée sur la synthèse vocale est un processus qui convertit le signal vocal d'entrée en une information textuelle à traiter, puis utilise la technologie de génération de langage naturel pour générer un nouveau signal vocal.

2. Domaines d'application de la technologie de génération naturelle de la parole

La technologie de génération naturelle de la parole a un large éventail de domaines d'application, dont le plus courant est la synthèse vocale. La technologie de synthèse vocale peut être appliquée à de nombreux domaines, tels que :

1. Domaine de la bureautique : tels que les répondeurs vocaux automatisés, les systèmes de commande d'alarme vocale, les systèmes de conversation téléphonique automatisés, etc.

2. Champ de contrôle de la circulation : tel que le système de navigation vocale, le système de gestion vocale du stationnement, le système de commande de la circulation, etc.

3. Champ de lecture électronique : tel qu'un système de diffusion de romans audio, un lecteur de livres électroniques, etc.

4. Domaine médical : Par exemple, système de compréhension et d'analyse du langage naturel, le langage naturel est utilisé comme outil auxiliaire pour le diagnostic et la prescription médicale.

5. Domaine de divertissement : tels que les invites vocales dans la musique de fond du jeu, le dialogue vocal intelligent et l'expérience de conversation naturelle, etc.

3. Comment utiliser la technologie de génération de parole naturelle en PHP

Pour les développeurs PHP, la plupart des applications utiliseront des bibliothèques ou des API prêtes à l'emploi pour réaliser une génération de parole naturelle. Grâce à ses puissantes capacités de traitement et à sa riche bibliothèque de fonctions, le langage PHP a établi un grand nombre d’outils de génération naturelle de parole. Les principaux sont les suivants :

1. Baidu TTS

Baidu TTS est une API de synthèse vocale de Baidu Voice. Elle est rapide, prend en charge plusieurs langues et est actuellement gratuite, dont le chinois, l'anglais, Français, coréen, japonais, etc. En outre, il prend également en charge la fonction de sélection du sexe et la sélection du format audio, qui peuvent être sélectionnées en fonction de vos besoins réels.

L'appel de l'API de synthèse audio ne nécessite que quelques étapes simples :

  • Obtenir un jeton d'accès
  • Définir les paramètres
  • Soumettre une demande
  • Télécharger un mp3

Ce qui suit est un exemple de code pour utiliser Baidu TTS pour implémenter la synthèse vocale :

<?php
require 'AipSpeech.php';
const APP_ID = '你的 App ID';
const API_KEY = '你的 Api Key';
const SECRET_KEY = '你的 Secret Key';

$client = new AipSpeech(APP_ID, API_KEY, SECRET_KEY);

$text = "欢迎使用百度语音合成";

$result = $client->synthesis($text, 'zh', 1, array(
    'vol' => 5,
));

// 识别正确返回语音二进制 错误则返回json 参照下面错误码
if(!is_array($result)){
    file_put_contents('audio.mp3', $result);
}
?>

2. Plateforme de développement Tencent AI

La plate-forme de développement Tencent AI fournit également des outils de génération de parole naturelle, qui peuvent être appelés via l'interface API. Comme Baidu TTS, tant que les développeurs suivent les étapes indiquées par Tencent pour obtenir un JETON D'ACCÈS, définir des paramètres, soumettre des demandes et d'autres opérations, la synthèse vocale peut être réalisée.

Ce qui suit présentera comment utiliser la plate-forme de développement Tencent AI pour réaliser la synthèse vocale :

<?php

require_once 'TencentSpeechAPI.php';

$speech = new TencentSpeechAPI(APPID, APPKEY, PATH_TO_PRIVATE_KEY_FILE); 

$speech->set_option(array(
    'speed' => 100
));

$text = '你好';

$file = uniqid() . '.wav';

$result = $speech->speaking_word($text, $file);

/*判断请求是否成功*/
if(NULL != $result){

    /*请求成功,打印服务器返回的输入流*/

    file_put_contents($file, $result);

    echo $file;

}else{

    /*请求失败*/

    echo "语音合成失败,请检查您的网络或输入文字内容。";
}
?>

3 IBM Watson

En plus de la plate-forme de développement Baidu TTS et Tencent AI, IBM Watson fournit également de nombreuses API de génération de langage naturel, telles que. discours Traduisez du texte, analyse des sentiments, filtrage du spam, traduction linguistique, etc. Parmi eux, la fonction parole-texte d'IBM Watson peut convertir l'audio en texte. Lors du traitement du contenu audio, vous devez demander une clé API sur le site officiel d'IBM Watson à utiliser.

Ce qui suit est un exemple de code pour la synthèse vocale à l'aide d'IBM Watson :

<?php
include 'IbmWatsonSpeechToText.php';

$apiKey = '你的APIKEY';

$url = 'https://stream.watsonplatform.net/text-to-speech/api';

$format = 'wav';

$voice = 'en-US_MichaelVoice';

$text = 'Hello World';

$newAudioName = 'output.wav';

$conversion = new IbmWatsonSpeechToText($apiKey, $url);

$conversion -> voice($voice);
$conversion -> format($format);
$conversion -> generateAudio($text, $newAudioName);
?>

IV Résumé

La génération naturelle de la parole est une technologie très importante qui peut être appliquée à de nombreux domaines, tels que les soins médicaux, les jeux, l'éducation, etc. PHP est un langage de script côté serveur populaire qui peut être utilisé pour implémenter la synthèse vocale et d'autres tâches de génération de langage naturel. Grâce à cet article, nous avons appris les étapes et les outils spécifiques à l'utilisation de PHP pour générer une parole naturelle. Vous pouvez choisir les trois outils de génération de parole naturelle ci-dessus en fonction de vos propres besoins et acquérir de nombreuses expériences utiles dans le processus de réalisation de la génération de parole naturelle.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn