Rumah > Artikel > pembangunan bahagian belakang > PHP melaksanakan fungsi pengecaman pertuturan
PHP melaksanakan fungsi pengecaman pertuturan
Pengecaman pertuturan ialah teknologi yang menukar isyarat pertuturan kepada teks atau arahan yang sepadan, dan digunakan secara meluas dalam era maklumat moden. Sebagai bahasa pengaturcaraan Web yang biasa digunakan, PHP juga boleh melaksanakan fungsi pengecaman pertuturan dalam pelbagai cara, seperti menggunakan perpustakaan alat sumber terbuka atau antara muka API.
Artikel ini akan memperkenalkan kaedah asas menggunakan PHP untuk melaksanakan pengecaman pertuturan Ia juga menyediakan beberapa perpustakaan alat yang biasa digunakan dan antara muka API untuk memudahkan pembaca memilih penyelesaian yang sesuai dalam pembangunan sebenar.
1. Kaedah asas pengecaman pertuturan PHP
Kaedah asas pengecaman pertuturan PHP adalah untuk menukar fail audio ke dalam format WAV melalui FFmpeg, dan kemudian menggunakan Baidu atau Alibaba dan pengecaman pertuturan lain Antara muka API untuk menukar audio WAV Kandungan fail ditukar kepada teks atau arahan yang sepadan.
Berikut ialah langkah pelaksanaan khusus:
1 Pasang dan konfigurasikan FFmpeg sebenarnya, FFmpeg ialah perisian sumber terbuka yang boleh mengendalikan pelbagai format audio dan video fail audio ke dalam fail WAV. Kita boleh memasang FFmpeg menggunakan arahan berikut:
sudo apt-get update
sudo apt-get install ffmpeg
Selepas pemasangan selesai, kita perlu mengubah suai konfigurasi FFmpeg supaya ia boleh dilaraskan dalam kod PHP Ambil:
$ffmpegPath = '/usr/bin/ffmpeg';
$wavePath = '/usr/bin/wavpcm';
Di mana, $ffmpegPath ialah laluan FFmpeg , $wavePath ialah laluan penukar format WAV.
2. Memproses fail audio
Kami boleh menggunakan fungsi terbina dalam PHP untuk memproses fail audio:
$file = $_FILES'voice' // Dapatkan audio laluan fail
$fileName = 'voice.wav'; // Tetapkan nama fail
exec("$ffmpegPath -i $file -ar 8000 -ac 1 -acodec pcm_u8 $wavePath/$fileName" );
Dalam kod di atas, kami menggunakan fungsi exec() untuk memanggil FFmpeg dan menukar fail audio asal kepada format WAV. Antaranya, parameter -i menentukan fail audio asal, parameter -ar menentukan kadar pensampelan, parameter -ac menentukan bilangan saluran, dan parameter -acodec menentukan codec.
3. Gunakan API untuk pengecaman pertuturan
Selepas menggunakan $wavePath/$fileName, kami boleh menukar kandungan fail audio WAV kepada teks atau arahan yang sepadan melalui API. Sebagai contoh, kita boleh menggunakan antara muka API pengecaman pertuturan Baidu untuk melaksanakan pengecaman pertuturan.
Berikut ialah rutin pertama buat aplikasi pada platform AI Baidu dan dapatkan kunci API dan kunci rahsia:
require_once 'HttpClient.php';
// Set minta Parameter
$url = 'https://openapi.baidu.com/oauth/2.0/token';
$params = tatasusunan(
'grant_type' => 'client_credentials', 'client_id' => '百度API KEY', 'client_secret' => '百度SECRET KEY'
);
/ / Dapatkan Token
$response = HttpClient::get($url, $params);
$response = json_decode($response);
$access_token = $response->access_token;
//Minta antara muka pengecaman pertuturan
$url = 'https://vop.baidu.com/server_api';
$headers = array(
'Content-Type:audio/wav;rate=8000', 'charset=utf-8', 'Token:'.$access_token
);
$audioData = file_get_contents($wavePath.'/'.$fileName);
$dataLen = strlen($audioData);
$params = array(
'format' => 'wav', 'rate' => 8000, 'channel' => 1, 'cuid' => 'xxx', 'token' => $access_token, 'len' => $dataLen, 'speech' => base64_encode($audioData)
) ;
// Antara muka API Panggilan
$response = HttpClient::post($url, $params, $headers);
$response = json_decode($response);
$text = $response->result[0];
Dalam kod di atas, kami menggunakan kelas HttpClient untuk memulakan permintaan HTTP, mendapatkan kunci API dan kunci rahsia dan memuat naik audio WAV fail ke Baidu Voice Kenal pasti antara muka API. Akhir sekali, teks yang dikembalikan oleh API boleh disimpan dan diproses melalui pembolehubah $text.
2. Pustaka alat pengecaman pertuturan dan antara muka API yang biasa digunakan
Selain menggunakan kaedah asas, anda juga boleh menggunakan pustaka alat pengecaman pertuturan siap sedia dan antara muka API. Berikut ialah beberapa yang biasa digunakan:
1 Pustaka alat pengecaman pertuturan PocketSphinx PocketSphinx ialah perpustakaan alat pengecaman pertuturan automatik sumber terbuka, iaitu versi bahasa C bagi Sphinx-4. Ia boleh dipasang dengan cepat melalui pakej pemasangan dan menyediakan pelbagai model pengecaman pertuturan dan model bahasa untuk menyokong pelbagai senario pengecaman pertuturan.
2. API Google Cloud Speech API Google Cloud Speech ialah antara muka API pengecaman pertuturan berdasarkan Google Cloud Platform, menyokong berbilang senario pengecaman pertuturan dan pengecaman berbilang bahasa. Ia menyediakan pelbagai API, termasuk REST dan RPC, yang boleh disepadukan dengan mudah dalam aplikasi.
3. API Pengecaman Suara Awan Alibaba Alibaba Cloud Voice Recognition API ialah antara muka API pengecaman pertuturan berdasarkan platform Alibaba Cloud, menyokong berbilang senario pengecaman pertuturan dan pengecaman berbilang bahasa. Ia menyediakan pelbagai kaedah input suara, termasuk mikrofon, audio dalam talian dan muat naik fail.
Ringkasnya, terdapat banyak cara untuk melaksanakan fungsi pengecaman pertuturan PHP, dan anda boleh memilih mengikut keperluan pembangunan sebenar dan senario aplikasi. Sama ada anda membina sistem pengecaman pertuturan anda sendiri atau menggunakan antara muka API pengecaman pertuturan siap sedia, anda perlu mempertimbangkan faktor seperti kestabilan sistem, kecekapan dan keselamatan untuk memastikan operasi normal sistem dan keselamatan data.
Atas ialah kandungan terperinci PHP melaksanakan fungsi pengecaman pertuturan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!