C++ 음성 인식 인터페이스 빠른 시작(Microsoft 음성 인식 SDK)
최근 졸업 프로젝트에서 Microsoft의 C++ 음성 인식 인터페이스를 사용하여 검색해 보았습니다. 재료에도 많은 문제가 있었고 우회도 많이 했습니다. 이제 나는 내 경험을 적는다. 하나는 나 자신을 향상시키는 것이고, 다른 하나는 사회에 보답하는 것이다. 이 블로그를 읽은 후 5분 안에 C++ 음성 인식 인터페이스를 구현하는 방법을 배울 수 있기를 바랍니다. (사용된 플랫폼은 win8+VS2013입니다.)
MicrosoftSpeechPlatformSDK.msi를 설치하고, 기본 경로에 설치하면 됩니다.
다운로드 경로:
download.csdn.net/detail/michaelliang12/9510691
설정:
1, 속성 – 구성 속성 –C/C++–일반–추가 포함 디렉터리: C:Program FilesMicrosoft SDKsSpeechv11.0Include(특정 경로는 설치 경로와 관련됨)
2, 속성–구성 속성–링커–입력–추가 종속성: sapi .lib;
음성 인식 인터페이스는 텍스트-음성, 음성-텍스트
추가해야 할 헤더 파일:
#include <sapi.h> //导入语音头文件#pragma comment(lib,"sapi.lib") //导入语音头文件库
기능:
void CBodyBasics::MSSSpeak(LPCTSTR speakContent)// speakContent为LPCTSTR型的字符串,调用此函数即可将文字转为语音{ ISpVoice *pVoice = NULL; //初始化COM接口 if (FAILED(::CoInitialize(NULL))) MessageBox(NULL, (LPCWSTR)L"COM接口初始化失败!", (LPCWSTR)L"提示", MB_ICONWARNING | MB_CANCELTRYCONTINUE | MB_DEFBUTTON2); //获取SpVoice接口 HRESULT hr = CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_ALL, IID_ISpVoice, (void**)&pVoice); if (SUCCEEDED(hr)) { pVoice->SetVolume((USHORT)100); //设置音量,范围是 0 -100 pVoice->SetRate(2); //设置速度,范围是 -10 - 10 hr = pVoice->Speak(speakContent, 0, NULL); pVoice->Release(); pVoice = NULL; } //释放com资源 ::CoUninitialize(); }
이게 좀 더 귀찮습니다. 이를 위해서는 마이크의 실시간 모니터링이 필요하며 Windows의 메시징 메커니즘이 필요합니다.
(1) 먼저 프로젝트 속성을 설정합니다.
속성 – 구성 속성 – C/C++ – 전처리기 – 전처리기 정의:
(2) 추가해야 할 헤더 파일:
#include <sapi.h> //导入语音头文件#pragma comment(lib,"sapi.lib") //导入语音头文件库#include//语音识别头文件#include //要用到CString#pragma onceconst int WM_RECORD = WM_USER + 100;//定义消息
(3) 프로그램의 .h 헤더 파일에
//定义变量CComPtr<ISpRecognizer>m_cpRecoEngine;// 语音识别引擎(recognition)的接口。CComPtr<ISpRecoContext>m_cpRecoCtxt;// 识别引擎上下文(context)的接口。CComPtr<ISpRecoGrammar>m_cpCmdGrammar;// 识别文法(grammar)的接口。CComPtr<ISpStream>m_cpInputStream;// 流()的接口。CComPtr<ISpObjectToken>m_cpToken;// 语音特征的(token)接口。CComPtr<ISpAudio>m_cpAudio;// 音频(Audio)的接口。(用来保存原来默认的输入流)ULONGLONG ullGrammerID;
변수를 정의합니다. (4) 음성 인식 초기화 함수를 만듭니다(프로그램이 막 실행되기 시작할 때 호출됩니다. 예를 들어 기사 마지막에 있는 예제 코드, 이 초기화 함수는 대화 상자 초기화 메시지 WM_INITDIALOG의 응답 코드에 배치됩니다.
//语音识别初始化函数void CBodyBasics::MSSListen() { //初始化COM接口 if (FAILED(::CoInitialize(NULL))) MessageBox(NULL, (LPCWSTR)L"COM接口初始化失败!", (LPCWSTR)L"提示", MB_ICONWARNING | MB_CANCELTRYCONTINUE | MB_DEFBUTTON2); HRESULT hr = m_cpRecoEngine.CoCreateInstance(CLSID_SpSharedRecognizer);//创建Share型识别引擎 if (SUCCEEDED(hr)) { hr = m_cpRecoEngine->CreateRecoContext(&m_cpRecoCtxt);//创建识别上下文接口 hr = m_cpRecoCtxt->SetNotifyWindowMessage(m_hWnd, WM_RECORD, 0, 0);//设置识别消息 const ULONGLONG ullInterest = SPFEI(SPEI_SOUND_START) | SPFEI(SPEI_SOUND_END) | SPFEI(SPEI_RECOGNITION);//设置我们感兴趣的事件 hr = m_cpRecoCtxt->SetInterest(ullInterest, ullInterest); hr = SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOIN, &m_cpAudio); m_cpRecoEngine->SetInput(m_cpAudio, true); //创建语法规则 //dictation听说式 //hr = m_cpRecoCtxt->CreateGrammar(GIDDICTATION, &m_cpDictationGrammar); //if (SUCCEEDED(hr)) //{ // hr = m_cpDictationGrammar->LoadDictation(NULL, SPLO_STATIC);//加载词典 //} //C&C命令式,此时语法文件使用xml格式 ullGrammerID = 1000; hr = m_cpRecoCtxt->CreateGrammar(ullGrammerID, &m_cpCmdGrammar); WCHAR wszXMLFile[20] = L"";//加载语法 MultiByteToWideChar(CP_ACP, 0, (LPCSTR)"CmdCtrl.xml", -1, wszXMLFile, 256);//ANSI转UNINCODE hr = m_cpCmdGrammar->LoadCmdFromFile(wszXMLFile, SPLO_DYNAMIC); //MessageBox(NULL, (LPCWSTR)L"语音识别已启动!", (LPCWSTR)L"提示", MB_CANCELTRYCONTINUE ); //激活语法进行识别 //hr = m_cpDictationGrammar->SetDictationState(SPRS_ACTIVE);//dictation hr = m_cpCmdGrammar->SetRuleState(NULL, NULL, SPRS_ACTIVE);//C&C hr = m_cpRecoEngine->SetRecoState(SPRST_ACTIVE); } else { MessageBox(NULL, (LPCWSTR)L"语音识别引擎启动出错!", (LPCWSTR)L"警告", MB_OK); exit(0); } //释放com资源 ::CoUninitialize(); //hr = m_cpCmdGrammar->SetRuleState(NULL, NULL, SPRS_INACTIVE);//C&C}
(5) 메시지 처리 함수 정의
는 다음과 함께 배치되어야 합니다. 예를 들어, 이 기사의 코드에서 기사 끝에 있는 샘플 코드의 DlgProc() 함수 끝입니다. 이 글의 다른 전체 코드 블록은 다음 메시지 응답 모듈만 변경하면 됩니다.
//消息处理函数USES_CONVERSION; CSpEvent event; if (m_cpRecoCtxt) { while (event.GetFrom(m_cpRecoCtxt) == S_OK){ switch (event.eEventId) { case SPEI_RECOGNITION: { //识别出了语音 m_bGotReco = TRUE; static const WCHAR wszUnrecognized[] = L"<Unrecognized>"; CSpDynamicString dstrText; ////取得识别结果 if (FAILED(event.RecoResult()->GetText(SP_GETWHOLEPHRASE, SP_GETWHOLEPHRASE, TRUE, &dstrText, NULL))) { dstrText = wszUnrecognized; } BSTR SRout; dstrText.CopyToBSTR(&SRout); CString Recstring; Recstring.Empty(); Recstring = SRout; //做出反应(*****消息反应模块*****) if (Recstring == "发短信") { //MessageBox(NULL, (LPCWSTR)L"好的", (LPCWSTR)L"提示", MB_OK); MSSSpeak(LPCTSTR(_T("好,马上发短信!"))); } else if (Recstring == "李雷") { MSSSpeak(LPCTSTR(_T("好久没看见他了,真是 long time no see"))); } } break; } } }
(6) 구문 파일을 수정하세요.
CmdCtrl을 수정하세요. .xml 파일을 사용하면 특정 단어의 인식을 향상할 수 있으며 사람 이름 등 내부 단어의 인식 효과가 훨씬 향상됩니다. (또한 별도로 exe를 실행할 경우에도 이 파일을 exe와 같은 폴더에 넣어야 합니다. 넣지 않으면 에러는 발생하지 않으나 문법 파일 내 어휘 인식 효과는 꽝이 됩니다. 더 나쁘다)
위 내용은 C++는 Microsoft의 자체 음성 인식 인터페이스를 호출하여 빠르게 시작합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!