スピーチを通してスピーチの強さ(音量)を分析したいと考えています。
私は科学犬ではなく工学犬であり、音声信号解析については門外漢であり、FFT についてはざっと見ただけなので、自分の音声強度分析方法に不安を感じています。この分野の専門家が指導してくれることを願っています。どうもありがとうございます! ! !
以下は音声信号データを取得するプロセスです。 123.wav 音声ファイルは、Baidu によって合成された mp3 トランスコーディングからのものであるため、この音声にノイズがあったとしても、最小限であるはずです。ここでフィルタリングする必要はありません (フィルタリングされているかどうかはわかりません)フィルタ係数はどうあるべきか)。この時点では問題ないのではないでしょうか?
リーリー波形図(時間の長さは約1.8秒)
この音声を再生するときに声の強さを通知したいのですが、明らかに周波数が速すぎたり、速くなかったりします。たとえば、0.2 秒に 1 回の統計の方が適切な場合があります。
アイデアが 2 つありますが、確信が持てず、不安です:
私は音声信号処理を理解していないので、これら 2 つのソリューションのいずれかが音声の強さを表現できるかどうかわかりません。または、他の方法を使用する必要があります。
要約すると、2 つの質問があります:
リーリー