ＨＭＭを用いた認識ボコーダ

－極低ビットレート音声符号化－

目的

本研究では，ＨＭＭを用いて，音声認識・音声合成という過程により，音声を符号・復号化する音声符号化方式である認識ボコーダを構成することを目的としている．

システムの構成

システムの構成は下図の通りである．

符号化の手順としては，

復号化の手順は

となっている．

符号化手法

本研究では，認識によって得られた音素列は学習データを認識することにより得られた音素バイグラム情報を利用してエントロピー符号化した．

ＨＭＭの状態継続長を符号化するのには，以下の3つの手法を用いた．

ＨＭＭの状態継続長を音素別にエントロピー符号化する．
ＨＭＭの音素継続長を音素別にエントロピー符号化し，復号器側では，ＨＭＭの持つ状態継続長分布に基づいて，音素継続長を状態継続長に分割する．ここでは文献[2]中の尤度最大化基準により状態継続長を決定した．
音素内の状態継続長をベクトルと考え，ベクトル量子化する．コードブックの学習には，学習データを認識することにより得られた状態継続長に基づいて行なった．

合成音声

以下に本システムで作成された合成音声を状態継続長の符号化手法別にあげる

手法1 (160bit/s)

手法2 (100bit/s)

参考文献

徳田恵一,益子孝史,小林隆夫,今井聖, "動的特徴を用いたＨＭＭからの音声パラメータ生成アルゴリズム", 日本音響学会誌,vol.53,no.3,pp.192-200(1997).
益子孝史,徳田恵一,小林隆夫,今井聖, "動的特徴を用いたＨＭＭに基づく音声合成", 信学論(D-II),vol.J79-D-II,no.12,pp.2184-2190(1996).