HMMを用いた認識ボコーダ

−極低ビットレート音声符号化−

目的

本研究では,HMMを用いて,音声認識・音声合成という過程により, 音声を符号・復号化する音声符号化方式である認識ボコーダを 構成することを目的としている.


システムの構成

システムの構成は下図の通りである.

符号化の手順としては,

  1. 入力音声信号をメルケプストラム分析し,メルケプストラム列を得る.
  2. 得られたメルケプストラム列を使い,HMMを用いた認識を行う.
  3. 認識によって得られた音素列・HMMの継続長を符号化し,伝送する.

復号化の手順は

  1. 伝送された情報を復号化し,得られた音素列・継続長を使い, HMMに基づくパラメータ生成アルゴリズム[1] によってメルケプストラム列を得る.
  2. MLSAフィルタによって,メルケプストラム列から音声を合成する.

となっている.


符号化手法

本研究では,認識によって得られた音素列は学習データを 認識することにより得られた音素バイグラム情報を利用して エントロピー符号化した.

HMMの状態継続長を符号化するのには,以下の3つの手法を用いた.

  1. HMMの状態継続長を音素別にエントロピー符号化する.
  2. HMMの音素継続長を音素別にエントロピー符号化し, 復号器側では,HMMの持つ状態継続長分布に基づいて, 音素継続長を状態継続長に分割する. ここでは文献[2]中の尤度最大化基準により状態継続長を決定した.
  3. 音素内の状態継続長をベクトルと考え,ベクトル量子化する. コードブックの学習には, 学習データを認識することにより得られた状態継続長に基づいて行なった.

合成音声

以下に本システムで作成された合成音声を状態継続長の符号化手法別にあげる

手法1 (160bit/s) 手法2 (100bit/s) 手法3 9bit(146bit/s) 手法3 3bit(68bit/s)

参考文献

  1. 徳田恵一,益子孝史,小林隆夫,今井聖, "動的特徴を用いたHMMからの音声パラメータ生成アルゴリズム", 日本音響学会誌,vol.53,no.3,pp.192-200(1997).
  2. 益子孝史,徳田恵一,小林隆夫,今井聖, "動的特徴を用いたHMMに基づく音声合成", 信学論(D-II),vol.J79-D-II,no.12,pp.2184-2190(1996).