【一覧へ戻る】

話者適応付認識ボコーダ

「平均倍率を下げた形跡がある」
原音声
分析合成音
不特定話者モデル(適応なし)
話者適応付認識ボコーダ
■一定周期で話者ベクトルを符号化
20フレーム毎量子化無し
20フレーム毎 10bit 量子化 +100bit/s
16フレーム毎量子化無し
16フレーム毎 8bit 量子化 +100bit/s
■音素単位で話者ベクトルを符号化
量子化無し
音素毎に量子化全音素 +約100bit/s
音素毎に量子化有声音のみ +約89bit/s
音素毎に量子化有声音のみ +約100bit/s

実験条件

音声データ	ATR 日本語音声データベース音韻バランス文
サンプリング周波数	16kHz
学習データ	1,500文 (C-set 話者 10名各150文(a-c))
分析窓	25ms Blackman窓 (400 point)
分析周期	5ms
分析法	24次メルケプストラム分析
特徴パラメータ	0～24次メルケプストラム，デルタ，デルタデルタ
HMM	5状態 left-to-right モデル
	単一対角共分散出力分布
音素数	48 (無音も含む)
移動ベクトル	一定周期または音素継続長単位