【一覧へ戻る】

話者適応付 認識ボコーダ

「平均倍率を下げた形跡がある」

 原音声

 分析合成音

 不特定話者モデル(適応なし)

話者適応付 認識ボコーダ

■一定周期で話者ベクトルを符号化

 20フレーム毎 量子化無し

 20フレーム毎 10bit 量子化 +100bit/s

 16フレーム毎 量子化無し

 16フレーム毎 8bit 量子化 +100bit/s

■音素単位で話者ベクトルを符号化

 量子化無し

 音素毎に量子化 全音素 +約100bit/s

 音素毎に量子化 有声音のみ +約89bit/s

 音素毎に量子化 有声音のみ +約100bit/s


実験条件
音声データ ATR 日本語音声データベース 音韻バランス文
サンプリング周波数 16kHz
学習データ 1,500文 (C-set 話者 10名 各150文(a-c))
分析窓 25ms Blackman窓 (400 point)
分析周期 5ms
分析法 24次メルケプストラム分析
特徴パラメータ 0〜24次メルケプストラム,デルタ,デルタデルタ
HMM 5状態 left-to-right モデル
単一対角共分散出力分布
音素数 48 (無音も含む)
移動ベクトル 一定周期 または 音素継続長単位