話者適応付 認識ボコーダ |
「平均倍率を下げた形跡がある」 |
|
原音声 |
|
分析合成音 |
|
不特定話者モデル(適応なし) |
|
話者適応付 認識ボコーダ |
|
■一定周期で話者ベクトルを符号化 |
|
20フレーム毎 量子化無し |
|
20フレーム毎 10bit 量子化 +100bit/s |
|
16フレーム毎 量子化無し |
|
16フレーム毎 8bit 量子化 +100bit/s |
|
■音素単位で話者ベクトルを符号化 |
|
量子化無し |
|
音素毎に量子化 全音素 +約100bit/s |
|
音素毎に量子化 有声音のみ +約89bit/s |
|
音素毎に量子化 有声音のみ +約100bit/s |
音声データ | ATR 日本語音声データベース 音韻バランス文 |
サンプリング周波数 | 16kHz |
学習データ | 1,500文 (C-set 話者 10名 各150文(a-c)) |
分析窓 | 25ms Blackman窓 (400 point) |
分析周期 | 5ms |
分析法 | 24次メルケプストラム分析 |
特徴パラメータ | 0〜24次メルケプストラム,デルタ,デルタデルタ |
HMM | 5状態 left-to-right モデル |
単一対角共分散出力分布 | |
音素数 | 48 (無音も含む) |
移動ベクトル | 一定周期 または 音素継続長単位 |