MLLRを用いた話者適応 |
分析合成音 |
|
不特定話者モデル |
|
適応モデル(1文章で適応) |
|
適応モデル(3文章で適応) |
|
適応モデル(5文章で適応) |
|
適応モデル(7文章で適応) |
|
特定話者モデル |
| 音声データ | ATR 日本語音声データベース 音韻バランス文 |
| サンプリング周波数 | 10kHz |
| 学習データ | 不特定話者:1,500文 (C-set 話者 10名 各150文(a-c)) |
| 特定話者 :450文 (B-set 話者 MYI (a-i)) | |
| 適応データ | 1,3,5,7文 (B-set 話者 MYI (d)) |
| 分析窓 | 25.6ms Blackman窓 |
| 分析周期 | 5ms |
| 分析法 | 15次メルケプストラム分析 |
| 特徴パラメータ | 0〜15次メルケプストラム,デルタ,デルタデルタ |
| HMM | 5状態 left-to-right モデル |
| 単一対角共分散出力分布 | |
| クラスタリング後の分布数 | 不特定話者モデル 2,213分布 |
| 特定話者モデル 1,709分布 | |
| MLLRの回帰行列の数 | 1 |