MLLRを用いた話者適応 |
分析合成音 |
|
不特定話者モデル |
|
適応モデル(1文章で適応) |
|
適応モデル(3文章で適応) |
|
適応モデル(5文章で適応) |
|
適応モデル(7文章で適応) |
|
特定話者モデル |
音声データ | ATR 日本語音声データベース 音韻バランス文 |
サンプリング周波数 | 10kHz |
学習データ | 不特定話者:1,500文 (C-set 話者 10名 各150文(a-c)) |
特定話者 :450文 (B-set 話者 MYI (a-i)) | |
適応データ | 1,3,5,7文 (B-set 話者 MYI (d)) |
分析窓 | 25.6ms Blackman窓 |
分析周期 | 5ms |
分析法 | 15次メルケプストラム分析 |
特徴パラメータ | 0〜15次メルケプストラム,デルタ,デルタデルタ |
HMM | 5状態 left-to-right モデル |
単一対角共分散出力分布 | |
クラスタリング後の分布数 | 不特定話者モデル 2,213分布 |
特定話者モデル 1,709分布 | |
MLLRの回帰行列の数 | 1 |