【一覧へ戻る】

MLLRを用いた話者適応

「なぜ自分ばかりこんな目にあうのだろう」

分析合成音

不特定話者モデル

適応モデル(1文章で適応)

適応モデル(3文章で適応)

適応モデル(5文章で適応)

適応モデル(7文章で適応)

特定話者モデル

(注)ピッチは自然音声から抽出したものを用いている.


実験条件
音声データ ATR 日本語音声データベース 音韻バランス文
サンプリング周波数 10kHz
学習データ 不特定話者:1,500文 (C-set 話者 10名 各150文(a-c))
特定話者 :450文 (B-set 話者 MYI (a-i))
適応データ 1,3,5,7文 (B-set 話者 MYI (d))
分析窓 25.6ms Blackman窓
分析周期 5ms
分析法 15次メルケプストラム分析
特徴パラメータ 0〜15次メルケプストラム,デルタ,デルタデルタ
HMM 5状態 left-to-right モデル
単一対角共分散出力分布
クラスタリング後の分布数 不特定話者モデル 2,213分布
特定話者モデル 1,709分布
MLLRの回帰行列の数 1