【 一覧へ戻る 】

音声と唇動画像の合成

動的特徴量の効果

Δなし Δあり

テキストからの音声と唇動画像合成

入力テキスト 合成例
小さな鰻屋に,熱気のようなものがみなぎる.
泥棒でも入ったかと,一瞬僕は思った.
学生はレポートを置くと,ちょっと頭を下げて出ていった.

唇合成部の実験条件

データベース ATR音声データベース音韻バランス文503文章 男性話者1名
学習データ輝度と位置の正規化を行った450文章()
フレーム周期 59.97frame/s
画像サイズ 176x160
主成分分析に使用した画像フレーム数 1000
モデルの分類 39音素
HMM 3状態 left-to-right
モデルの特徴量 16次主成分係数 + Δ + ΔΔ(合計48次元)