音声合成とはコンピュータに人間のような自然な発話をさせる技術です.
より滑らかで,より自然な発声にする研究を進めています.
音声合成には単位選択型など様々な手法が提案されていますが, 本研究室では主に隠れマルコフモデル(HMM)などの統計的な枠組みに 基づいた手法を扱っています.
HMM音声合成システムではHMMに基づいて,音声に含まれる特徴量を統計 的にモデル化して音声を合成します.
任意のテキストから音声を合成する技術です.
Text To Speech (TTS) とも呼ばれています.
複数話者のモデルを組み合わせて,新しい話者のモデルをつくり出す技術です.
デモンストレーションはこちら
複数の話者や話し方のスタイルを少量のパラメータによるモデル空間で表し, それらのパラメータに重み付けすることで任意の声質を表現して音声を合成する 技術です.
様々は声質,話し方を生み出すことができます.
歌詞や楽譜を与えることで,任意の歌を合成する技術です.
エンターテインメントやアミューズメントの分野においてさまざまな用途が 期待できます.
ある話者の音声をあたかも別の話者の話した音声のように変換する技術です.
2人の話者の発話データからモデルを学習し,一方の話者の発話データをもう一 方の話者の発話データに変換します.
目標とする話者の少量のデータから,HMMのモデルパラメータを変換し,目標 話者の声質を変換する技術です.