研究内容

徳田・南角・橋本研究室では,人とコンピュータ,コンピュータとコンピュータとのコミュニケーションを目指して,マルチモーダル情報空間におけるヒューマンインターフェースに関する研究を行っています.
主に音声や画像を扱っており,研究テーマによって大きく4つのグループに分けられます.

音声合成

人間の音声を人工的に作り出す技術です.
Speech SynthesizerやText to Speech Systemなどとも呼ばれ,以下のような用途で運用されています.

音声認識

人間の話す音声をコンピュータによって解析し,話している内容を文字データとして取り出す技術です.
キーボードに代わるインターフェースとして注目を集めており,以下のような用途で運用されています.

音声対話・音声言語理解

音声における人とコンピュータのコミュニケーションを目指しています.
先にあげた音声合成,音声認識の技術をフル活用し,以下のような用途で運用されています.

画像処理

コンピュータの取り込んだ動画像,静止画像から情報を抜き出したり,新たに画像を生成したりする技術です.
以下のような用途で運用されています.


最近の研究

階層構造を持った変分オートエンコーダに基づく表現豊かな音声合成

vae.jpg

音声合成において,変分オートエンコーダを用いることで,「嬉しい」「悲しみ」「怒り」といった感情表現や,語尾の上げ下げといった発話スタイルの変化を,潜在変数として表現・制御することができます.本研究では,これらの潜在変数を,発話内容や言語的な階層構造を考慮して取り扱うことで,潜在変数のより適切なモデル化が可能となり,これまで以上に表現豊かな音声の合成を実現しました.





files: filevae.jpg 438件 [詳細]
トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS