【徳田・南角・橋本研究室】 - ホーム/研究内容

研究内容

徳田・南角・橋本研究室では，人とコンピュータ，コンピュータとコンピュータとのコミュニケーションを目指して，マルチモーダル情報空間におけるヒューマンインターフェースに関する研究を行っています．
主に音声や画像を扱っており，研究テーマによって大きく４つのグループに分けられます．

音声合成

人間の音声を人工的に作り出す技術です．
Speech SynthesizerやText to Speech Systemなどとも呼ばれ，以下のような用途で運用されています．

駅の音声案内
カーナビゲーションシステムの音声案内
携帯電話のニュース読み上げ機能
しゃべるぬいぐるみ

音声認識

人間の話す音声をコンピュータによって解析し，話している内容を文字データとして取り出す技術です．
キーボードに代わるインターフェースとして注目を集めており，以下のような用途で運用されています．

同時通訳型の機械翻訳
会議の議事録作成
カーナビゲーションシステムの音声操作
指示を聞き分けるペットロボット

音声対話・音声言語理解

音声における人とコンピュータのコミュニケーションを目指しています．
先にあげた音声合成，音声認識の技術をフル活用し，以下のような用途で運用されています．

バス運行情報案内システム
観光案内システム
チケット購入システム

画像処理

コンピュータの取り込んだ動画像，静止画像から情報を抜き出したり，新たに画像を生成したりする技術です．
以下のような用途で運用されています．

顔画像照合セキュリティ
手話動画像生成
読唇術システム

最近の研究

階層構造を持った変分オートエンコーダに基づく表現豊かな音声合成

音声合成において，変分オートエンコーダを用いることで，「嬉しい」「悲しみ」「怒り」といった感情表現や，語尾の上げ下げといった発話スタイルの変化を，潜在変数として表現・制御することができます．本研究では，これらの潜在変数を，発話内容や言語的な階層構造を考慮して取り扱うことで，潜在変数のより適切なモデル化が可能となり，これまで以上に表現豊かな音声の合成を実現しました．

files:

vae.jpg 438件 [詳細]