* 研究内容 [#n389f7f0] //#ref(kt-intro.jpg,center,nolink,504x253); > 徳田・南角・橋本研究室では,人とコンピュータ,コンピュータとコンピュータとのコミュニケーションを目指して,マルチモーダル情報空間におけるヒューマンインターフェースに関する研究を行っています.~ 主に音声や画像を扱っており,研究テーマによって大きく4つのグループに分けられます. ** 音声合成 [#s43c0c5e] > 人間の音声を人工的に作り出す技術です.~ Speech SynthesizerやText to Speech Systemなどとも呼ばれ,以下のような用途で運用されています. //#line(・[[駅の音声案内>ホーム/研究内容/音声合成]],・カーナビゲーションシステムの音声案内,・携帯電話のニュース読み上げ機能,・しゃべるぬいぐるみ); - 駅の音声案内 - カーナビゲーションシステムの音声案内 - 携帯電話のニュース読み上げ機能 - しゃべるぬいぐるみ //> > [[もっと詳しく>ホーム/研究内容/音声合成]] ** 音声認識 [#l14694ad] > 人間の話す音声をコンピュータによって解析し,話している内容を文字データとして取り出す技術です.~ キーボードに代わるインターフェースとして注目を集めており,以下のような用途で運用されています. - 同時通訳型の機械翻訳 - 会議の議事録作成 - カーナビゲーションシステムの音声操作 - 指示を聞き分けるペットロボット //- パソコン上での文章作成 //> > [[もっと詳しく>ホーム/研究内容/音声認識]] ** 音声対話・音声言語理解 [#l0a5aed1] > 音声における人とコンピュータのコミュニケーションを目指しています.~ 先にあげた音声合成,音声認識の技術をフル活用し,以下のような用途で運用されています. - バス運行情報案内システム - 観光案内システム - チケット購入システム //> > [[もっと詳しく>ホーム/研究内容/音声対話・音声言語理解]] ** 画像処理 [#oc01b305] > コンピュータの取り込んだ動画像,静止画像から情報を抜き出したり,新たに画像を生成したりする技術です.~ 以下のような用途で運用されています. - 顔画像照合セキュリティ - 手話動画像生成 - 読唇術システム //> > [[もっと詳しく>ホーム/研究内容/画像処理]] ~~ * 最近の研究 [#n389f5f3] ** 階層構造を持った変分オートエンコーダに基づく表現豊かな音声合成 [#m80f879b] > &ref(vae.jpg,nolink); >音声合成において,変文オートエンコーダを用いることで,「嬉しい」「悲しみ」「怒り」といった感情表現や,語尾の上げ下げといった発話スタイルの変化を,潜在変数として表現・制御することができます.本研究では,これらの潜在変数を,発話内容や言語的な階層構造を考慮して取り扱うことで,潜在変数のより適切なモデル化が可能となり,これまで以上に表現豊かな音声の合成を実現しました. >音声合成において,変分オートエンコーダを用いることで,「嬉しい」「悲しみ」「怒り」といった感情表現や,語尾の上げ下げといった発話スタイルの変化を,潜在変数として表現・制御することができます.本研究では,これらの潜在変数を,発話内容や言語的な階層構造を考慮して取り扱うことで,潜在変数のより適切なモデル化が可能となり,これまで以上に表現豊かな音声の合成を実現しました.