* 研究内容 [#n389f7f0]

//#ref(kt-intro.jpg,center,nolink,504x253);

> 徳田・南角・橋本研究室では,人とコンピュータ,コンピュータとコンピュータとのコミュニケーションを目指して,マルチモーダル情報空間におけるヒューマンインターフェースに関する研究を行っています.~
主に音声や画像を扱っており,研究テーマによって大きく4つのグループに分けられます.

** 音声合成 [#s43c0c5e]

> 人間の音声を人工的に作り出す技術です.~
Speech SynthesizerやText to Speech Systemなどとも呼ばれ,以下のような用途で運用されています.

//#line(・[[駅の音声案内>ホーム/研究内容/音声合成]],・カーナビゲーションシステムの音声案内,・携帯電話のニュース読み上げ機能,・しゃべるぬいぐるみ);

- 駅の音声案内
- カーナビゲーションシステムの音声案内
- 携帯電話のニュース読み上げ機能
- しゃべるぬいぐるみ


//> > [[もっと詳しく>ホーム/研究内容/音声合成]]

** 音声認識 [#l14694ad]

> 人間の話す音声をコンピュータによって解析し,話している内容を文字データとして取り出す技術です.~
キーボードに代わるインターフェースとして注目を集めており,以下のような用途で運用されています.

- 同時通訳型の機械翻訳
- 会議の議事録作成
- カーナビゲーションシステムの音声操作
- 指示を聞き分けるペットロボット
//- パソコン上での文章作成

//> > [[もっと詳しく>ホーム/研究内容/音声認識]]

** 音声対話・音声言語理解 [#l0a5aed1]

> 音声における人とコンピュータのコミュニケーションを目指しています.~
先にあげた音声合成,音声認識の技術をフル活用し,以下のような用途で運用されています.

- バス運行情報案内システム
- 観光案内システム
- チケット購入システム

//> > [[もっと詳しく>ホーム/研究内容/音声対話・音声言語理解]]

** 画像処理 [#oc01b305]

> コンピュータの取り込んだ動画像,静止画像から情報を抜き出したり,新たに画像を生成したりする技術です.~
以下のような用途で運用されています.

- 顔画像照合セキュリティ
- 手話動画像生成
- 読唇術システム

//> > [[もっと詳しく>ホーム/研究内容/画像処理]]

~~

* 最近の研究 [#n389f5f3]

** 階層構造を持った変分オートエンコーダに基づく表現豊かな音声合成 [#m80f879b]
> &ref(vae.jpg,nolink);
>音声合成において,変文オートエンコーダを用いることで,「嬉しい」「悲しみ」「怒り」といった感情表現や,語尾の上げ下げといった発話スタイルの変化を,潜在変数として表現・制御することができます.本研究では,これらの潜在変数を,発話内容や言語的な階層構造を考慮して取り扱うことで,潜在変数のより適切なモデル化が可能となり,これまで以上に表現豊かな音声の合成を実現しました.
>音声合成において,変分オートエンコーダを用いることで,「嬉しい」「悲しみ」「怒り」といった感情表現や,語尾の上げ下げといった発話スタイルの変化を,潜在変数として表現・制御することができます.本研究では,これらの潜在変数を,発話内容や言語的な階層構造を考慮して取り扱うことで,潜在変数のより適切なモデル化が可能となり,これまで以上に表現豊かな音声の合成を実現しました.




トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS