* 研究内容 [#n389f7f0]

*マルチメディア信号処理~ [#qf4fabed]
徳田・李研究室では、人とコンピュータ、コンピュータとコンピュータとのコミュニケーションをめざして、マルチモーダル情報空間におけるヒューマンインターフェースに関する研究を行っています。主に音声や画像を扱っていまして、研究テーマによって大きく3つのグループに分けられます。~
~
&ref(./recording-pic.jpg,30%);
**研究テーマ [#l3e02cf7]
***音声や画像の合成に関する分野 [#q90f1dfa]
          テキスト音声合成
          話者補間
          固有声
          歌声合成
          感情音声合成
          唇合成
          手話動画像合成
~
***音声や画像の認識に関する分野 [#i9179648]
          連続音声認識
          音声による個人認識
          顔画像による個人認識
          リップリーディング
          手書き文字認識
          ジェスチャー認識
          手話認識
          バイモーダル個人認識
~
***符号化に関する分野 [#na832ac1]
          低ビーットレート音声符号化
CENTER:&ref(./kt-intro.jpg,100%);
//#ref(kt-intro.jpg,center,nolink,504x253);

**具体的なテーマ例 [#l03c6483]
> 徳田・南角・橋本研究室では,人とコンピュータ,コンピュータとコンピュータとのコミュニケーションを目指して,マルチモーダル情報空間におけるヒューマンインターフェースに関する研究を行っています.~
主に音声や画像を扱っており,研究テーマによって大きく4つのグループに分けられます.

声による話者認識を利用したセキュリティシステムの構築~
不特定話者連続音声認識システム構築のための話者適応化手法に関する研究~
高速な音声認識のための階層化された確率・統計モデルに関する研究~
隠れマルコフモデルに基づくテキスト音声合成システムの実現 [[--- 喜んだり悲しんだりするコンピュータを目指して---:https://www.sp.nitech.ac.jp/~demo/emotion_demo.ppt]]~
[[声質変換システムの構築に関する研究:https://www.sp.nitech.ac.jp/~demo]]~
[[固有声に関する研究:https://www.sp.nitech.ac.jp/~demo]]~
歌声合成に関する研究~
[[極低ビットレート(100 bit/s)音声符号化システムの構築:https://www.sp.nitech.ac.jp/~demo/demo2/]]~
顔動画像と音声を用いた個人識別  --- より頑健なセキュリティシステムの実現 ---~
[[マルチモーダル音声合成のための任意テキストからの唇動画像生成:https://www.sp.nitech.ac.jp/~demo/]]~
[[自動リップリーディング(読唇)のための動画像認識モデルに関する研究:https://www.sp.nitech.ac.jp/~demo/demo1/]]~
個人識別 / リップリーディングのための顔画像からの自動パーツ抽出~
[[ジェスチャー認識/手話認識に関する研究:https://www.sp.nitech.ac.jp/~demo/jesture.pdf]]~
手話動画像合成に関する研究~
擬人化エージェント~
** 音声合成 [#s43c0c5e]

> 人間の音声を人工的に作り出す技術です.~
Speech SynthesizerやText to Speech Systemなどとも呼ばれ,以下のような用途で運用されています.

*表彰 [#v8835f7c]
//#line(・[[駅の音声案内>ホーム/研究内容/音声合成]],・カーナビゲーションシステムの音声案内,・携帯電話のニュース読み上げ機能,・しゃべるぬいぐるみ);

    日本音響学会 粟屋潔学術奨励賞(受賞者:全炳河)('06)
    日本音響学会 粟屋潔学術奨励賞(受賞者:李晃伸)('02)
    (社)電子情報通信学会「第57回 論文賞」('00)
    (社)電子情報通信学会「第7回 猪瀬賞」('00)
    (財)電気通信普及財団「第16回 電気通信普及財団賞 (テレコムシステム技術賞)」('00)
    日本音響学会 粟屋潔学術奨励賞(受賞者:宮島千代美)('99)
    (財)電気通信普及財団 テレコムシステム技術学生賞(受賞者:小石田 和人)('98)
- 駅の音声案内
- カーナビゲーションシステムの音声案内
- 携帯電話のニュース読み上げ機能
- しゃべるぬいぐるみ


//> > [[もっと詳しく>ホーム/研究内容/音声合成]]

** 音声認識 [#l14694ad]

> 人間の話す音声をコンピュータによって解析し,話している内容を文字データとして取り出す技術です.~
キーボードに代わるインターフェースとして注目を集めており,以下のような用途で運用されています.

- 同時通訳型の機械翻訳
- 会議の議事録作成
- カーナビゲーションシステムの音声操作
- 指示を聞き分けるペットロボット
//- パソコン上での文章作成

//> > [[もっと詳しく>ホーム/研究内容/音声認識]]

** 音声対話・音声言語理解 [#l0a5aed1]

> 音声における人とコンピュータのコミュニケーションを目指しています.~
先にあげた音声合成,音声認識の技術をフル活用し,以下のような用途で運用されています.

- バス運行情報案内システム
- 観光案内システム
- チケット購入システム

//> > [[もっと詳しく>ホーム/研究内容/音声対話・音声言語理解]]

** 画像処理 [#oc01b305]

> コンピュータの取り込んだ動画像,静止画像から情報を抜き出したり,新たに画像を生成したりする技術です.~
以下のような用途で運用されています.

- 顔画像照合セキュリティ
- 手話動画像生成
- 読唇術システム

//> > [[もっと詳しく>ホーム/研究内容/画像処理]]

~~

* 最近の研究 [#n389f5f3]

** 階層構造を持った変分オートエンコーダに基づく表現豊かな音声合成 [#m80f879b]
> &ref(vae.jpg,nolink);
>音声合成において,変分オートエンコーダを用いることで,「嬉しい」「悲しみ」「怒り」といった感情表現や,語尾の上げ下げといった発話スタイルの変化を,潜在変数として表現・制御することができます.本研究では,これらの潜在変数を,発話内容や言語的な階層構造を考慮して取り扱うことで,潜在変数のより適切なモデル化が可能となり,これまで以上に表現豊かな音声の合成を実現しました.





トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS