2003年度 メディアパターン処理特論 レポート課題
「パターン認識に関する簡単な実験を行い,考察を加えてください」
各人オリジナルなレポート課題を提案してください.提案された課題は以
下に列挙します.他の人が既に提案した課題は提案できません(先着順).
まず,提案課題のタイトルと100字程度の概要を7月8日までに以下宛に送っ
てください.メイルのSubject(件名)は必ずpatternとしてください.
課題提案 初版締め切り: |
6月24日(火)
← できれば,タイトルだけでも良いので何か送ってください. |
課題提案 最終締め切り: |
7月 8日(火) |
レポート締め切り: |
9月16日(火) |
- レポート提出先:
- 紙の場合は,2号館A棟404号室 又江秘書まで
(不在時は2号館A棟306A号室 徳田まで)
提案課題一覧
- 混合ガウスモデルを用いた話者認識
混合ガウスモデル(GMM)を用いて複数の話者をモデル化し,
認識させて,認識率の比較および考察を行います。
- jesture認識
HMMを用いて複数のjestureをモデル化し
入力されたjestureから何をしているのかを
認識する
- 大語彙音声認識
連続音声を音素単位でHMMでモデル化し認識します.
- 音声の感情認識
HMMを用いて,怒り,平静の音声をそれぞれ音素毎にモデル化し
て用い,入力文章の感情の認識を行う.
- HMM数単語認識
複数話者による数単語音声をHMMでモデル化し,
そのモデルを用いて何と言っているか認識する.
- ニューラルネットワークによる日本語母音の認識・判別
ニューラルネットワーク(以下NN)に対して、日本語母音
「あ」「い」「う」「え」「お」の五種類を学習させ、
その学習したNNに各母音を入力して判別ができていることを確認する。
使用するNNの構成については、音声などの時系列という動的な
情報を使用するために、フィードバックを持つ必要があり、
その一種であるElmanのネットワークを使用する。
母音音声データはマイクを使って取り込み、そのデータから
識別に有効であるスペクトル包絡やケプストラムを計算し、
それを入力とする。
出力は次の時点の値としそれを教師信号として教師あり学習を
行う。認識の際には各出力結果と教師信号の距離が最小になった
ものを、その入力に対する認識結果とする。
- 「ベイズ決定の定理についての実験と考察」
ベイズの定理を実際のデータ(何かの統計
や自分でサイコロを振ったり)
を用いることで確かめて考察しようと思います。
- 「隠れマルコフモデルを用いた音源の方向の認識」
頭部の形をしたダミーヘッドと呼ばれるマイクを用いて録音した音の
方向をHMMで認識を試みます。耳に入る入力音は耳介による反射音との間で干
渉を起こします。耳介は上下左右非対称の形をしているため音の入射方向に干
渉に変化がおこり、入力音の周波枢軸上に変化が現れます。入力音にはすべて
の周波数成分を含むホワイトノイズを用います。
KL展開を用いてイラストの作家識別を行おうと思います。
各面の出る確率が異なる6面ダイス等を数個用いて、
数個の学習用データから各ダイスの分布を推定し、
数回の試行データからダイスを識別したときの
データ数の違い、識別方法の違い等にによる認識誤り率の
違いを調べようと考えております。
- タイトル、概要は未定です.
- ニューラルネットワークを用いた文字認識
ニューラルネットワークを用いてアルファベット(とりあえず10文字程度)の特
徴を学習し、識別を行います。文字の大きさ等の正規化を行った場合と行わない
場合で精度の比較を行います。
- "クイズの正解率からベイズ決定によってクイズを推定する"
「3択クイズがあります。
クイズには難しいクイズ(6問1セット)と簡単なクイズ(6問1セット)の
2種類があります。
難しいクイズは100題、簡単なクイズは200題用意してあります。
今、6問のクイズが出題されました。解答者A君がいます。
A君にとっては難しいクイズはとても難しいので、3つの答えの中から3択で
選ばなくてはなりません。
一方、簡単なクイズはA君にとっては簡単なので、どのクイズも1つ間違って
いるものを消去することができます。
A君がこのクイズに挑戦してその結果が渡されました。
この結果からベイズ決定による推定を行って、A君はどちらのクイズ(難しい方か、
簡単な方か)を選択したかということができるでしょうか。」
ということを調査します。
実験はコンピュータのシミュレーション上でA君にクイズを選ばせて
(難しいクイズか簡単なクイズか)解答させて得られた結果と
その結果から推定したクイズの種類が正しかったかどうかということを数値解析したい
と思っています。
- テンプレートマッチングによる画像認識
画像にノイズをのせた場合の認識率の変化、
処理の高速化などを考察する予定です。
- タイトル、概要は未定です。
混合ガウス分布(分布数2)に対して、
EMアルゴリズムを適用し、
パラメータΦ(混合重み、平均、分散)を求めることをやりたいと思います。
- ML推定の考察
- 図形認識
図形(○、◇、△)をKL変換で特徴抽出を行い、ベイズ決定で判定す
る.
- ニューラルネットワークによる図形認識
ニューラルネットワークを用いて、簡単な図形の認識をおこないます。
教師信号として用いるデータの種類や数、または中間層のユニットの数を
変更することによる、認識率の違いについて、検討・考察を行います。
- 課題についてですが、まだ未定です。
- KL展開を用いた口唇画像識別
母音発声時の口唇形状の画像よりKL展開を用いて
その画像がどの発声をしているか識別する
Last modified: July 10, 2003