認知アルゴリズム特論

課題2 ML推定

お知らせ

１２月１日（火）の講義は休みにします。また、レポートの提出期限を１２月７日（月）としましたので、注意して下さい。

前回の課題では、各カテゴリの真の分布が明らかな場合について、ベイズ識別とユークリッド距離による識別を行なった。今回は、各カテゴリの真の分布が未知だが、各カテゴリの学習用データが得られる場合について考える。つまり、各カテゴリの学習用データから各カテゴリの分布を ML 推定によって推定し、この分布を用いて、テスト用データのベイズ識別およびユークリッド距離による識別を行なう。

前回の課題と同様の実験を，学習データからML推定により得られた各カテゴリの分布を用いて行なう．
真の分布を用いた場合と，ML推定で得られた分布を用いた場合との違いを考察する．（各カテゴリの分布や学習データ数などを変えて考察する）
- クラス数： 2（各クラスの生起確率は等しいとする）
- パターンの次元数： 1
- 学習用パターンの数：各クラス100個以上
- テスト用パターンの数：各クラス100個以上
- パターンの分布：ガウス分布(各クラスに異なる種々の平均と分散を与えて実験を行なう)
話者 12 人の音声データ（「あ」「い」「う」「え」「お」の５母音をそれぞれ 20 回ずつ）から得られた 16 次元のケプストラム係数(音声信号から抽出された特徴ベクトル)を学習データとし、ベイズ識別を行なう．各クラスの分布は，多次元ガウス分布とする．共分散行列は対角を仮定してもよい．
例えば、6 人分のデータを学習用データとし、それぞれのクラスの平均と分散を求める。これらの値を ML 推定値とし、テスト用データ（学習に用いていない別の 6 人分) のベイズ識別およびユークリッド距離による識別を行なえば良い。

課題に関する参考事項

16 次元のケプストラム係数を用意しました。
ケプストラム係数は，音声認識で広く用いられている音声の特徴ベクトルです．今後，講義で説明すると思いますが，とりあえずそういうものと理解しておいて下さい。

Last modified: November 24, 1998