認知アルゴリズム特論

課題3 EM アルゴリズム

お知らせ

レポートの提出期限を１月１１日（月）としましたが、できた人から早めに提出して下さい。早く提出したことは評価します。

前回の課題では、各カテゴリの真の分布が未知だが、各カテゴリの学習用データが得られる場合について考えた。今回は、学習データにラベルがない場合（各学習サンプルがどのカテゴリのものかわからない場合:アンスーパーバイズド学習）を考え、 EMアルゴリズムにより各カテゴリの分布をML推定する。また、得られた分布を用いて、テスト用データのベイズ識別を行なう。

真のモデルがわかっているとき
スーパーバイズド学習によるML推定を用いたとき
アンスーパーバイズド学習によるML推定を用いたとき

のモデル推定精度、認識率などをいくつかの条件（真の平均、分散、学習データの数など）のもとで比較する。

クラス数： 2（各クラスの生起確率は等しいとする）
パターンの次元数： 1
学習用パターンの数：各クラス100個以上
テスト用パターンの数：各クラス100個以上
パターンの分布：ガウス分布(各クラスに異なる種々の平均と分散を与えて実験を行なう)

また、同様の実験を特徴ベクトルが多次元の場合についても行なう。但し、共分散行列は対角を仮定する。

課題に関する参考事項

初期モデルは、適当にいくつか与えて試してみる。一般には、以下のような方法が用いられる。

乱数で与える。
LBGアルゴリズムなどのベクトル量子化のコードブック設計アルゴリズムで得られたコードワードを各カテゴリの平均ベクトルとする。また、各コードワードに属する学習ベクトルから計算される共分散行列をそのカテゴリの共分散行列とする。

Last modified: December 15, 1998