認知アルゴリズム特論
課題3 EM アルゴリズム
お知らせ
レポートの提出期限を1月11日(月)としましたが、
できた人から早めに提出して下さい。早く提出したことは評価します。
前回の課題では、各カテゴリの真の分布が未知だが、各カテゴリ
の学習用データが得られる場合について考えた。
今回は、学習データにラベルがない場合(各学習サンプルがどの
カテゴリのものかわからない場合:アンスーパーバイズド学習)を考え、
EMアルゴリズムにより各カテゴリの分布をML推定する。
また、得られた分布を用いて、テスト用データのベイズ識別を行なう。
- 真のモデルがわかっているとき
- スーパーバイズド学習によるML推定を用いたとき
- アンスーパーバイズド学習によるML推定を用いたとき
のモデル推定精度、認識率などを
いくつかの条件(真の平均、分散、学習データの数など)のもとで比較する。
- クラス数: 2(各クラスの生起確率は等しいとする)
- パターンの次元数: 1
- 学習用パターンの数:各クラス100個以上
- テスト用パターンの数:各クラス100個以上
- パターンの分布:ガウス分布(各クラスに異なる種々の平均と分散を与えて実験を行なう)
また、同様の実験を特徴ベクトルが多次元の場合についても行なう。
但し、共分散行列は対角を仮定する。
課題に関する参考事項
初期モデルは、適当にいくつか与えて試してみる。
一般には、以下のような方法が用いられる。
- 乱数で与える。
- LBGアルゴリズムなどのベクトル量子化のコードブック設計アルゴリズムで
得られたコードワードを各カテゴリの平均ベクトルとする。
また、各コードワードに属する学習ベクトルから
計算される共分散行列をそのカテゴリの共分散行列とする。
Last modified: December 15, 1998