Instytut Informatyki PB
Zakład Oprogramowania

Instrukcja do laboratorium z przedmiotu
Metody Wielowymiarowej Analizy Danych
Temat: Analiza Dyskryminacyjna

Zagadnienia: Bayesowska reguła decyzyjna i jej postać przy założeniu normalności łącznego rozkładu zmiennych. Kryterium Fishera – liniowa reguła decyzyjna. Metoda k-najbliższych sąsiadów. Estymacja jądrowa. Techniki szacowania prawdopodobieństwa błędnej klasyfikacji (“leave-one-out”, wykorzystanie zbioru testowego)

Treść ćwiczenia:

  1. Przy założeniu normalności rozkładu zbadać zdolność klasyfikacji przy wykorzystaniu liniowej funkcji dyskryminacyjnej.
  2. Zbadać jaki wpływ na jakość klasyfikacji ma ilość sąsiadów w metodzie k-najbliższych sąsiadów.
  3. Przy wykorzystaniu estymacji jądrowej sprawdzić jak wielkość jądra wpływa na jakość klasyfikacji.
  4. Sporządzić wykresy jakości klasyfikacji od badanych parametrów.

Do estymacji jakości klasyfikacji wykorzystać metodę “leave-one-out” oraz podział zbioru na część uczącą (2/3 przykładów) i testową (1/3) przykładów.

Wykorzystywane procedury SAS:

PROC DISCRIM {opcje};
    CLASS zmienna-decyzyjna;

opcje:
    {K=k} – określa ilu sąsiadów jest branych pod uwagę przy metodzie k-najbliższych sąsiadów;
    {R=r} – określa promień wykorzystywany w estymacji jądrowej (kernel density estimation), nie wolno równocześnie specyfikować K i R;
    {CROSSVALIDATE} – estymacja błędu metodą “leave-one-out”
    {CROSSLISTERR} – wypisuje błędnie sklasyfikowane przykłady podczas cross-validation;
    {TESTDATA=’zbiór-danych-SAS’} – zbiór testowy
    {TESTLISTERR}- wypisuje błędnie sklasyfikowane przykłady ze zbioru testowego

Przykładowe pytania sprawdzające:

1. Na czym polega różnica pomiędzy metodami parametrycznymi a nieparametrycznymi?
2. Jakie są wady metody k-nn?
3. Co to jest jądro (ang. kernel)?
4. O czym mówi twierdzenie Bayes’-a?
5. Czy uzyskanie wyższej jakości klasyfikacji na zbiorze uczącym jest równoznaczne z lepszą klasyfikacją na zbiorze testowym? Uzasadnij.
6. Czy usunięcie jednej (kilku) cech zezbioru uczącego może wpłynąć na poprawę jakości klasyfikacji w k-NN? Uzasadnij.
7. Ile wyniesie błąd klasyfikacji metody 1-NN estymowany na zbiorze uczącym?

Powrót   


Copyright © 1999 Marek Krętowski & Wojciech Kwedlo. All rights reserved.
Revised: 00-03-10