Ćwiczenia 11.

advertisement
Ćwiczenia 11.
1. Jaka jest optymalna wartość parametru k = 1, . . . , 30 w metodzie najbliższego sąsiada dla zbioru danych PimaIndiansDiabetes (informacje na temat cukrzycy u kobiet
z plemienia Pima) z pakietu mlbench. Jako metodę oceny jakości wykorzystaj metodę sprawdzania krzyżowego. Zwizualizuj proces doboru optymalnej wartości parametru.
Skonstruuj optymalny model i sprawdź jego jakość za pomocą metody ponownego podstawiania.
2. Dla zbioru danych author (liczba liter za wyjątkiem nazw własnych w próbkach 12
powieści) z pakietu ca wykonaj odpowiednią metodę redukcji wymiarowości. Ile procent
zmienności wyjaśniają dwie pierwsze zmienne w nowym układzie współrzędnych. Czy
dwie zmienne wydają się wystarczające do przedstawienia tych danych. Zwizualizuj dane
na płaszczyźnie w nowym układzie współrzędnych.
3. Dla zbioru danych Glass (cechy chemiczne 7 rodzajów szkła) z pakietu mlbench
przeprowadź analizę dyskryminacyjną za pomocą poznanych metod. Która metoda osiąga
najmniejszy błąd klasyfikacji uzyskany metodą sprawdzania krzyżowego (wersja LOO),
a która za pomocą metody ponownego podstawiania?
1
Download