Odhad přesnosti binárního klasifikátoru
A) Zadání
Pro model binárního klasifikátoru 3-NN a odpovídající vstupní dataset
dle zadání z dřívějšího cvičení proveďte výpočty odhadů dvou dále
uvedených chyb:
- Pro původní model binárního klasifikátoru 3-NN trénovaný na kompletním vstupním datasetu 100 vzorků, a reprezentovaný klasifikační mapou, vypočtěte resubstituční chybu, tj. chybu na trénovací množině Err_train (ground truth vzorků, resp. jejich predikce znáte z určeného postupu generování datasetu resp. odezvy klasifikátoru).
- Předpokládejte, nikoli bezdůvodně, že dataset o 100 záznamech není statisticky významný pro fixní dělení na trénovací, testovací a popř. i validační množinu a jednokrokový výpočet odhadu skutečné chyby klasifikátoru je nepřesný. Chybu tedy určete metodou křížové validace, a to pro K = 10, tj.:
a. Původní kód modifikujte tak, aby nastavení dílčích modelů bylo postupně provedeno K-krát vždy s jinou trénovací množinou podle metody křížové validace.
b. Pro každý dílčí model vypočítejte odpovídající chybu na testovací množině, a nakonec celkovou chybu Err_CV všech dílčích modelů:
- Porovnejte hodnotu Err_train jak s K dílčími, tak i výslednou hodnotou Err_CV a vysvětlete vzájemný vztah.
- Kód bodů 1) a 2) doplňte o měření času např. funkcemi tic/toc a stanovte poměr výpočetní náročnosti pro určení Err_train a Err_CV, na jehož základě diskutujte efektivitu odhadu přesnosti modelu.
B) Info
Postup dělení vstupního datasetu na trénovací a testovací množinu
u metody křížové validace: