< back

Odhad přesnosti binárního klasifikátoru


A) Zadání

Pro model binárního klasifikátoru 3-NN a odpovídající vstupní dataset dle zadání z dřívějšího cvičení proveďte výpočty odhadů dvou dále uvedených chyb:
 

  1. Pro původní model binárního klasifikátoru 3-NN trénovaný na kompletním vstupním datasetu 100 vzorků, a reprezentovaný klasifikační mapou, vypočtěte resubstituční chybu, tj. chybu na trénovací množině Err_train (ground truth vzorků, resp. jejich predikce znáte z určeného postupu generování datasetu resp. odezvy klasifikátoru).

  1. Předpokládejte, nikoli bezdůvodně, že dataset o 100 záznamech není statisticky významný pro fixní dělení na trénovací, testovací a popř. i validační množinu a jednokrokový výpočet odhadu skutečné chyby klasifikátoru je nepřesný. Chybu tedy určete metodou křížové validace, a to pro K = 10, tj.:

a. Původní kód modifikujte tak, aby nastavení dílčích modelů bylo postupně provedeno K-krát vždy s jinou trénovací množinou podle metody křížové validace.

b. Pro každý dílčí model vypočítejte odpovídající chybu na testovací množině, a nakonec celkovou chybu Err_CV všech dílčích modelů:




  1. Porovnejte hodnotu Err_train jak s K dílčími, tak i výslednou hodnotou Err_CV a vysvětlete vzájemný vztah.

  1. Kód bodů 1) a 2) doplňte o měření času např. funkcemi tic/toc a stanovte poměr výpočetní náročnosti pro určení Err_train a Err_CV, na jehož základě diskutujte efektivitu odhadu přesnosti modelu.

B) Info

Postup dělení vstupního datasetu na trénovací a testovací množinu u metody křížové validace: