Zawsze myślałem od tego, co czytałem, że krzyż walidacja odbywa się to tak:walidacji krzyżowej w Weka
w K-krotnie krzyżowej walidacji, oryginalna próbka jest losowo podzielony na k mniejsze próbki. Z podpróbek k, pojedyncza podpróbka zostaje zachowana jako dane walidacyjne do testowania modelu, a pozostałe podpróbki K-1 są używane jako dane treningowe. Proces sprawdzania krzyżowego jest następnie powtarzany k razy (fałdy), przy czym każda z podpróbek k jest używana dokładnie raz jako dane walidacyjne. W Wyniki K z fałdami następnie mogą być uśrednione (lub inaczej połączone) do wytworzenia pojedynczej oszacowanie
Więc k modele są zbudowane, a ostatni z nich jest średnią z tych. W przewodniku Weka jest napisane, że każdy model jest zawsze zbudowany przy użyciu WSZYSTKIEGO zestawu danych. Jak działa weryfikacja krzyżowa w Weka? Czy model jest zbudowany na podstawie wszystkich danych, a "walidacja krzyżowa" oznacza, że k fałd jest tworzony, a następnie kada jest oceniana na nim, a ostateczne wyniki wyjściowe są po prostu uśrednione z fałd?
Mam 2 pytania: 1) Jeśli jest tak, jak powiedziałeś, dlaczego w Przewodniku Weka jest napisane, że w każdym przypadku (zestaw treningowy i CV) model jest zawsze zbudowany na podstawie wszystkich danych? Jak pisałeś w CV, ostateczny model jest średnią z pozostałych 10 modeli, prawda?2) Jeśli "Model, który otrzymasz w tym momencie, jest średnią ze wszystkich 10 modeli", jak to możliwe, że używając zestawu treningowego i CV jako walidacji mam te same modele? (Mam nadzieję, że te pytania nie wydają się zbyt głupie!). –
1. Oznacza to, że dla każdego złożenia bierze się pod uwagę cały zestaw danych. Istnieją pewne wariacje tego standardowego CV, w którym część zbiorów danych jest przechowywana dla osobnego testu. 2. Co dokładnie rozumiesz przez "zdobywanie tych samych modeli"? –
Dla "tych samych modeli" mam na myśli to, że na wyjściu mam dokładnie to samo drzewo –