Czy powinienem ponownie przetasować swoje dane?

Mamy zestaw próbek biologicznych, których uzyskanie było dość drogie. Przekazujemy te próbki przez serię testów w celu wygenerowania danych, które są wykorzystywane do budowy modelu predykcyjnego. W tym celu podzieliliśmy próbki na zestawy szkoleniowe (70%) i testowe (30%). Z powodzeniem stworzyliśmy model i zastosowaliśmy go na zestawie testowym, aby odkryć, że wydajność była „niższa niż optymalna”. Eksperymentaliści chcą teraz ulepszyć testy biologiczne, aby stworzyć lepszy model. Pod warunkiem, że nie możemy uzyskać nowych próbek, czy sugerujesz nam ponowne przetasowanie próbek w celu utworzenia nowych zestawów szkoleniowych i walidacyjnych lub trzymanie się pierwotnego podziału. (Nie mamy żadnych wskazówek, że podział był problematyczny).

— DavidDong
źródło

Jak podzieliłeś dane? Losowo, ręcznie, czy jakaś inna metoda? Chociaż tak naprawdę część o „pomyślnym utworzeniu modelu” stanowi DUŻĄ większą część problemu. Przed zrobieniem drogich rzeczy powinieneś sprawdzić, czy używasz odpowiedniego typu modelu, czy przewyższasz dane treningowe i czy masz odpowiednie dane do tego, co próbujesz przewidzieć.

— Wayne

BTW, zapomniałem włączyć tryb cynizmu, zanim „z powodzeniem stworzyłem model”

— DavidDong

Ponieważ korzystasz już z próby wstrzymania, powiedziałbym, że powinieneś ją zachować i zbudować nowe modele na tej samej próbce treningowej, aby wszystkie modele uwzględniały te same relacje między funkcjami. Ponadto, jeśli dokonasz wyboru funkcji, próbki należy pominąć przed którymkolwiek z tych etapów filtrowania; to znaczy, wybór funkcji musi być zawarty w pętli weryfikacji krzyżowej.

Warto zauważyć, że istnieją bardziej wydajne metody wyboru podziału niż 0,67 / 0,33, a mianowicie k-krotna walidacja krzyżowa lub pomijanie. Patrz np . Elementy uczenia statystycznego (§7.10, s. 241–248), www.modelselection.org lub Badanie procedur walidacji krzyżowej dla wyboru modelu przez Arlot i Celisse (wymagane bardziej zaawansowane zaplecze matematyczne).

— chl
źródło