Nie wiem, czy to kwalifikuje się jako komentarz czy odpowiedź. Stawiam tutaj, ponieważ wydaje mi się, że to odpowiedź.
W k-krotnej walidacji krzyżowej dzielisz dane na k grup. Jeśli omawiasz nawet „podstawy”, to losowo wybierasz członków dla każdego z k przedziałów.
Kiedy mówię o danych, myślę o każdym wierszu jako próbce, a każdej kolumnie o wymiarze. Jestem przyzwyczajony do używania różnych metod określania znaczenia zmiennej, ważności kolumny.
Co jeśli, jako ćwiczenie myślowe, przypadkowo odszedłeś od munduru „podręcznika” i ustaliłeś, które wiersze są ważne? Może informują pojedynczą zmienną na raz, ale może informują więcej. Czy są jakieś wiersze, które są mniej ważne niż inne? Może wiele punktów ma charakter informacyjny, a może niewiele.
Znając znaczenie zmiennej, być może możesz podzielić je według ważności. Może mógłbyś zrobić jeden pojemnik z najważniejszymi próbkami. To może zdefiniować rozmiar twojego „k”. W ten sposób określasz „najbardziej informacyjny” k-segment i porównujesz go z innymi oraz z najmniej informacyjnym.
To może dać ci wyobrażenie o maksymalnej zmienności parametrów twojego modelu. To tylko jedna forma.
Drugim sposobem podziału k-tego segmentu jest wielkość i kierunek wpływu. Możesz więc umieścić próbki, które kołyszą parametr lub parametry w jednym kierunku, w jednym wiadrze i umieścić próbki, które kołyszą ten sam parametr lub parametry w przeciwnym kierunku w innym wiadrze.
Zmienność parametrów w tej formie może poszerzyć zakres zmiennych, w oparciu nie o gęstość informacji, ale o rasę informacji.
Powodzenia.