Uczenie się zespołowe odnosi się do kilku różnych metod. Zwiększenie i zapakowanie są prawdopodobnie dwoma najczęstszymi. Wygląda na to, że próbujesz zaimplementować metodę uczenia się złożonego o nazwie układanie w stosy . Stacking ma na celu poprawę dokładności poprzez połączenie prognoz z kilku algorytmów uczenia się. Istnieje wiele sposobów układania w stosy i niewiele rygorystycznych teorii. Jest to jednak intuicyjne i popularne.
Rozważ podejście swojego przyjaciela. Dopasowujesz modele pierwszej warstwy do czterech z pięciu fałd, a następnie dopasowujesz model drugiej warstwy (głosowanie) przy użyciu tych samych czterech fałd. Problem polega na tym, że druga warstwa faworyzuje model z najniższym błędem treningowym. Używasz tych samych danych, aby dopasować modele i opracować procedurę agregacji tych modeli. Druga warstwa powinna łączyć modele przy użyciu prognoz na podstawie próby . Twoja metoda jest lepsza, ale jest sposób na jeszcze lepsze.
Nadal będziemy pomijać jedną zakładkę do celów testowych. Weź cztery fałdy i użyj 4-krotnego CV, aby uzyskać prognozy poza próbą dla każdego z modeli pierwszej warstwy dla wszystkich czterech fałd. To znaczy, pomiń jedną z czterech fałd i dopasuj modele do pozostałych trzech, a następnie przewiduj na podstawie wstrzymanych danych. Powtórz dla wszystkich czterech fałd, aby uzyskać prognozy poza próbą dla wszystkich czterech fałd. Następnie dopasuj model drugiej warstwy do tych prognoz poza próbą. Następnie ponownie dopasuj modele pierwszej warstwy do wszystkich czterech zagięć. Teraz możesz przejść do piątej zakładki, której jeszcze nie dotykałeś. Użyj modeli pierwszej warstwy pasujących do wszystkich czterech zagięć wraz z modelem drugiej warstwy, aby oszacować błąd w przetrzymywanych danych. Możesz powtórzyć ten proces ponownie z innymi fałdami wystającymi z dopasowania modelu pierwszej i drugiej warstwy.
Jeśli wydajność jest zadowalająca, wygeneruj prognozy poza próbą dla modeli pierwszej warstwy na wszystkich pięciu fałdach, a następnie dopasuj do nich model drugiej warstwy. Następnie dopasuj modele pierwszej warstwy po raz ostatni do wszystkich danych i użyj ich z modelem drugiej warstwy na dowolnych nowych danych!
Na koniec kilka ogólnych porad. Zyskasz więcej korzyści, jeśli twoje modele pierwszej warstwy będą się od siebie różniły. Jesteś na dobrej drodze, używając SVM i drzew decyzyjnych, które są bardzo różne od siebie. Ponieważ w modelu drugiej warstwy występuje efekt uśredniania, możesz spróbować stopniowo dopasowywać modele pierwszej warstwy, szczególnie jeśli masz ich dużo. Druga warstwa jest na ogół czymś prostym, a ograniczenia takie jak brak negatywności wag i monotoniczność są powszechne. Na koniec pamiętaj, że układanie w stosy opiera się na weryfikacji krzyżowej, która stanowi jedynie oszacowanie rzeczywistego ryzyka. Jeśli otrzymujesz bardzo różne poziomy błędów i bardzo różne wagi modeli pomiędzy fałdami, oznacza to, że twoje oszacowanie ryzyka oparte na CV jest bardzo zróżnicowane. W takim przypadku możesz rozważyć proste połączenietwoich modeli pierwszej warstwy. Lub możesz pójść na kompromis, układając z ograniczeniami maksymalnej / minimalnej masy umieszczonej na każdym modelu pierwszej warstwy.