Właśnie ukończyłem uczenie maszynowe dla kursu R na cognitiveclass.ai i zacząłem eksperymentować z losowymi lasami.
Stworzyłem model, używając biblioteki „randomForest” w R. Model klasyfikuje według dwóch klas: dobrej i złej.
Wiem, że gdy model jest przeładowany, działa dobrze na danych z własnego zestawu treningowego, ale źle na danych poza próbą.
Aby wytrenować i przetestować mój model, przetasowałem i podzieliłem cały zestaw danych na 70% na szkolenie i 30% na testy.
Moje pytanie: otrzymuję 100% dokładności na podstawie prognozy wykonanej na zestawie testowym. Czy to źle? Wydaje się zbyt piękne, aby mogło być prawdziwe.
Celem jest rozpoznawanie przebiegów na czterech na siebie w zależności od przebiegów. Cechy zestawu danych to wyniki kosztów analizy dynamicznego dopasowania czasowego kształtów fal z ich kształtem docelowym.