Różnica między brakującymi danymi a danymi rzadkimi w algorytmach uczenia maszynowego


20

Jakie są główne różnice między danymi rzadkimi a brakującymi? Jak wpływa na uczenie maszynowe? Mówiąc dokładniej, jaki wpływ rzadkie dane i brakujące dane mają na algorytmy klasyfikacji i algorytmy regresji (przewidywania liczb). Mówię o sytuacji, w której odsetek brakujących danych jest znaczny i nie możemy upuścić wierszy zawierających brakujące dane.


4
Rzadkie dane oznaczają, że wiele wartości jest zerowych, ale wiesz , że są zerowe. Brak danych oznacza, że nie wiesz, jakie są niektóre lub wiele wartości.
Anna SdTC

Dzięki. Tak też myślałem, ale chciałem to potwierdzić. Ponadto, jak wspomniano w pytaniu, chciałbym wiedzieć, w jaki sposób ogólnie te typy danych są obsługiwane w problemach z uczeniem maszynowym.
zmęczony i znudzony deweloper

1
Myślę, że twoje pytanie jest trochę niejasne. „Uczenie maszynowe” obejmuje szeroki zakres metod i narzędzi, więc odpowiedź zależy od tego, co masz lub co chcesz zrobić. Tutaj omawiają niektóre metody postępowania z brakującymi danymi: stats.stackexchange.com/questions/103500/…
Anna SdTC

Dzięki. Mam świadomość szerokiej gamy narzędzi i rodzajów algorytmów ml. Ale chciałem wiedzieć, czy istnieją jakieś ogólne podejścia.
zmęczony i znudzony dev

Odpowiedzi:


16

Aby ułatwić zrozumienie, opiszę to na przykładzie. Powiedzmy, że zbierasz dane z urządzenia, które ma 12 czujników. I zbierałeś dane przez 10 dni.

Zebrane dane są następujące: wprowadź opis zdjęcia tutaj

Nazywa się to danymi rzadkimi, ponieważ większość wyjść czujnika ma zero. Co oznacza, że ​​czujniki działają poprawnie, ale rzeczywisty odczyt wynosi zero. Chociaż macierz ta ma dane o dużych wymiarach (12 osi), można powiedzieć, że zawiera mniej informacji.

Powiedzmy, że 2 czujniki twojego urządzenia działają nieprawidłowo.
Wtedy twoje dane będą jak:wprowadź opis zdjęcia tutaj

W takim przypadku widać, że nie można użyć danych z czujnika 1 i czujnika 6. Albo musisz ręcznie wypełnić dane bez wpływu na wyniki, albo musisz powtórzyć eksperyment.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.