tl; dr
- Jaki jest zalecany sposób postępowania z
discrete
danymi podczas wykrywania nieprawidłowości? - Jaki jest zalecany sposób postępowania
categorical
danymi podczas wykrywania nieprawidłowości? - Ta odpowiedź sugeruje użycie dyskretnych danych tylko do filtrowania wyników.
- Być może zastąpisz wartość kategorii procentową szansą obserwacji?
Wprowadzenie
To jest mój pierwszy post tutaj, więc proszę, jeśli coś nie wydaje się technicznie poprawne, ani w formatowaniu, ani w użyciu prawidłowych definicji, jestem zainteresowany tym, co powinno być użyte zamiast tego.
Dalej.
Niedawno brałem udział w uczeniu maszynowym zajęciach Andrew Ng
W wykrywaniu anomalii nauczono nas określać, jakie są parametry rozkładu normalnego / Gaussa dla danej cechy / zmiennej, w zbiorze danych, a następnie określać prawdopodobieństwo wybranego zestawu wartości przykładu treningu / obserwacji, biorąc pod uwagę ten konkretny Rozkład Gaussa, a następnie biorąc iloczyn prawdopodobieństwa cech.
metoda
Wybierz funkcje / zmienne, które uważamy wyjaśnić daną działalność:
Dopasuj parametry Gaussa dla każdej cechy:
Dla każdego przykładu treningowego oblicz:
Następnie oflagujemy jako anomalię ( ), biorąc pod uwagę:
Daje nam to metodę ustalenia, czy przykład wymaga dalszej kontroli.
Moje pytania)
Wydaje się to w porządku dla ciągłych zmiennych / cech, ale dane dyskretne nie są adresowane.
Co ze zmiennymi fikcyjnymi, np. Funkcją flagi płci, prawdopodobnie nazywaną, [IsMale]
która może mieć wartość ? Aby wziąć pod uwagę funkcję fikcyjną, zastosowalibyśmy rozkład dwumianowy do obliczenia p ( x ) ?
Co z kategorycznymi danymi, takimi jak kolor samochodu? Podczas gdy moglibyśmy odwzorować kolory na wartości liczbowe, np. , rozkład takiej jakościowej cechy może być zbliżony do jednorodności (tj. Równie prawdopodobne prawdopodobieństwo, że będzie którykolwiek z kolorów), a ponadto , ponieważ każda mapowania liczbowy występuje (tj r e d o wartości 1 , etc.) nie są porządkową, to sens, aby spróbować transformacji dowolnego niż rozkład normalny częstotliwości dla kolorów, które mają być rozkładem normalnym (czy nawet względu, że to nie jest porządkowe ??)? Na przykład, do mnie, to nie ma sensu robić l O przekształca, ponieważ dane nie są ciągłe ani porządkowe. Więc może najlepiej byłoby znaleźćdyskretny rozkład,który pasuje do tej funkcji, zamiast „torturować” dane, aby pasowały do Gaussa?
Pytania: (zaktualizowano: 24.11.2015)
Czy zmienne binarne można modelować z dwumianowym rozkładem prawdopodobieństwa i stać się kolejnym czynnikiem w obliczeniach ?Czy zmienne kategoryczne powinny być modelowane z dyskretnym rozkładem prawdopodobieństwa zamiast Gaussa i stać się kolejnym czynnikiem w obliczeniach ?Czy jest jakaś inna metoda, która bierze pod uwagę to, o co tutaj pytam, że mogę dalej badać / dowiedzieć się o niej?- Jaki jest zalecany sposób postępowania z
discrete
danymi podczas wykrywania nieprawidłowości? - Jaki jest zalecany sposób postępowania z
categorical
danymi podczas wykrywania nieprawidłowości?
Edytuj: 2017-05-03
- Ta odpowiedź sugeruje użycie dyskretnych danych tylko do filtrowania wyników.
- Być może zastąpisz wartość kategorii procentową szansą obserwacji?