Przy rozwiązywaniu problemów biznesowych z wykorzystaniem danych często zdarza się, że co najmniej jedno kluczowe założenie, że klasyczne statystyki poniżej szpilek są nieprawidłowe. Przez większość czasu nikt nie zadaje sobie trudu, aby sprawdzić te założenia, więc tak naprawdę nigdy nie wiadomo.
Na przykład, że tak wiele typowych wskaźników internetowych jest „długich ogonków” (w stosunku do normalnego rozkładu), jest już tak dobrze udokumentowane, że bierzemy to za pewnik. Kolejny przykład, społeczności online - nawet w społecznościach z tysiącami członków, jest dobrze udokumentowane, że zdecydowanie największy udział w / w wielu z tych społeczności można przypisać niewielkiej grupie „super-współpracowników”. (Np. Kilka miesięcy temu, tuż po udostępnieniu SO API w wersji beta, członek StackOverflow opublikował krótką analizę danych zebranych przez API; jego wniosek - mniej niż jeden procent członków SO stanowi większość aktywność na SO (przypuszczalnie zadając pytania i odpowiadając na nie), pozostałe 1-2% stanowiło resztę, a przeważająca większość członków nic nie robi).
Tego rodzaju rozkłady - znowu częściej reguła niż wyjątek - są często najlepiej modelowane za pomocą funkcji gęstości prawa mocy . W przypadku tego rodzaju rozkładów problematyczne jest zastosowanie nawet centralnego twierdzenia o granicy.
Biorąc pod uwagę tak dużą liczbę populacji, które mogą zainteresować analityków, oraz biorąc pod uwagę, że klasyczne modele wykazują wyraźnie słabe wyniki w odniesieniu do tych danych, a także biorąc pod uwagę, że istnieją solidne i odporne metody od dłuższego czasu (co najmniej 20 lat, jak sądzę) - dlaczego czy nie są używane częściej? (Ja też zastanawiać, dlaczego ja nie używam ich częściej, ale to naprawdę nie jest pytanie do CrossValidated ).
Tak, wiem, że są rozdziały podręczników poświęcone w całości solidnym statystykom i wiem, że istnieje (kilka) pakietów R ( robustbase to ten, który znam i którego używam) itp.
A jednak, biorąc pod uwagę oczywiste zalety tych technik, często są one wyraźnie lepszymi narzędziami do pracy - dlaczego nie są używane znacznie częściej ? Czy nie powinniśmy oczekiwać, że rzetelne (i odporne) statystyki będą wykorzystywane znacznie częściej (być może nawet przypuszczalnie) w porównaniu z klasycznymi analogami?
Jedynym merytorycznym (tj. Technicznym) wyjaśnieniem, jakie słyszałem, jest to, że mocne techniki (podobnie w przypadku metod opornych) nie mają mocy / wrażliwości klasycznych technik. Nie wiem, czy rzeczywiście tak jest w niektórych przypadkach, ale wiem, że nie jest to prawdą w wielu przypadkach.
Ostatnie słowo poprzedzające: tak, wiem, że na to pytanie nie ma ani jednej wyraźnie poprawnej odpowiedzi; bardzo mało pytań na tej stronie. Co więcej, pytanie to jest prawdziwym pytaniem; nie jest pretekstem do rozwijania punktu widzenia - nie mam tutaj punktu widzenia, tylko pytanie, na które mam nadzieję uzyskać wnikliwe odpowiedzi.