Czy rozkład, który jest normalny, ale mocno wypaczony, jest uważany za gaussowski?


12

Mam pytanie: jak myślisz, jak wygląda rozkład czasu spędzanego dziennie na YouTube?

Moja odpowiedź jest taka, że ​​prawdopodobnie jest on zwykle rozłożony i mocno zniekształcony. Oczekuję, że istnieje jeden tryb, w którym większość użytkowników spędza średnio jakiś czas, a następnie długi prawy ogon, ponieważ niektórzy użytkownicy są przytłaczającymi użytkownikami zaawansowanymi.

Czy to uczciwa odpowiedź? Czy jest lepsze słowo dla tej dystrybucji?


4
Jak niektóre odpowiedzi wspominają, ale nie podkreślają, skośność nazywa się nieformalnie dla dłuższego ogona, jeśli taki istnieje, więc skośnego, jeśli dłuższy prawy ogon. Zarówno lewy, jak i prawy, użyte w tym kontekście, zakładają wyświetlanie zgodnie z konwencją, że wielkość jest pokazana na osi poziomej. Jeśli to brzmi zbyt oczywisto, rozważ wyświetlacze w nauce o Ziemi i naukach o środowisku, w których wielkość jest wysokością lub głębokością i są pokazane w pionie. Mały druk: niektóre miary skośności mogą wynosić zero, nawet jeśli rozkład jest pochylony geometrycznie.
Nick Cox

1
Całkowity czas dziennie dla wszystkich użytkowników? lub czas dziennie na osobę? Jeśli to drugie, to z pewnością jest umiarkowanie duży skok na poziomie 0, w którym to przypadku prawdopodobnie potrzebujesz rozkładu typu „skok i płyta” z deltą Diraca na poziomie 0
innisfree

6
„Normalny” jest równoznaczny z „Gaussowskim”, a rozkłady Gaussa, zwane również rozkładami normalnymi, nie są wypaczone.
Michael Hardy,

Uważam, że pytanie w tytule różni się znacznie od pytania w tekście podstawowym. A przynajmniej tytuł jest bardzo mylący. Żadna dystrybucja nie jest „normalna, ale mocno wypaczona”, co jest sprzecznością. Ponadto rozkład Gaussa jest bardzo dobrze zdefiniowany i wcale nie przypomina rozkładu czasu spędzanego dziennie na YouTube. Odpowiedź na pytanie w tytule brzmi: nie. f(x)=12πσ2exp((xμ)22σ2)
Sextus Empiricus

2
także pytanie na końcu „czy jest lepsze słowo dla tej dystrybucji?” jest bardzo niejasny lub szeroki. Informacje wydają się być tylko „jednym trybem” i „długim prawym ogonem” (część „prawdopodobnie normalnie rozłożona” nie ma sensu). Może istnieć wiele dystrybucji, które spełniają te warunki. To zadziwiające, że to pytanie przyciąga ponad dziesięć odpowiedzi i co najmniej tyle samo propozycji alternatywnej dystrybucji, zanim faktycznie spróbujemy wyjaśnić pytanie (nie ma nawet danych).
Sextus Empiricus

Odpowiedzi:


15

Ułamek dziennie z pewnością nie jest ujemny. Wyklucza to rozkład normalny, który ma masę prawdopodobieństwa na całej osi rzeczywistej - w szczególności na połowie ujemnej.

Rozkłady prawa władzy są często używane do modelowania takich rzeczy, jak rozkłady dochodów, wielkości miast itp. Są nieujemne i zazwyczaj bardzo wypaczone. To byłyby pierwsze próby modelowania czasu spędzonego na oglądaniu YouTube. (Lub monitorowanie pytań krzyżowych).

Więcej informacji na temat przepisów dotyczących mocy można znaleźć tutaj lub tutaj lub w naszym znaczniku .


16
Masz całkowitą rację, że normalne dystrybucje mają wsparcie na linii rzeczywistej. A jednak ... nie są okropnym modelem dla pewnych ściśle pozytywnych cech, takich jak wzrost lub waga dorosłych, gdzie średnia i wariancja są takie, że ujemne wartości są bardzo mało prawdopodobne w modelu.
Matt Krause,

2
@MattKrause To właściwie świetne pytanie - czy istnieje takie samo prawdopodobieństwo, że będę „10 cm powyżej lub poniżej średniej wysokości” lub „10 procent powyżej lub poniżej średniej wysokości”? Tylko pierwszy przypadek może gwarantować normalną dystrybucję.
Tomáš Kafka

1
@MattKrause: Całkowicie się zgadzam, w ogólnym sensie. Jednak obecne pytanie dotyczy proporcji dziennego czasu spędzanego na oglądaniu YouTube. Nie mamy żadnych danych, ale byłbym bardzo zaskoczony, gdyby dystrybucja była nawet zdalnie symetryczna.
Stephan Kolassa

43

Rozkład, który jest normalny, nie jest mocno wypaczony. To jest sprzeczność. Zmienne rozkładane normalnie mają pochylenie = 0.


1
Jaki jest lepszy sposób na opisanie dystrybucji? Czy istnieje słowo określające ten typ dystrybucji, w którym koncentruje się on wokół trybu, a następnie ma długi ogon?
Cauder

13
Unimodal i wypaczony jest tak blisko, jak tylko mogę przyjść ...
łucznik

9
Nawiasem mówiąc, to po prostu niesamowite, że ludzie poświęcają czas, aby pomagać innym w poprawianiu się w tych sprawach. Wiem, że to oczywiste, ale to fajne, co oboje robicie!
Cauder

6
Tak, ale warto wyjaśnić, że to stwierdzenie dotyczy populacji normalnie rozproszonej. Próbka pobrana z tej populacji może być bardzo wypaczona.
gung - Przywróć Monikę

Kiedy wartość pochylenia jest niewielka („małe” są ustalane przez osoby zajmujące się danymi statystykami), nadal możesz traktować populację jak normalnie, choć w rezultacie z niewielkim błędem.
Carl Witthoft,


13

Może to być rozkład log-normalny. Jak wspomniano tutaj :

Czas przebywania użytkowników w artykułach online (żarty, wiadomości itp.) Jest zgodny z logiczną dystrybucją.

Podane odniesienia to: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min (2013). Milczenie jest również dowodem: interpretacja czasu oczekiwania na rekomendację z psychologicznego punktu widzenia. Międzynarodowa konferencja ACM na temat KDD.


7

„Czy jest lepsze słowo dla tej dystrybucji?”

Warto tu rozróżnić między używaniem słów do opisania właściwości rozkładu, a próbą znalezienia „nazwy” dla dystrybucji, aby można ją było zidentyfikować jako (w przybliżeniu) instancję określonego rozkładu standardowego: dla której formuła lub mogą istnieć tabele statystyczne dla jego funkcji rozkładu i dla których można oszacować jej parametry. W tym ostatnim przypadku prawdopodobnie używasz nazwanego rozkładu, np. „Normalny / gaussowski” (te dwa terminy są na ogół synonimami), jako modelu, który przechwytuje niektóre kluczowe cechy twoich danych, zamiast twierdzić, że populacja twoich danych to zaczerpnięte z dokładnie tego teoretycznego rozkładu. Aby nieco źle napisać George Box,wszystkie modele są „złe”, ale niektóre są przydatne. Jeśli zastanawiasz się nad podejściem do modelowania, warto zastanowić się, jakie funkcje chcesz zastosować i jak skomplikowany lub oszczędny ma być Twój model.

Będąc pozytywnie pochylona jest przykładem opisującym właściwość, że rozkład ma, ale nie zbliży się do określania, które off-the-shelf dystrybucja jest „” odpowiedni model. Wyklucza to niektórych kandydatów, na przykład rozkład Gaussa (tj. Normalny) ma zerowe pochylenie, więc nie będzie właściwe modelowanie danych, jeśli pochylenie jest ważną cechą. Mogą istnieć również inne właściwości danych, które są dla Ciebie ważne, np. Że są one jednomodalne (ma tylko jeden pik) lub że są ograniczone od 0 do 24 godzin (lub od 0 do 1, jeśli piszesz je ułamkowo dnia) lub że masa prawdopodobieństwa jest skoncentrowana na zerze (ponieważ są ludzie, którzy w ogóle nie oglądają youtube w danym dniu).kurtoza . I warto pamiętać, że nawet jeśli twój rozkład miał kształt „garbu” lub „krzywej dzwonowej” i miał pochylenie zerowe lub prawie zerowe, nie wynika automatycznie, że rozkład normalny jest dla niego „poprawny”! Z drugiej strony, nawet jeśli populacja, z której pochodzą twoje dane, faktycznie przypadała dokładnie według określonego rozkładu, z powodu błędu próbkowaniaTwój zestaw danych może nie do końca przypominać. Małe zestawy danych prawdopodobnie będą „hałaśliwe” i może nie być jasne, czy pewne cechy, które widzisz, np. Dodatkowe małe garby lub asymetryczne ogony, są właściwościami populacji, z której dane zostały pobrane (i być może dlatego powinny zostać uwzględnione w twoim modelu) lub czy są to tylko artefakty z konkretnej próbki (i do celów modelowania należy je zignorować). Jeśli masz mały zestaw danych, a pochylenie jest bliskie zeru, wówczas jest prawdopodobne, że rozkład leżący u jego podstaw jest w rzeczywistości symetryczny. Im większy zestaw danych i większy skośność, tym mniej prawdopodobne staje się to - ale chociaż można przeprowadzić test istotności, aby przekonać się, jak przekonujące są dowody świadczące o skośności w populacji, z której został pobrany, może brakować punktu, czy normalny (lub inny rozkład zerowy) jest odpowiedni jako model ...

Jakie właściwości danych naprawdę mają znaczenie dla celów, w których zamierzasz je modelować? Zauważ, że jeśli pochylenie jest dość małe i nie przejmujesz się nim zbytnio, nawet jeśli podstawowa populacja jest naprawdę wypaczona , to może się okazać, że rozkład normalny jest przydatnym modelem do przybliżenia tego prawdziwego rozkładu czasów oglądania. Ale powinieneś sprawdzić, czy to nie kończy się głupimi przewidywaniami. Ponieważ rozkład normalny nie ma najwyższej ani najniższej możliwej wartości, to mimo że ekstremalnie wysokie lub niskie wartości stają się coraz bardziej mało prawdopodobne, zawsze okaże się, że Twój model przewiduje, że pewneprawdopodobieństwo oglądania przez ujemną liczbę godzin dziennie lub ponad 24 godziny. Staje się to bardziej problematyczne, jeśli przewidywane prawdopodobieństwo takich niemożliwych zdarzeń stanie się wysokie. Rozkład symetryczny, taki jak normalny, pozwoli przewidzieć, że jak wiele osób będzie obserwować przez dłuższy czas ponad 50% powyżej średniej, podobnie jak mniej niż 50% poniżej średniej. Jeśli czasy oglądania są bardzo wypaczone, ten rodzaj przewidywania może być tak nieprawdopodobny, że jest głupi, i daje mylące wyniki, jeśli bierzesz wyniki swojego modelu i używasz ich jako danych wejściowych do innych celów (na przykład przeprowadzam symulację czasu oglądania w celu obliczenia optymalnego harmonogramu reklamy). Jeśli skośność jest tak godna uwagi, że chcesz uchwycić ją jako część modelu, toskośny rozkład normalny może być bardziej odpowiedni. Jeśli chcesz uchwycić zarówno skośność, jak i kurtozę, rozważ skośne t . Jeśli chcesz uwzględnić fizycznie możliwe górne i dolne granice, rozważ użycie skróconych wersji tych dystrybucji. Istnieje wiele innych rozkładów prawdopodobieństwa, które mogą być wypaczone i nieimodalne (dla odpowiednich wyborów parametrów), takie jak rozkłady F lub gamma , i ponownie można je obciąć, aby nie przewidywały niemożliwie wysokich czasów oglądania. Dystrybucja betamoże być dobrym wyborem, jeśli modelujesz ułamek dnia spędzonego na oglądaniu, ponieważ jest to zawsze ograniczone od 0 do 1 bez konieczności dalszego obcinania. Jeśli chcesz uwzględnić stężenie prawdopodobieństwa dokładnie na poziomie zerowym ze względu na osoby niebędące obserwatorami, rozważ zbudowanie modelu przeszkodowego .

Ale w momencie, gdy próbujesz wprowadzić każdą funkcję, którą możesz zidentyfikować na podstawie swoich danych, i zbudować coraz bardziej wyrafinowany model, być może powinieneś zadać sobie pytanie, dlaczego to robisz? Czy korzystny byłby prostszy model, na przykład łatwiejsza praca z matematyczną lub posiadająca mniej parametrów do oszacowania? Jeśli obawiasz się, że takie uproszczenie sprawi, że nie będziesz w stanie uchwycić wszystkich właściwości, które Cię interesują, być może żadna dystrybucja „z półki” nie robi tego, co chcesz. Nie jesteśmy jednak ograniczeni do pracy z nazwanymi dystrybucjami, których właściwości matematyczne zostały wcześniej wyjaśnione. Zamiast tego rozważ wykorzystanie danych do zbudowania empirycznej funkcji dystrybucji. Spowoduje to uchwycenie wszystkich zachowań, które były obecne w twoich danych, ale nie możesz już nadać mu nazwy takiej jak „normalna” lub „gamma”, ani nie możesz zastosować właściwości matematycznych, które odnoszą się tylko do określonego rozkładu. Na przykład reguła „95% danych mieści się w zakresie 1,96 odchyleń standardowych od średniej” dotyczy normalnie dystrybuowanych danych i może nie mieć zastosowania do Twojej dystrybucji; należy jednak pamiętać, że niektóre zasady mają zastosowanie do wszystkich dystrybucji, np . co najmniej gwarancje nierówności Czebyszewa75% twoich danych musi mieścić się w dwóch standardowych odchyleniach średniej, niezależnie od pochylenia. Niestety rozkład empiryczny odziedziczy również wszystkie właściwości zestawu danych wynikające wyłącznie z błędu próbkowania, nie tylko te posiadane przez populację podstawową, więc może się okazać, że histogram rozkładu empirycznego zawiera garby i spadki, których sama populacja nie ma . Możesz zbadać wygładzone funkcje rozkładu empirycznego lub jeszcze lepiej, zwiększając wielkość próby.

Podsumowując: chociaż rozkład normalny ma zerowe pochylenie, fakt, że dane są wypaczone, nie wyklucza normalnego rozkładu jako użytecznego modelu, choć sugeruje, że niektóre inne rozkłady mogą być bardziej odpowiednie. Wybierając model, należy wziąć pod uwagę inne właściwości danych, oprócz przekrzywienia, a także rozważyć cele, dla których zamierzasz użyć modelu. Można śmiało powiedzieć, że twoja prawdziwa populacja czasów oglądania nie jest dokładnie zgodna z jakąś znaną, nazwaną dystrybucją, ale to nie znaczy, że taka dystrybucja jest skazana na bycie bezużytecznym jako model. Jednak dla niektórych celów możesz po prostu użyć samego rozkładu empirycznego, zamiast próbować dopasować do niego rozkład standardowy.





2

Co powiesz na model z przeszkodą?

Model przeszkody składa się z dwóch części. Pierwszym z nich jest eksperyment Bernoulli, który określa, czy w ogóle korzystasz z YouTube. Jeśli nie, to czas użytkowania jest oczywiście zerowy i gotowe. Jeśli to zrobisz, „przejdziesz tę przeszkodę”, wtedy czas użytkowania pochodzi z innej ściśle pozytywnej dystrybucji.

Blisko spokrewnioną koncepcją są modele z napompowaniem zerowym. Mają one na celu radzenie sobie z sytuacją, w której obserwujemy wiązkę zer, ale nie można rozróżnić między zawsze zerami a czasami zerami. Weźmy na przykład liczbę papierosów, które osoba pali codziennie. W przypadku osób niepalących liczba ta wynosi zawsze zero, ale niektórzy palacze mogą nie palić w danym dniu (z papierosów? Podczas długiego lotu?). W przeciwieństwie do modelu z przeszkodami, tutaj rozkład „palaczy” powinien obejmować zero, ale liczby te są „zawyżone” również przez udział osób niepalących.


0

Jeśli rozkład jest rzeczywiście „podzbiorem” rozkładu normalnego, należy rozważyć model skrócony. W tym kontekście szeroko stosuje się rodzinę modeli TOBIT.
Zasadniczo sugerują pdf z (dodatnią) masą prawdopodobieństwa przy 0, a następnie „cięcie części rozkładu normalnego” dla wartości dodatnich.
Powstrzymam się od wpisywania formuły tutaj i raczej odsyłam do artykułu w Wikipedii: https://en.wikipedia.org/wiki/Tobit_model


-4

Normalne rozkłady są z definicji nie wypaczone, więc nie można mieć obu rzeczy. Jeśli rozkład jest przekrzywiony w lewo, to nie może być gaussowski. Musisz wybrać inny! Najbliższą rzeczą, o której mogę pomyśleć, jest:

https://en.wikipedia.org/wiki/Skew_normal_distribution


5
Zgadzam się, z tym wyjątkiem, że OP mylą lewy i prawy skośność, jak już wskazano. I @behold już zasugerował w odpowiedzi odpowiedź na skośność. Nie widzę więc, by to dodawało do istniejących odpowiedzi.
Nick Cox,

Podsumowuje wielu z nich w prostej linii z trzema liniami
David

4
Przepraszam, ale to wciąż powtórzenie.
Nick Cox

OK ... kogo to obchodzi?
David

4
Cóż, ja tak; i ktokolwiek dodał +1 do moich komentarzy (oczywiście nie ja) i ktokolwiek głosował twoją odpowiedź (nie ja, jak to się zdarza). Ten wątek jest już długi i powtarzalny; jeszcze więcej zbędnych komentarzy nie poprawi tego dla przyszłych czytelników.
Nick Cox
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.