„Czy jest lepsze słowo dla tej dystrybucji?”
Warto tu rozróżnić między używaniem słów do opisania właściwości rozkładu, a próbą znalezienia „nazwy” dla dystrybucji, aby można ją było zidentyfikować jako (w przybliżeniu) instancję określonego rozkładu standardowego: dla której formuła lub mogą istnieć tabele statystyczne dla jego funkcji rozkładu i dla których można oszacować jej parametry. W tym ostatnim przypadku prawdopodobnie używasz nazwanego rozkładu, np. „Normalny / gaussowski” (te dwa terminy są na ogół synonimami), jako modelu, który przechwytuje niektóre kluczowe cechy twoich danych, zamiast twierdzić, że populacja twoich danych to zaczerpnięte z dokładnie tego teoretycznego rozkładu. Aby nieco źle napisać George Box,wszystkie modele są „złe”, ale niektóre są przydatne. Jeśli zastanawiasz się nad podejściem do modelowania, warto zastanowić się, jakie funkcje chcesz zastosować i jak skomplikowany lub oszczędny ma być Twój model.
Będąc pozytywnie pochylona jest przykładem opisującym właściwość, że rozkład ma, ale nie zbliży się do określania, które off-the-shelf dystrybucja jest „” odpowiedni model. Wyklucza to niektórych kandydatów, na przykład rozkład Gaussa (tj. Normalny) ma zerowe pochylenie, więc nie będzie właściwe modelowanie danych, jeśli pochylenie jest ważną cechą. Mogą istnieć również inne właściwości danych, które są dla Ciebie ważne, np. Że są one jednomodalne (ma tylko jeden pik) lub że są ograniczone od 0 do 24 godzin (lub od 0 do 1, jeśli piszesz je ułamkowo dnia) lub że masa prawdopodobieństwa jest skoncentrowana na zerze (ponieważ są ludzie, którzy w ogóle nie oglądają youtube w danym dniu).kurtoza . I warto pamiętać, że nawet jeśli twój rozkład miał kształt „garbu” lub „krzywej dzwonowej” i miał pochylenie zerowe lub prawie zerowe, nie wynika automatycznie, że rozkład normalny jest dla niego „poprawny”! Z drugiej strony, nawet jeśli populacja, z której pochodzą twoje dane, faktycznie przypadała dokładnie według określonego rozkładu, z powodu błędu próbkowaniaTwój zestaw danych może nie do końca przypominać. Małe zestawy danych prawdopodobnie będą „hałaśliwe” i może nie być jasne, czy pewne cechy, które widzisz, np. Dodatkowe małe garby lub asymetryczne ogony, są właściwościami populacji, z której dane zostały pobrane (i być może dlatego powinny zostać uwzględnione w twoim modelu) lub czy są to tylko artefakty z konkretnej próbki (i do celów modelowania należy je zignorować). Jeśli masz mały zestaw danych, a pochylenie jest bliskie zeru, wówczas jest prawdopodobne, że rozkład leżący u jego podstaw jest w rzeczywistości symetryczny. Im większy zestaw danych i większy skośność, tym mniej prawdopodobne staje się to - ale chociaż można przeprowadzić test istotności, aby przekonać się, jak przekonujące są dowody świadczące o skośności w populacji, z której został pobrany, może brakować punktu, czy normalny (lub inny rozkład zerowy) jest odpowiedni jako model ...
Jakie właściwości danych naprawdę mają znaczenie dla celów, w których zamierzasz je modelować? Zauważ, że jeśli pochylenie jest dość małe i nie przejmujesz się nim zbytnio, nawet jeśli podstawowa populacja jest naprawdę wypaczona , to może się okazać, że rozkład normalny jest przydatnym modelem do przybliżenia tego prawdziwego rozkładu czasów oglądania. Ale powinieneś sprawdzić, czy to nie kończy się głupimi przewidywaniami. Ponieważ rozkład normalny nie ma najwyższej ani najniższej możliwej wartości, to mimo że ekstremalnie wysokie lub niskie wartości stają się coraz bardziej mało prawdopodobne, zawsze okaże się, że Twój model przewiduje, że pewneprawdopodobieństwo oglądania przez ujemną liczbę godzin dziennie lub ponad 24 godziny. Staje się to bardziej problematyczne, jeśli przewidywane prawdopodobieństwo takich niemożliwych zdarzeń stanie się wysokie. Rozkład symetryczny, taki jak normalny, pozwoli przewidzieć, że jak wiele osób będzie obserwować przez dłuższy czas ponad 50% powyżej średniej, podobnie jak mniej niż 50% poniżej średniej. Jeśli czasy oglądania są bardzo wypaczone, ten rodzaj przewidywania może być tak nieprawdopodobny, że jest głupi, i daje mylące wyniki, jeśli bierzesz wyniki swojego modelu i używasz ich jako danych wejściowych do innych celów (na przykład przeprowadzam symulację czasu oglądania w celu obliczenia optymalnego harmonogramu reklamy). Jeśli skośność jest tak godna uwagi, że chcesz uchwycić ją jako część modelu, toskośny rozkład normalny może być bardziej odpowiedni. Jeśli chcesz uchwycić zarówno skośność, jak i kurtozę, rozważ skośne t . Jeśli chcesz uwzględnić fizycznie możliwe górne i dolne granice, rozważ użycie skróconych wersji tych dystrybucji. Istnieje wiele innych rozkładów prawdopodobieństwa, które mogą być wypaczone i nieimodalne (dla odpowiednich wyborów parametrów), takie jak rozkłady F lub gamma , i ponownie można je obciąć, aby nie przewidywały niemożliwie wysokich czasów oglądania. Dystrybucja betamoże być dobrym wyborem, jeśli modelujesz ułamek dnia spędzonego na oglądaniu, ponieważ jest to zawsze ograniczone od 0 do 1 bez konieczności dalszego obcinania. Jeśli chcesz uwzględnić stężenie prawdopodobieństwa dokładnie na poziomie zerowym ze względu na osoby niebędące obserwatorami, rozważ zbudowanie modelu przeszkodowego .
Ale w momencie, gdy próbujesz wprowadzić każdą funkcję, którą możesz zidentyfikować na podstawie swoich danych, i zbudować coraz bardziej wyrafinowany model, być może powinieneś zadać sobie pytanie, dlaczego to robisz? Czy korzystny byłby prostszy model, na przykład łatwiejsza praca z matematyczną lub posiadająca mniej parametrów do oszacowania? Jeśli obawiasz się, że takie uproszczenie sprawi, że nie będziesz w stanie uchwycić wszystkich właściwości, które Cię interesują, być może żadna dystrybucja „z półki” nie robi tego, co chcesz. Nie jesteśmy jednak ograniczeni do pracy z nazwanymi dystrybucjami, których właściwości matematyczne zostały wcześniej wyjaśnione. Zamiast tego rozważ wykorzystanie danych do zbudowania empirycznej funkcji dystrybucji. Spowoduje to uchwycenie wszystkich zachowań, które były obecne w twoich danych, ale nie możesz już nadać mu nazwy takiej jak „normalna” lub „gamma”, ani nie możesz zastosować właściwości matematycznych, które odnoszą się tylko do określonego rozkładu. Na przykład reguła „95% danych mieści się w zakresie 1,96 odchyleń standardowych od średniej” dotyczy normalnie dystrybuowanych danych i może nie mieć zastosowania do Twojej dystrybucji; należy jednak pamiętać, że niektóre zasady mają zastosowanie do wszystkich dystrybucji, np . co najmniej gwarancje nierówności Czebyszewa75% twoich danych musi mieścić się w dwóch standardowych odchyleniach średniej, niezależnie od pochylenia. Niestety rozkład empiryczny odziedziczy również wszystkie właściwości zestawu danych wynikające wyłącznie z błędu próbkowania, nie tylko te posiadane przez populację podstawową, więc może się okazać, że histogram rozkładu empirycznego zawiera garby i spadki, których sama populacja nie ma . Możesz zbadać wygładzone funkcje rozkładu empirycznego lub jeszcze lepiej, zwiększając wielkość próby.
Podsumowując: chociaż rozkład normalny ma zerowe pochylenie, fakt, że dane są wypaczone, nie wyklucza normalnego rozkładu jako użytecznego modelu, choć sugeruje, że niektóre inne rozkłady mogą być bardziej odpowiednie. Wybierając model, należy wziąć pod uwagę inne właściwości danych, oprócz przekrzywienia, a także rozważyć cele, dla których zamierzasz użyć modelu. Można śmiało powiedzieć, że twoja prawdziwa populacja czasów oglądania nie jest dokładnie zgodna z jakąś znaną, nazwaną dystrybucją, ale to nie znaczy, że taka dystrybucja jest skazana na bycie bezużytecznym jako model. Jednak dla niektórych celów możesz po prostu użyć samego rozkładu empirycznego, zamiast próbować dopasować do niego rozkład standardowy.