Obliczanie rozkładu z wartości min, średniej i maks

Załóżmy, że mam minimum, średnią i maksimum niektórych zbiorów danych, powiedzmy 10, 20 i 25. Czy istnieje sposób na:

utworzyć dystrybucję na podstawie tych danych oraz
wiedzieć, jaki procent populacji prawdopodobnie leży powyżej lub poniżej średniej

Edytować:

Zgodnie z sugestią Glen'a załóżmy, że mamy próbkę o wielkości 200.

— użytkownik132053
źródło

(1) jest łatwe, ponieważ istnieje wiele rozwiązań. (2) najlepiej zrobić w kontekście niektórych założeń dotyczących kształtu dystrybucyjnego, ponieważ w przeciwnym razie wszystko, co można uzyskać, to granice matematyczne.

— whuber

Do tej pory jesteś dosłownie brany pod uwagę w komentarzach i odpowiedziach, ale konieczną ostrożnością (chyba milczącą w uwagach @ whubera) jest to, że istnieje tyle dystrybucji zgodnych z takimi informacjami, że nie powinieneś wnioskować, że masz wystarczającą ilość informacji zrobić to w ogóle dobrze lub niezawodnie. W szczególności, jeśli nawet nie znasz wielkości próbki, nie możesz wiele zrobić, nawet myśleć o niepewności.

— Nick Cox,

Kiedy pytasz o odsetek populacji, który „leży powyżej lub poniżej średniej” ... czy pytasz w odniesieniu do średniej próby lub średniej populacji? Czy mówimy o zmiennych ciągłych czy dyskretnych? Czy znamy wielkość próbki?

— Glen_b

Odpowiedzi:

Mam minimum, średnią i maksimum niektórych zbiorów danych, powiedzmy 10, 20 i 25. Czy istnieje sposób na:

utworzyć dystrybucję na podstawie tych danych oraz

Istnieje nieskończona liczba możliwych rozkładów, które byłyby zgodne z tymi wielkościami próbek.

wiedzieć, jaki procent populacji prawdopodobnie leży powyżej lub poniżej średniej

Przy braku pewnych prawdopodobnych nieuzasadnionych założeń, nie ogólnie - przynajmniej nie z dużym wyczuciem, że będzie to miało sens. Wyniki zależeć będą w dużej mierze od twoich założeń (same wartości nie zawierają zbyt wielu informacji, chociaż niektóre konkretne ustalenia dostarczają użytecznych informacji - patrz poniżej).

Nie jest trudno wymyślić sytuacje, w których odpowiedzi na pytanie proporcjonalne mogą być bardzo różne. Kiedy istnieją bardzo różne możliwe odpowiedzi zgodne z informacjami, skąd miałbyś wiedzieć, w jakiej jesteś sytuacji?

Więcej szczegółów może dać pomocne wskazówki, ale w obecnej postaci (nawet bez próby, choć prawdopodobnie wynosi co najmniej 2 lub 3, jeśli średnia nie znajduje się w połowie drogi między punktami końcowymi *), niekoniecznie będziesz miał dużą wartość w tym pytaniu . Możesz próbować uzyskać granice, ale w wielu przypadkach nie zawężą one zbyt wiele.

* w rzeczywistości, jeśli średnia jest zbliżona do jednego punktu końcowego, można uzyskać dolną granicę wielkości próby. Na przykład, jeśli zamiast 10,20,25 dla min / średniej / maksimum miałeś 10 24 25, to musiałoby wynosić co najmniej 15, i sugerowałoby to również, że większość populacji była powyżej 24; to jest coś. Ale jeśli powiedzmy 10,18,25, znacznie trudniej jest uzyskać użyteczne pojęcie o wielkości próbki, nie mówiąc już o proporcji poniżej średniej. $n$

— Glen_b - Przywróć Monikę
źródło

@DJohnson Nie sądzę, że to hiperboliczny - to dosłownie prawda (chociaż nasza zdolność do ich umieszczenia na liście może się nie powieść po kilku tysiącach, a nasza zdolność do kontynuowania umieszczania ich na liście może zawieść po kilkudziesięciu, to nie znaczy, że nie ma innych zestawów założeń, na podstawie których moglibyśmy działać). W moim sformułowaniu nie było zamiaru protekcjonalności - celowo wybrano, aby faktycznie wskazywało prawdziwy zakres możliwych zestawów założeń. Co chciałbyś, żebym napisał?

— Glen_b

1. Jaki jest powód ograniczenia możliwości maksymalnie do dwóch parametrów? Co się stanie, jeśli na przykład dane zostaną pobrane z logarytmicznego parametru trzech parametrów? W wielu przypadkach nie możemy oszacować wszystkich parametrów na podstawie danych, ale jest to część problemu, który staram się tam zmotywować (dotyczy to dyskusji nad założeniami. 2. Johnson i Kotz to podzbiór nazw, które ludzie nazwali / pracowałem, nie ograniczając się do możliwych założeń . Wymyśliłem wiele dystrybucji, których nie ma w Johnson i Kotz, i ... ctd

— Glen_b -Reinstate Monica

ctd ... Jestem prawie pewien, że nie wszyscy zostali tutaj wykluczeni. Nawet bez nieokreślonych parametrów istnieje nieskończona liczba możliwych plików cdf, których nieokreślony podzbiór nie zostałby wykluczony przez określone informacje.

— Glen_b

@Djohnson Bez względu na zakres wszelkich pozostałych sporów, doceniam twoje pomocne komentarze. Zastanowię się, czy przynajmniej jaśniej wskazać to, co naprawdę mówię (moje rzeczywiste twierdzenie jest w stanie udowodnić, gdyby było to konieczne, ale być może mogę przynajmniej jasno to wyrazić) i czy powinno być tam inaczej sformułowane.

— Glen_b

@DJohnson Weź dwie różne dystrybucje spełniające warunki: dowolna mieszanina dwóch nadal będzie spełniać wspomniane warunki. To dosłownie nieskończoność: niezliczona.

— Elvis

Jak już zauważył Glen_b , istnieje nieskończenie wiele możliwości. Spójrz na następujące wykresy, pokazują one osiem różnych rozkładów, które mają takie same wartości minimalne, maksymalne i średnie.

Zauważ, że bardzo się od siebie różnią. Pierwszy jest jednolity, czwarty jest bimodalną mieszanką rozkładów trójkątnych, siódmy ma największą masę prawdopodobieństwa skoncentrowaną wokół centrum, ale wciąż możliwe są min i maks z bardzo małym prawdopodobieństwem, osiem jest dyskretne i ma tylko dwie wartości na min i na maksimum itp. .

Ponieważ wszystkie spełniają twoje kryteria, możesz użyć dowolnego z nich do symulacji. Jednak twój subiektywny wybór miałby bardzo głęboki wpływ na wynik symulacji. Chcę powiedzieć, że jeśli min, maks i średnia to tak naprawdę jedyna rzecz, którą wiesz o rozkładzie, to masz niewystarczające informacje do przeprowadzenia symulacji, jeśli naprawdę chcesz naśladować rzeczywisty (nieznany) rozkład.

Więc trzeba zadać sobie pytanie, co należy wiedzieć o dystrybucji? Czy to dyskretne czy ciągłe? Symetryczny czy przekrzywiony? Jednomodalny czy bimodalny? Jest wiele rzeczy do rozważenia. Jeśli jest ciągły, nierównomierny i nieimodalny, a znasz tylko minimalną, maksymalną i średnią, to jednym z możliwych wyborów jest rozkład trójkątny - jest bardzo mało prawdopodobne, że coś w prawdziwym życiu ma taki rozkład, ale przynajmniej używasz czegoś prostego i nie narzucając zbyt wielu założeń dotyczących jego kształtu.

— Tim
źródło

Gdybym więc przyjął rozkład trójkątny, mógłbym również obliczyć ten tryb na podstawie moich bieżących informacji. Czy to pomogłoby?

— user132053,

@ user132053 potrzebujesz tylko wartości minimalnej, maksymalnej i średniej. Wzór na średnią rozkładu trójkątnego to (a + b + c) / 3, którą możesz rozwiązać dla trybu za pomocą prostej arytmetyki.

— Tim

Zasada oparta na zakresie obliczania odchylenia standardowego jest szeroko cytowana w literaturze statystycznej (tutaj jest jeden odnośnik ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Zasadniczo jest to (maks. Min) / 4. Jest to bardzo przybliżone oszacowanie.

Biorąc pod uwagę tę informację i chęć przyjęcia normalnie rozłożonych danych, odchylenia normalne można wygenerować z dwóch liczb, średniej i odchylenia standardowego na podstawie zakresu. To powiedziawszy, każdy jeden lub dwuparametrowy rozkład może być generowany z tych dwóch informacji, o ile rozkład ten był zakorzeniony w pierwszej lub drugiej chwili.

Szacowany współczynnik zmienności można również uzyskać, przyjmując stosunek SD / średniej. Zapewniłoby to proxy dla jednostkowej zmienności danych.

Błąd bardziej poprawnie odnosi się do rozkładu próby populacji i wymaga oszacowania wielkości próby n . Twój opis nie zawiera tych szczegółów.

— Mike Hunter
źródło

Niektóre rzeczy warte odnotowania: (1) Średnia potencjalnie daje więcej informacji, które powinny zastąpić zasadę (maks. Min) / 4. (2) Ponieważ podane są trzy informacje, użycie tylko rodziny dwuparametrowej pozostawia ogólny stopień elastyczności.

— whuber

@whuber Masz dwa aluzyjne komentarze do tego wątku. Byłoby wspaniale, gdybyś opracował je i udzielił odpowiedzi.

— Mike Hunter,