Paradoks wartości średniej - jak to się nazywa?


22

Mam zestaw danych. Powiedz obserwacji i zmienne:103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Powiedzmy, że to klientów, którzy kupili ( ) lub nie ( ) w każdej kategorii . Jest ich , więc tych klientów kupuje średnio w kategoriach produktów.1010A, B, C16101.6

Uwaga: klienci mogą kupować więcej niż jeden z A, B i C.

Jeśli spojrzę tylko na tych, którzy kupują A, jest klientów, którzy kupili w kategoriach produktów, więc średnio .591.8

Bjest ponownie lub .9/51.8

Cwynosi10/6=1.67.

Wszystkie powyżej1.6.

co wydaje się dziwne. Rozumiem to, ale muszę to wyjaśnić marketingowi w przyszłym tygodniu, więc potrzebuję pomocy!

Jak się nazywa ta rzecz?

Wiem, że to nie paradoks Simpsona. Dla mnie jest to logika podobna do problemu Monty Hall i prawdopodobieństwa warunkowego.


2
Osobiście nie mam pojęcia o czym mówisz. Dlaczego nie stworzyć tabeli awaryjnej As, Bs i Cs w celu zbadania wzorców zakupu?
Mike Hunter,

3
Mamy raporty, które mówią: „Klienci, którzy kupują C, są więcej niż przeciętni - 1,67 vs 1,6” Co jest prawdą, ale A i B są również warte więcej niż średnia. Na jakie powstanie nieuniknione pytanie „W jaki sposób wszyscy klienci mogą być więcej niż przeciętni”?
James Adams,

3
Myślę, że jego układanka polega na tym, że powierzchownie wygląda jak jezioro Wobegon, gdzie wszyscy są powyżej średniej: P Niech będzie liczbą kategorii / przedmiotów zakupionych przez klienta. Niech , i będą wskaźnikami zakupów odpowiednio w kategoriach A, B i C. , , i podczas gdyXABCE[XA]=1.8E[XB]=1.8E[XC]=1.67E[X]=1.6
Matthew Gunn

12
Możesz pomyśleć o zestawach komplementarnych i diagramach Venna. Zestawy „klienci kupujący A” i „klienci, którzy nie kupują A” nie nakładają się. Ale zestawy wymienione w pytaniu pokrywają się. Można obliczyć ogólną średnią jako (ważoną) średnią średnich podzbiorów tylko wtedy, gdy podzbiory tworzą partycję .
GeoMatt22

4
Czy jest to luźno podobne do paradoksu iluzji większości ? W ten sam sposób, w jaki każda osoba może być podłączona do super sieci, każda kategoria zakupów może zawierać super nabywcę? (Dzwonię do super networkera, kogoś, kto łączy się z wieloma osobami, a super nabywcą, który kupuje wiele różnych przedmiotów)
Matthew Gunn

Odpowiedzi:


28

Średnia każdej podkategorii może przekraczać ogólną średnią, jeśli podkategorie nakładają się na większych klientów.

Prosty przykład uzyskania intuicji:

  • Niech będzie wskaźnikiem, czy dana osoba kupiła przedmiot z kategorii A.A
  • Niech będzie wskaźnikiem, czy dana osoba kupiła przedmiot z kategorii B.B
  • Niech będzie liczbą zakupionych przedmiotów.X=A+B

PersonABi10ii01iii11

Zbiór osób, w których prawdziwe jest nakłada się na zbiór osób, w których prawdziwe jestNIE są to zestawy rozłączne.AB

Następnie podczas gdy iE[X]1.33E[XA]=1.5E[XB]=1.5

Stwierdzenie, które byłoby prawdziwe, brzmi:

P(A)E[XA]+P(B)E[XB]P(AB)E[XAB]=E[X]

231.5+231.5132=1.3333

Nie można po prostu obliczyć nazwa nazwa ponieważ zestawy i nakładają się, wyrażenie podwójnie liczy osobę kto kupuje zarówno pozycje i !P(A)E[XA]+P(B)E[XB]ABAB

Nazwa iluzji / paradoksu?

Twierdziłbym, że ma to związek z paradoksem iluzji większości w sieciach społecznościowych.

Możesz mieć jednego kolesia, który łączy w sieć / znajomych. Ta osoba może być jednym z miliona ogółem, ale będzie jednym z przyjaciół każdej osoby .k

Podobnie, masz 1 na 3, którzy kupują tutaj obie kategorie A i B. Ale w obu kategoriach A lub B, 1 na 2 nabywców jest super nabywcą.

Ekstremalna sprawa:

Stwórzmy zestawów losów lotto. Każdy zestaw zawiera dwa : bilet przegrany bilet wygranej w jackpocie.nSii

Średnia wygrana w każdym secie wynosi wtedy gdzie jest jackpotem. Średnia z każdej kategorii jest O DROGA powyżej średniej ogólnej wygranej na bilet .SiJ2JJn+1

To ta sama dynamika koncepcyjna, co w przypadku sprzedaży. Każdy zestaw zawiera w taki sam sposób, jak każda kategoria A, B lub C obejmuje dużych kupujących.Si

Moim dolnym punktem byłaby intuicja oparta na rozłącznych zestawach, pełny podział przestrzeni próbki nie przechodzi do szeregu nakładających się zbiorów. Jeśli warujesz nakładające się kategorie, każda kategoria może być powyżej średniej.

Jeśli podzielimy przykładową przestrzeń i warunek na zestawy rozłączne, wówczas kategorie muszą uśrednić się do ogólnej średniej, ale nie jest to prawdą w przypadku nakładających się zbiorów.


3
Dzięki! Myślę, że podwójne liczenie jest kluczem do wyjaśnienia. Nie sądzę jednak, że jest to wynik kilku ekstremalnych wartości. Mój przykładowy zestaw danych powyżej jest dość przyziemny, a efekt „wszystkich grup powyżej średniej” nadal występuje. Domyślam się, że tak się stanie w większości przypadków. Zastanawiałem się tylko, czy ma nazwę, czy poprzedni przykład.
James Adams,

To wytłumaczenie nie miałoby miejsca, gdyby dane analizowane przez @JamesAdams były wadliwe. Twierdzę, że tak jest. Nie można mieć wzajemnie wykluczającego się i pełnego zestawu kategorii A, B i C, w których średnie grupowe są wyższe niż średnia wszystkich 3 wziętych razem, bez naruszenia fundamentalnych założeń analizy danych. W twoim przypadku najprawdopodobniej mianownik dla ogólnej średniej różni się (np. Zawiera więcej respondentów) od tych, które posłużyły do ​​oszacowania średnich dla A, B i C.
Mike Hunter

2
@DJohnson Oczywiście masz rację, jeśli zestawy A, B i C dzielą przestrzeń próbki. Mój odczyt pytania i dostarczonych „danych” (cokolwiek to jest) jest taki, że A, B i C nakładają się na siebie . Jeśli A, B i C pokrywają się, wówczas średnie grupy mogą być wyższe niż ogólna średnia (co jest punktem mojej odpowiedzi; zestawy nakładają się na największych klientów!). Nic, co powiedział PO, nie jest wewnętrznie niespójne. Twój wykrywacz „otrzymujemy dane BS” może być jednak lepszy niż mój i zgadzam się, że zawsze ważne jest, aby zadawać krytyczne pytania dotyczące ważności danych / liczb.
Matthew Gunn

Tak, one nakładają się na siebie. Mój zestaw danych to miliony klientów i 12 kategorii. Kiedy zobaczyłem, że wszystkie moje średnie były wyższe niż ogólna średnia, pomyślałem, że wygląda to dziwnie, ale można to wytłumaczyć. Złożyłem przykładowy zestaw 10 obs i 3 kategorii, aby go zobaczyć. Właśnie rozrzuciłem tutaj jedynki i zera i wyszło tak samo. Podejrzewam, że dzieje się tak w przypadku większości zestawów danych, w których obliczany jest ten typ średniej. @Djohnson mój przykład powyżej, że używam 10 jako mianownika ogólnej średniej, 5 dla As, 5 dla Bs, 6 dla Cs. Czy możesz mi powiedzieć, co naruszam w tym przykładzie?
James Adams,

Co oznacza „10”? Sieć respondentów we wszystkich 3 kategoriach? Co stanie się ze średnimi, jeśli użyjesz tego samego mianownika dla wszystkich? Powinny zwracać średnie, które wahają się wokół wielkiego środka.
Mike Hunter,

10

Nazwałbym to paradoksem wielkości rodziny lub czymś podobnym

Załóżmy, że dla prostego przykładu wszyscy mieli jednego partnera i liczbę dzieci rozłożoną przez Poissona z parametrem :2

  • Średnia liczba dzieci na osobę wynosiłaby2
  • Średnia liczba dzieci na osobę z dziećmi wyniosłaby21e22.313
  • Średnia wielkość grupy rodzeństwa dla każdej osoby (licząc ich braci i siostry oraz siebie samych) wynosiłaby3

Rzeczywiste liczby demograficzne i ankietowe dają różne liczby, ale podobne wzory

Pozorny paradoks polega na tym, że średnia wielkość grup rodzeństwa poszczególnych osób jest większa niż średnia liczba dzieci na rodzinę; przy stabilnej dynamice populacji ludzie zwykle mają mniej dzieci niż ich rodzice

Wyjaśnieniem jest to, czy średnia jest przejmowana od rodziców i rodzin, czy od rodzeństwa: dla dużych rodzin stosuje się różne wagi. W twoim przykładzie istnieje różnica między ważeniem według osób lub zakupami; Twoje średnie warunkowe są zwiększane przez fakt, że warunkujesz przy konkretnym zakupie.


8

Inne odpowiedzi są nadrzędne wobec tego, co się dzieje. Załóżmy, że jest jeden produkt i dwóch klientów. Jeden kupił produkt (raz), a drugi nie. Średnia liczba zakupionych produktów wynosi 0,5, ale jeśli spojrzeć tylko na klienta, który kupił produkt, średnia wzrasta do 1.

Nie wydaje mi się to paradoksem ani sprzecznością z intuicją; uwarunkowanie zakupu produktu ogólnie podnosi średnią liczbę zakupionych produktów.


Dokładnie. Zakładając, że zakupy w każdej z 3 kategorii nie są silnie skorelowane, obliczane są średnie po zwiększeniu stopy zakupu do 100% w jednej z kategorii. Prawdopodobnie lepiej byłoby porównać np. średnia stopa zakupów w kategoriach B i C: a) wśród wszystkich klientów (11/20) b) wśród tych, którzy kupili A (4/10). To zależy od tego, co próbujesz pokazać / znaleźć.
konrad

2

Czy nie jest to jedynie zamaskowanie „średniej średnich” (np. Poprzednie pytanie o zmianę stosu )? Twoja pokusa wydaje się być taka, że ​​średnie z podpróbek powinny kończyć się uśrednieniem do średniej populacji, ale rzadko się to zdarza.

W klasycznej „średniej średnich” ktoś znajduje średnią z N wzajemnie wykluczających się podzbiorów, a następnie jest zaskoczony, że te wartości nie są uśredniane względem średniej populacji. Jedyny sposób, w jaki działa ta średnia średnich, jest taki, że nie nakładające się podzbiory mają ten sam rozmiar. W przeciwnym razie musisz wziąć średnią ważoną.

Twój problem jest bardziej złożony niż ta tradycyjna średnia pomyłek ze względu na nakładające się podzbiory, ale wydaje mi się, że to tylko klasyczny błąd z niespodzianką. W przypadku nakładających się podzbiorów jeszcze trudniej jest uzyskać średnie podpróbowe, które są średnie do średniej populacji.

W twoim przykładzie, ponieważ użytkownicy, którzy pojawiają się w wielu podpróbkach (i dlatego kupili wiele rzeczy), zwiększą te średnie. Zasadniczo liczysz każdego dużego wydawcę wiele razy, podczas gdy oszczędni ludzie, którzy kupują tylko jeden przedmiot, spotykają się tylko raz, więc jesteś nastawiony na większe wartości. Właśnie dlatego twoje poszczególne podzbiory mają wartości powyżej średniej, ale myślę, że wciąż jest to tylko problem „średniej średnich”.

Możesz również konstruować wszelkiego rodzaju inne podzbiory na podstawie danych, w których średnie podpróbkowe przyjmują różne wartości. Na przykład, weźmy podzbiory nieco podobne do twoich podzbiorów. Jeśli wziąć podzbiór ludzi, którzy nie kupić, masz 7/5 = 1,4 przedmiotów na średniej. Przy podzbiorze, który nie kupił B, otrzymujesz również średnio 1,4 pozycji. Ci, którzy nie kupili C, kupili średnio 1,5 przedmiotu. Wszystkie są poniżej średniej populacji wynoszącej 1,6 pozycji / klienta. Biorąc pod uwagę odpowiedni zestaw danych i odpowiedni zbiór podzbiorów, możesz skończyć z nakładającymi się podzbiorami, których średnie są średnie do średniej populacji; byłoby to jednak rzadkie w normalnych zastosowaniach.

Czy to tylko ja, czy też słowo średnia wydaje się teraz dziwne po tylu powtórzeniach ... Mam nadzieję, że moja odpowiedź była pomocna i przepraszam, jeśli zepsułem dla ciebie słowo średnia!


Dzięki! Komentarz na temat niezachodzących na siebie partycji tego samego rozmiaru wyjaśnił mi to. Miałem nadzieję, że kiedy przedstawię te liczby, mogę powiedzieć coś w stylu „Wszystkie średnie kategorii są wyższe niż ogólna średnia, ale to paradoks Blahblah”. Na przykład, gdy mówisz „Paradoks Simpsona !, Seksizm z Bluszczowej Ligi!” a potem wybiegnie z pokoju. (Wszyscy to czasem robicie, prawda?) Chciałbym im powiedzieć „To dlatego, że pokrywają się podzbiory o różnych rozmiarach”, ale nie sądzę, że to się skończy!
James Adams,

1
Haha, w porządku. Nie znałem wcześniej całkowicie kontekstu - jestem studentem astrofizyki, więc nie znam go zbyt dobrze. Można by powiedzieć krótko: „Wszystkie średnie dla podzbiorów są wyższe niż ogólna średnia, ponieważ w ten sposób sprawiliśmy, że podzbiory nastawiają nas na większe wartości”. Nie wspominałbym o średniej średnich nazw, ponieważ nie jest ona tak dobrze znana, a twoja sprawa jest jak uogólnienie. Spróbowałbym również znaleźć synonim, który zastąpiłby kategorie słów - ogólnie widzę to słowo sugerujące wzajemnie wykluczające się podzbiory.
dzwonił

Nasycenie semantyczne jest zjawiskiem psychologicznym, w którym powtórzenie powoduje, że słowo lub fraza tymczasowo tracą znaczenie dla słuchacza, który następnie postrzega mowę jako powtarzające się pozbawione znaczenia dźwięki.
Patrick,

1

Ponieważ chodzi o to, „ rozumiem to, ale muszę to wyjaśnić marketingowi ”, OP wydaje się zaniepokojony tym, jak laik zinterpretuje te fakty - (nie to, czy fakty są prawdziwe, ani jak to udowodnić). Pytanie dotyczy 10 kategorii produktów (AJ), więc co z tym przykładem:

[w spotkaniu z grupą marketingową]
OP : Jak widać tutaj , klienci kupujący A, B i C są bardziej wartościowi niż przeciętni.
Layman : Czekaj ?! Jak każdy może być wyższy niż średnia?
OP : Dobre pytanie. Ten slajd koncentruje się na klientach A, B i C, ale są też inne grupy o niskiej skuteczności, których nie pokazano. Na przykład klienci kategorii D i G są warte około połowy średniej.

Powinno to stłumić wewnętrzny alarm bs wszystkich o tym, że „wszystko jest powyżej średniej”.


To nie jest sposób na odpowiedź na pytanie.
Michael R. Chernick,

Odpowiedzi na jego pytanie, ale nikt nie zajął się jego problemem.
Patrick,

Mój komentarz dotyczył tylko odpowiedzi Patryka.
Michael R. Chernick,

Nie widzę żadnej reguły przeciwko różnym stylom odbierania. Zgłaszanie (prawdziwych lub wymyślonych) dyskusji i rozmów to uświęcony czas sposób na przemyślenie kwestii od Sokratesa (i przed nim o ile wiem).
Nick Cox,

Ale to wyjaśnienie jest błędne. Nawet przy braku dalszych kategorii (DJ) obserwacja pozostaje prawdziwa: średnie nakładających się podzbiorów mogą być wyższe niż średnia dla całego zestawu, nawet jeśli podzbiory obejmują cały zestaw.
isarandi

0

Zignoruj ​​inne odpowiedzi tutaj. To wcale nie jest paradoks. Rzeczywisty problem pod ręką tutaj, które wszyscy zdają się ignorować to, że jesteś pomylenia których prawdopodobieństwo jesteś rzeczywiście patrząc na. W rzeczywistości istnieją tutaj dwie zupełnie różne średnie i statystyki, które mają własne zastosowania i interpretacje w proponowanym przykładzie (marketing)!

Po pierwsze, średnia liczba produktów zakupionych na klienta. Średnio jeden klient kupuje 1,6 pozycji. Oczywiście klient nie może tylko 0,6 produktu (zakładając, że nie jest to coś takiego jak ryż lub zboże, które ma ciągły pomiar związany z nim).

Po drugie, istnieje średnia liczba klientów, którzy kupują dany produkt. Brzmi dziwnie, prawda? Średnio produkt ma 5.33333333 ... klientów, którzy go kupują. Jednak jest inaczej. Opisujemy tutaj nie liczbę zakupionych produktów (są ich tylko trzy!), Ale liczbę osób faktycznie kupujących ten produkt.

Pomyśl o tych dwóch wartościach w ten sposób: Co te dwie wartości reprezentowałyby, gdyby był tylko jeden klient lub tylko jeden produkt? W końcu średnia pojedynczego punktu danych jest tylko tym danym punktem danych.

Albo jeszcze lepiej, pomyśl o wykresie, który podaje kwoty w dolarach wydane na zakup produktu. Oczywiście średnia kwota wydana przez indywidualnego klienta będzie znacznie mniejsza niż średnia kwota zarobiona przez produkt dostarczony przez dużą korporację (lub nawet małą firmę). Jestem pewien, że możesz wymyślić dobre sposoby wykorzystania obu wartości podczas omawiania dobrobytu firmy.

Kiedy idziesz, aby wyjaśnić to pracownikom marketingu, wyjaśnij im to tak, jak powiedziałem. To nie jest paradoks. To po prostu zupełnie inna statystyka. Jedynym problemem tutaj było zauważenie, że w rzeczywistości istnieją dwa różne sposoby odczytywania wykresu (tj. Liczba osób kupujących na produkt w porównaniu do liczby produktów zakupionych na osobę).

tl; dr pierwszą rzeczą, którą opisałeś, jest średnia kwota, jaką klient jest skłonny wydać na zakup twoich produktów. Drugi to średnie zapotrzebowanie na dany produkt przez społeczeństwo. Jestem pewien, że teraz rozumiesz, dlaczego oba z pewnością nie są tym samym. Porównując je jako takie, otrzymasz tylko informacje na temat śmieci.


EDYTOWAĆ

Wygląda na to, że pytanie dotyczy w rzeczywistości średnich pieniędzy wydawanych przez klientów, którzy kupują jakiś produkt a, b lub c. W porządku. To właściwie tylko błąd w obliczeniach. Nie nazwałbym tego paradoksem. To naprawdę tylko subtelny flub.

Spójrz na swoje kolumny. Istnieją osoby, które są współużytkowane między kolumnami. Załóżmy, że zrobiłeś właściwą średnią ważoną . Wciąż dodajesz ludzi dwa razy. Oznacza to, że średnia będzie zawierać dodatkowe osoby o wartości większej lub równej 2. A jaka była Twoja średnia? To było 1.6! W gruncie rzeczy Twoja średnia wygląda następująco:

i=0nvalueOfPersonivalueOfPersonin

To zdecydowanie nieodpowiednia formuła. Jest to średnia ważona, ale przy założeniu wzajemnej wyłączności, w taki sposób dostosowujesz się, aby uzyskać prawdziwą średnią w swojej sytuacji.

i=0nnumberOfPeopleBuyingiaverageSpentByPersonBuyingin

Tak czy inaczej, otrzymasz pomieszaną średnią. Jednym błędem było ignorowanie potrzeby średniej ważonej, ponieważ jedna kategoria ma większą „wagę” pod względem średniej. To jest jak gęstość. Jedna wartość jest gęstsza w ludziach reprezentuje. Innym problemem jest duplikowanie dodawania, które zniekształci średnią. Jednak nie nazywam żadnego z tych „paradoksów”. Gdy zobaczyłem, co robisz, wydawało mi się oczywiste, dlaczego to nie zadziała. Średnia ważona jest dość oczywista ze względu na jej potrzebę i myślę, że teraz widzicie, że dodawaliście wartości wiele razy ... to nie może działać. Zasadniczo wziąłeś średnią kwadratów ich wartości.


Nie sądzę, że tak jest. Nie interesuje mnie, ile osób kupuje dany produkt. Interesuje mnie, ile wszystkich produktów kupił klient, biorąc pod uwagę, że kupił A.
James Adams,

@JamesAdams Wszystko w porządku. W takim przypadku sprawa jest jeszcze bardziej trywialna. Po prostu bierzesz średnio podzbiór próbki. Teoretycznie, jeśli zrobiłbyś to samo z B i C, ostateczna średnia nie byłaby rzeczywistą średnią. Wynika to jednak z nierówności próbek. To wszystko. W rzeczywistości nie widzę powodu, dla którego byłoby to oczywiste dla osoby. W rzeczywistości istnieje rozwiązanie problemu ustalania średnich, aby uzyskać odpowiednią średnią. Nazywa się to średnią ważoną i po prostu „ważymy” każdą podśrednią liczbą osób w tej grupie. Ma sens?
The Great Duck

@JamesAdams i wiem, że nie jesteś tym zainteresowany. Jesteś matematyką, która, jak twierdziłeś, stworzyła paradoks wykorzystany do obliczenia średniej liczby produktów na osobę. Właśnie dlatego w tej odpowiedzi podkreślam, że istnieje druga średnia dla innej statystyki, a twój „błąd” polegał na próbie ustalenia jej zupełnie innej średniej.
The Great Duck
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.