Jakich dobrych podstawowych statystyk użyć do danych porządkowych?

67

Mam pewne porządkowe dane uzyskane z pytań ankiety. W moim przypadku są to odpowiedzi w stylu Likerta (zdecydowanie nie zgadzam się, nie zgadzam się, neutralnie zgadzam się, zdecydowanie zgadzam się). W moich danych są one zakodowane jako 1-5.

Nie sądzę, żeby środki miały tu wiele znaczenia, więc jakie podstawowe statystyki podsumowujące są uważane za przydatne?

descriptive-statistics likert ordinal-data

— PaulHurleyuk
źródło

2

Typowe wybory obejmują - mediany, tryby, proporcje lub skumulowane proporcje w każdej grupie

— Glen_b

29

Tabela częstotliwości to dobre miejsce na rozpoczęcie. Możesz wykonać zliczanie i częstotliwość względną dla każdego poziomu. Przydatna może być również całkowita liczba i liczba brakujących wartości.

Możesz także użyć tabeli kontyngencji, aby porównać dwie zmienne jednocześnie. Może wyświetlać również za pomocą mozaiki.

— Neil McGuigan
źródło

32

Będę argumentować z przyjętej perspektywy, że średnia jest często najlepszym wyborem do podsumowania głównej tendencji elementu Likerta. W szczególności myślę o kontekstach, takich jak badania satysfakcji studentów, skale badań rynku, badania opinii pracowników, elementy testów osobowości i wiele elementów badań społecznych.

W takich kontekstach konsumenci badań często chcą odpowiedzi na pytania takie jak:

Które stwierdzenia są mniej więcej zgodne w stosunku do innych?
Które grupy zgadzają się mniej więcej z danym stwierdzeniem?
Czy z czasem porozumienie wzrosło czy spadło?

Dla tych celów środek ma kilka zalet:

1. Średnia jest łatwa do obliczenia:

Łatwo jest zobaczyć związek między surowymi danymi a średnią.
Jest to pragmatycznie łatwe do obliczenia. W ten sposób środek można łatwo włączyć do systemów sprawozdawczych.
Ułatwia także porównywanie kontekstów i ustawień.

2. Średnia jest stosunkowo dobrze zrozumiała i intuicyjna:

Średnia jest często używana do zgłaszania centralnej tendencji pozycji Likerta. W ten sposób konsumenci badań częściej rozumieją środek (a zatem ufają mu i działają zgodnie z nim).
Niektórzy badacze wolą, być może, jeszcze bardziej intuicyjną opcję zgłaszania procentu próby odpowiadającego 4 lub 5. To znaczy, że ma ona stosunkowo intuicyjną interpretację „procentowej zgodności”. Zasadniczo jest to tylko alternatywna forma środka z 0, 0, 0, 1, 1kodowaniem.
Z biegiem czasu konsumenci badań tworzą ramy odniesienia. Na przykład, porównując wyniki nauczania z roku na rok lub z różnych przedmiotów, wykształcasz niuansowe poczucie tego, co oznacza wartość 3,7, 3,9 lub 4,1.

3. Średnia to pojedyncza liczba:

Pojedyncza liczba jest szczególnie cenna, gdy chcesz twierdzić, że „uczniowie byli bardziej zadowoleni z przedmiotu X niż z przedmiotu Y”.
Uważam również empirycznie, że pojedyncza liczba jest tak naprawdę główną informacją interesującą przedmiot Likerta. Odchylenie standardowe jest zwykle związane ze stopniem, w jakim średnia jest zbliżona do wyniku centralnego (np. 3,0). Oczywiście, empirycznie może to nie mieć zastosowania w twoim kontekście. Na przykład czytałem gdzieś, że gdy oceny You Tube miały system gwiezdny, istniała duża liczba ocen najniższych lub najwyższych. Z tego powodu ważne jest sprawdzenie częstotliwości kategorii.

4. To nie robi dużej różnicy

Chociaż formalnie go nie testowałem, postawiłbym hipotezę, że w celu porównania ocen tendencji centralnej między pozycjami lub grupami uczestników lub z biegiem czasu, każdy rozsądny wybór skalowania w celu wygenerowania średniej przyniosłby podobne wnioski.

— Jeromy Anglim
źródło

4

Niezły post! Czy masz jakieś przemyślenia na temat tego, w jaki sposób różne kultury / kraje mogą stosować skale Likerta, które drastycznie wpłynęłyby na tego rodzaju wyniki?

— Chase

@chase Są badania nad tym, ale minęło trochę czasu, odkąd na to spojrzałem. Oto przykład wyszukiwania w Google scholar.google.com.au/…

— Anglim

Zgadzam się z uzasadnieniem pana Jeromy'ego Anglim w sprawie użycia średniej (tj. Średniej ważonej, aby być dokładną) jako najbardziej wiarygodnej obiektywnej, bardziej opisowej interpretacji uporządkowanych zmiennych kategorialnych, takich jak zastosowanie skali Likerta, w której każdy z punktów danych przyczynia się do końcowa średnia.

3

Zadałem pytanie o różnice kulturowe w użyciu skal odpowiedzi na cogsci.stackexchange.com

— Anglim

28

W przypadku podstawowych podsumowań zgadzam się, że tabele częstotliwości zgłaszania i pewne wskazówki dotyczące tendencji centralnej są w porządku. Aby wnioskować, w ostatnim artykule opublikowanym w PARE omówiono test t- vs. MWW, Five-Point Likert Items: test t kontra Mann-Whitney-Wilcoxon .

W celu bardziej szczegółowego leczenia zaleciłbym przeczytanie recenzji Agresti na temat uporządkowanych zmiennych kategorialnych:

Liu, Y i Agresti, A (2005). Analiza uporządkowanych danych kategorycznych: przegląd i przegląd najnowszych osiągnięć . Sociedad de Estadística e Investigación Operativa Test , 14 (1), 1-73.

W dużej mierze wykracza poza zwykłe statystyki, takie jak model oparty na progach (np. Proporcjonalny iloraz szans), i jest warty przeczytania zamiast książki CDA Agresti .

Poniżej pokazuję zdjęcie trzech różnych sposobów traktowania przedmiotu Likerta; od góry do dołu, widok „częstotliwości” (nominalny), widok „numeryczny” i widok „probabilistyczny” (model częściowego kredytu ):

alternatywny tekst

Dane pochodzą z Sciencedanych w ltmpakiecie, w których pozycja dotyczyła technologii („Nowa technologia nie zależy od podstawowych badań naukowych”, a odpowiedź „zdecydowanie się nie zgadzam” na „zdecydowanie się zgadzam” w czteropunktowej skali)

— chl
źródło

14

Konwencjonalną praktyką jest wykorzystanie sumy rang statystyki nieparametrycznej i średniej rangi do opisu danych porządkowych.

Oto jak działają:

Suma rangi

przypisać rangę każdemu członkowi w każdej grupie;
np. załóżmy, że patrzysz na bramki dla każdego gracza w dwóch przeciwnych drużynach piłkarskich, a następnie uszereguj każdego członka w obu drużynach od pierwszego do ostatniego;
obliczyć sumę rang poprzez dodanie rang na grupę ;
wielkość sumy rang mówi ci, jak blisko siebie są stopnie dla każdej grupy

Średnia pozycja

M / R jest bardziej wyrafinowaną statystyką niż R / S, ponieważ kompensuje nierówne rozmiary w porównywanych grupach. Dlatego oprócz powyższych kroków dzielisz każdą sumę przez liczbę członków w grupie.

Po uzyskaniu tych dwóch statystyk można na przykład wykonać test Z sumy rang, aby sprawdzić, czy różnica między dwiema grupami jest istotna statystycznie (uważam, że jest to znane jako test sumy rang Wilcoxona , który jest wymienny, tj. Funkcjonalnie odpowiednik testu U Manna-Whitneya).

R Funkcje dla tych statystyk (te, o których i tak wiem):

wilcox.test w standardowej instalacji R.

średnie w pakiecie korb

— doug
źródło

3

Na podstawie streszczenia Artykuł ten może być pomocny w porównaniu kilku zmiennych o skali Likerta. Porównuje dwa typy nieparametrycznych testów wielokrotnego porównania: jeden oparty na szeregach, a drugi oparty na teście Chacko. Obejmuje symulacje.

— Peter Flom
źródło

Obecnie wydaje się to niemal komentarzem @PeterFlom. Chociaż biblioteka cyfrowa ACM jest prawdopodobnie mniej podatna na gnicie linków, czy mógłbyś powiedzieć coś o tym artykule, być może dokładny fragment użytecznych informacji?

— gung

2

Cześć @gung Nie byłem pewien, gdzie umieścić komentarz w tym długim wątku. Dodałem tutaj cytat, ponieważ dzisiejsze pytanie zostało zamknięte, a ten artykuł wydaje się przydatny (i dotyczy zagadnień, których nigdzie indziej nie widziałem)

— Peter Flom

2

Zazwyczaj lubię używać fabuły Mozaika. Możesz je utworzyć, włączając inne zmienne towarzyszące zainteresowaniom (takie jak: płeć, czynniki stratyfikowane itp.)

— Teoria Galois
źródło

2

Zgadzam się z oceną Jeromy Anglim. Pamiętaj, że odpowiedzi Likerta są szacunkami - nie używasz całkowicie niezawodnej linijki do pomiaru obiektu fizycznego o stabilnych wymiarach. Średnia jest potężną miarą przy stosowaniu rozsądnych rozmiarów próbek.

W badaniach i rozwoju w biznesie i produktach średnia jest zdecydowanie najczęstszą statystyką stosowaną w przypadku skal Likerta. Używając skal Likerta zwykle wybrałem miarę, która idealnie pasuje do pytania badawczego. Na przykład, jeśli mówisz o „preferencjach” lub „postawach”, możesz użyć wielu wskaźników opartych na Likercie, przy czym każdy wskaźnik zapewnia nieco inny wgląd.

$i$ $X$

— VARNOLD
źródło

1

„Wyniki punktowe” są często używane do podsumowania danych porządkowych, szczególnie jeśli chodzi o znaczące zakotwiczenia słowne. Innymi słowy, możesz zgłosić „2 górne pola”, procent, który wybrał „zgodzić się” lub „zdecydowanie zgodzić się”.

— Jonathan
źródło