Jak podsumować dane kategoryczne?

13

Mam problem z następującym problemem, który, mam nadzieję, jest łatwy dla statystyk (jestem programistą z pewnym doświadczeniem w statystyce).

Muszę streścić odpowiedzi na ankietę (dla kierownictwa). Ankieta zawiera ponad 100 pytań, pogrupowanych w różne obszary (z około 5 do 10 pytań na obszar). Wszystkie odpowiedzi są kategoryczne (w skali porządkowej przypominają „wcale”, „rzadko”… „codziennie lub częściej”).

Kierownictwo chciałoby uzyskać podsumowanie dla każdego obszaru i to jest mój problem: jak agregować odpowiedzi kategoryczne w ramach powiązanego pytania? . Jest zbyt wiele pytań, aby stworzyć wykres, a nawet wykres kratowy dla każdego obszaru. Jeśli to możliwe, preferuję podejście wizualne w porównaniu, powiedzmy, z tabelami z liczbami (niestety, nie będą ich czytać).

Jedyne, co mogę wymyślić, to policzyć liczbę odpowiedzi w każdym obszarze, a następnie wykreślić histogram.

Czy jest coś jeszcze dostępnego dla danych kategorycznych?

Używam R, ale nie jestem pewien, czy ma to znaczenie, myślę, że jest to bardziej ogólne pytanie statystyczne.

categorical-data data-transformation descriptive-statistics

— wishihadabettername
źródło

Co powiesz na PCA / FA?

— Zmniejszysz

to może być za dużo, jeśli kierownictwo zapyta „skąd masz dane zagregowane?” będą chcieli prostszej techniki, aby mogli (czuć, że) ją zrozumieć. Niestety, prawdziwy świat :-( Dzięki.

— Wishihadabettername

10

Naprawdę musisz dowiedzieć się, jakie jest pytanie, na które próbujesz odpowiedzieć, lub jakie pytanie najbardziej interesuje kierownictwo. Następnie możesz wybrać pytania ankiety, które najbardziej odpowiadają Twojemu problemowi.

Nie wiedząc nic o swoim problemie lub zestawie danych, oto kilka ogólnych rozwiązań:

Wizualnie reprezentuj odpowiedzi jako klastry. Moim ulubionym jest albo użycie dendrogramów, albo po prostu kreślenie na osi xy (Google „analiza skupień r” i przejście do pierwszego wyniku przez statmethods.net)
Sortuj pytania według odpowiedzi od największej do najmniej „codziennej lub częściej” odpowiedzi. Jest to przykład, który może nie działa dla Ciebie, ale być może zainspiruje Cię http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
Krzyże krzyżowe: jeśli na przykład masz pytanie „Jak często spóźniasz się do pracy?” oraz „Jak często korzystasz z Facebooka?”, krzyżując dwa pytania, możesz dowiedzieć się, jaki procent osób rzadko wykonuje obie te czynności lub które wykonują obie te czynności codziennie. (Google „r” tabele częstotliwości ”lub przejdź do wspomnianej strony statmethods.net )
Korelogramy. Nie mam z nimi żadnego doświadczenia, ale widziałem to również na stronie statmethods.net. Zasadniczo stwierdzasz, które pytania mają najwyższą korelację, a następnie tworzysz tabelę. Może ci się to przydać, chociaż wygląda na „zajęte”.

— Dimitry L.
źródło

Oznaczę to jako odpowiedź; zawiera kilka dobrych sugestii, więc pomyślę, jak je zastosować.

— wishihadabettername

9

Jest fajny artykuł na temat technik wizualizacji, z którego może skorzystać Michael Friendly:

Wizualizacja danych kategorycznych: dane, historie i zdjęcia

(W rzeczywistości jest całość książka poświęcona temu samemu autorowi.) Pakiet vcd w R implementuje wiele z tych technik.

— ars
źródło

głosowałem za odniesienie do artykułu i książki, przeczytam je

— wishihadabettername

8

Standardowe opcje obejmują:

uzyskanie średniej dla elementów w skali (np. jeśli skala wynosi od 1 do 5, średnia wyniesie od 1 do 5)
konwertując każdy element na miarę binarną (np. jeśli element> = 3, to 1, w przeciwnym razie 0), a następnie przyjmując średnią z tej odpowiedzi binarnej

Biorąc pod uwagę, że agregujesz według elementów i dużych próbek osób w organizacji, obie powyższe opcje (tj. Średnia od 1 do 5 lub średnia procentowa powyżej punktu) będą wiarygodne na poziomie organizacji ( patrz tutaj dla dalsza dyskusja ). Tak więc, każda z powyższych opcji zasadniczo przekazuje tę samą informację.

Ogólnie nie martwiłbym się tym, że przedmioty są kategoryczne. Do czasu utworzenia skal przez agregację elementów, a następnie agregację na próbie respondentów, skala będzie zbliżona do skali ciągłej.

Kierownictwo może uznać jedną metrykę za łatwiejszą do interpretacji. Kiedy otrzymuję wyniki w zakresie jakości nauczania (tj. Średni wynik zadowolenia uczniów, powiedzmy 100 uczniów), jest to średnia w skali od 1 do 5 i to jest w porządku. Przez lata po zapoznaniu się z własnymi wynikami z roku na rok, a także po zapoznaniu się z pewnymi normami dla uniwersytetu, opracowałem ramy odniesienia dla różnych wartości. Jednak kierownictwo czasami woli myśleć o odsetku popierającym stwierdzenie lub odsetku pozytywnych odpowiedzi, nawet jeśli w pewnym sensie jest to średni procent.

Głównym wyzwaniem jest podanie konkretnych punktów odniesienia dla wyników. Kierownictwo będzie chciało wiedzieć, co faktycznie oznaczają liczby . Na przykład, jeśli średnia odpowiedź dla skali wynosi 4,2, co to oznacza? Czy to jest dobre? To jest złe? Czy to w porządku?

Jeśli korzystasz z ankiety przez wiele lat lub w różnych organizacjach, możesz zacząć opracowywać normy. Dostęp do norm jest jednym z powodów, dla których organizacje często wybierają zewnętrznego dostawcę ankiety lub korzystają ze standardowej ankiety.

Możesz także przeprowadzić analizę czynnikową, aby sprawdzić, czy przypisanie przedmiotów do wag jest empirycznie uzasadnione.

Jeśli chodzi o podejście wizualne, możesz mieć prosty wykres liniowy lub słupkowy z typem skali na osi x i wynikiem na osi y. Jeśli masz dane normatywne, możesz je również dodać.

— Jeromy Anglim
źródło

1

Tak. Uważam, że klastrowanie jest bardzo skutecznym podejściem do redukcji danych w celu zmniejszenia danych z ankiet zarówno w celu zrozumienia, jak i prezentacji zarządzania.

Analiza klas ukrytych (traktująca skale odpowiedzi jako porządkowe) lub k-średnie (traktując je jako ciągłe) może być postrzegana jako forma kompresji informacji . Klasyfikacja respondentów do ich najbardziej prawdopodobnego segmentu generalnie daje zmienną kategoryczną, która ma intuicyjne wyjaśnienia podczas profilowania pod względem odpowiedzi.

Następnie możesz nazwać segmenty i użyć tych zmiennych do analizy i prezentacji na poziomie podsumowania.

Dopasuj klaster do grup powiązanych elementów (np. Poniżej) lub ewentualnie wszystkich razem.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

Często używam LatentGold, ale uważam, że FASTCLUS w SAS jest dobrym rozwiązaniem.

Zanim to zrobisz, zastanów się nad dostosowaniem odpowiedzi każdej osoby do jej skali (kontrowersyjnej, ale pragmatycznej). Niektórzy ludzie opierają się tylko na jednym końcu skali, unikając negatywnych lub pozytywnych. Grupowanie surowych odpowiedzi zazwyczaj dzieli ludzi przez takie zachowanie.

Standaryzacja odpowiedzi każdego respondenta na jego własną średnią i grupowanie, które często ujawnia zmienne, które poruszają się razem w bardzo interesujący sposób.

— prototyp
źródło