Kontekst: Moja organizacja obecnie porównuje statystyki dotyczące różnorodności siły roboczej (np.% Osób niepełnosprawnych,% kobiet,% weteranów) z całkowitą dostępnością siły roboczej dla tych grup na podstawie American Community Survey (projekt ankietowy przeprowadzony przez US Census Bureau). Jest to niedokładny punkt odniesienia, ponieważ mamy bardzo konkretny zestaw miejsc pracy, które mają inne dane demograficzne niż siła robocza jako całość. Powiedz na przykład, że moja organizacja to głównie inżynierowie. Inżynieria to tylko około 20% kobiet w moim stanie. Jeśli porównamy się z całkowitym wskaźnikiem siły roboczej, który jest bardziej podobny do 50% kobiet, wywołuje to panikę, że „mamy tylko 20% kobiet, to katastrofa!” kiedy tak naprawdę 20% jest tym, czego powinniśmy się spodziewać, ponieważ tak wygląda krajobraz pracy.
Mój cel: Chciałbym wziąć dane o zawodzie American Community Survey (według kategorii różnorodności) i ponownie je wyważyć na podstawie składu stanowisk w mojej firmie. Oto przykładowy zestaw danych dla pracowników służb społecznych i społecznych . Chcę dodać te kody stanowisk wymienione razem (ponieważ nasze przejście dla pieszych dotyczy grup stanowisk, a nie konkretnych kodów zadań), a następnie chcę zważyć ten punkt odniesienia na podstawie liczby osób, które mamy w tej kategorii (np. 3 000 Społeczności i Pracownicy służby społecznej), a następnie chcę zrobić to samo dla wszystkich innych grup stanowisk, dodać te liczby razem i podzielić przez naszą całkowitą liczbę pracowników. Dałoby mi to nowy, ponownie ważony wskaźnik różnorodności (np. Od 6% osób niepełnosprawnych do 2% osób niepełnosprawnych).
Moje pytania: Jak dopasować marginesy błędu do tego końcowego zrolowanego testu porównawczego? Nie mam surowego zestawu danych spisu (oczywiście), ale możesz zobaczyć marginesy błędu dla każdej liczby w linku, który podałem, przełączając pole „Szacunek” na „Margines błędu” u góry tabeli. Moi inni współpracownicy, którzy pracują z tymi danymi, w pełni zamierzają zignorować margines błędu, ale martwię się, że tworzymy dla siebie statystycznie nieistotny punkt odniesienia. Czy dane te są nadal przydatne po opisanej powyżej manipulacji?