Dlaczego na przykład płeć zazwyczaj ma kod 0/1 zamiast 1/2?


25

Rozumiem logikę kodowania do analizy danych. Moje pytanie poniżej dotyczy użycia określonego kodu.

  • Czy istnieje powód, dla którego płeć jest często kodowana jako 0 dla kobiety i 1 dla mężczyzny?
  • Dlaczego to kodowanie jest uważane za „standardowe”?
  • Porównaj to z Kobietą = 1 i Mężczyzną = 2. Czy występuje problem z tym kodowaniem?

15
Korzystanie ze schematu kodowania 0/1 jest zasadniczo przydatne przy stosowaniu między innymi modeli regresji, chociaż możliwych jest kilka schematów kodowania, np. -1/1 (ale zmieni to interpretację współczynników regresji). Nie należy go jednak mylić z wprowadzaniem danych (czyli tym, co naprawdę umieścisz w bazie danych). W takim przypadku lepiej jest przechowywać pełne etykiety. Konwertuj je na wartości liczbowe lub buduj dedykowaną macierz projektową podczas budowania modelu regresji. W przeciwnym razie życzę powodzenia, aby powiedzieć, co oznaczają cyfry 0 i 1 za 5 lat.
chl

Widziałem płeć zakodowaną w bazie danych jako mężczyzna, kobieta i nieznana.
Aksakal

2
Myślę, że to pytanie najlepiej rozpatrywać jako dwa pomieszane pytania. Większe pytanie brzmi: po co stosować kodowanie 0-1 zamiast jakiegokolwiek innego dla zmiennej wskaźnikowej lub zastępczej. Mniejsze pytanie brzmi: dlaczego użyć 1 dla mężczyzny i 0 dla kobiety, na co jedną krótką odpowiedzią jest to, że stosuje się wiele innych kodowań, w tym przeciwieństwo 1 dla kobiety itp., A także różne złożone kodowania pozwalające na nieznaną płeć i dla inne kategorie płci.
Nick Cox

Odpowiedzi:


38

Powody, dla których preferowane jest kodowanie zerowych zmiennych binarnych:

  • Średnia zmiennej zero-jedynkowej reprezentuje proporcję w kategorii reprezentowaną przez wartość jeden (np. Procent mężczyzn).
  • W prostej regresji gdzie jest zmienną zero-jedynkową, stała ma prostą interpretację (np. jest średnią dla kobiet).x a yy=a+bxxay
  • Każde kodowanie zmiennej binarnej, w którym różnica między dwiema wartościami wynosi jeden (tj. Zero-jeden, ale także jeden-dwa) daje bezpośrednią interpretację współczynnika regresji (np. jest efektem przejścia z kobiety na mężczyznę na y).b

Różne punkty dotyczące kodowania zmiennych binarnych:

  • Wszelkie kodowanie zmiennej binarnej, która zachowuje porządek kategorii (np. Kobieta = 0, mężczyzna = 1; kobieta = 1, mężczyzna = 2; kobieta = 1007, mężczyzna = 2000; itd.) Nie wpłynie na korelację zmienna binarna z innymi zmiennymi.
  • Wszelkie tabele, które zgłaszają zmienną binarną w ten sposób, powinny wyjaśniać, w jaki sposób zmienna została zakodowana. Przydatne może być również oznaczenie zmiennej według kategorii reprezentującej wartość jednego: np. y = a + b * MaleZamiast y = a + b * Gender.
  • W przypadku niektórych zmiennych binarnych jedną kategorię bardziej naturalnie należy zakodować jako jedną. Na przykład, patrząc na różnicę między leczeniem a kontrolą, kontrola powinna wynosić zero, a leczenie powinno być jedno, ponieważ współczynnik regresji najlepiej postrzegać jako efekt leczenia.
  • Przerzucenie kategorii (np. Uczynienie kobiety = 1 i mężczyzną = 0, zamiast kobiety = 0 i mężczyzny = 1) zmieni znak korelacji i współczynników regresji.
  • W przypadku płci zwykle nie ma naturalnego powodu, aby kodować zmienną kobieta = 0, mężczyzna = 1, w porównaniu do mężczyzna = 0, kobieta = 1. Jednak konwencja może sugerować, że jedno kodowanie jest bardziej znane czytelnikowi; lub wybranie kodowania, które powoduje, że współczynnik regresji jest dodatni, może ułatwić interpretację. Ponadto, w niektórych kontekstach, jedną z płci można uznać za kategorię odniesienia; na przykład, jeśli badałeś wpływ bycia kobietą w zawodzie zdominowanym przez mężczyzn na dochód, warto zakodować mężczyznę = 0 i kobietę = 1, aby mówić o wpływie bycia kobietą.
  • Skalowanie współczynników regresji w przemyślany sposób może mieć silny wpływ na interpretację współczynników regresji. Andrew Gelman omawia to dość często; patrz na przykład jego artykuł z 2008 r. Skalowanie regresji przez podzielenie przez dwa standardowe odchylenia (PDF) w Statistics in Medicine , 27, 2865-2873.
  • Kodowanie męskiego i żeńskiego jako -1 i +1 to kolejna opcja, która może zapewnić znaczące współczynniki (patrz „czym jest kodowanie efektu” ).

18
Zawsze uważałem, że naturalnym powodem kodowania kobiety = 0 i mężczyzny = 1 była „anatomia” ...
Matt Parker

2
@matt śmieszne. Nigdy tak o tym nie myślałem. Zawsze byłem pod wpływem soczewek mojego stopnia naukowego, w którym uczy się o tym, jak niektóre feministki krytykują ideologie, w których kobiety definiowane są przez brak czegoś opętanego przez mężczyzn. Przez taki obiektyw, w nieco humorystyczny sposób, kodowanie płci staje się kwestią polityczną :-)
Jeromy Anglim,

13
Jako nawyk zawsze zmieniam nazwę zmiennej płci na coś takiego jak „Kobieta”, aby wyjaśnić, co oznacza schemat kodowania 0/1.
Fomite,

Jeromy, czy chcesz obserwować dyskusję stats.meta.stackexchange.com/a/4881/3277 na temat tego, czy potrzebujemy osobnego tagu [zmienne obojętne] i powiedzieć twój pro / con w komentarzu?
ttnphns

Biorąc pod uwagę parę chromosomów płci X i Y, kobiety mają XX, a mężczyźni chromosomy XY. Biorąc X = 0 i Y = 1, możemy znaleźć kobietę = XX = 00 = 0 i mężczyznę = XY = 01 = 1.
Gürol Canbek

14

Ułatwia interpretację wyników. Załóżmy, że masz jakieś dane dotyczące wysokości:

Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190 

i wziąłeś regresję formy Height = a + b * Gender + Residual.

Za pomocą zmiennej manekina 0,1 uzyskasz szacunkową wartość a170, która jest średnią wysokością kobiet, a b10, która stanowi różnicę między średnimi wysokościami mężczyzn i kobiet.

Dzięki zmiennej manekina 1,2 uzyskasz oszacowanie ana 160, które jest trudniejsze do interpretacji.


Dzięki. Uczę się statystyki z „prędkością światła”, ponieważ jest to wymóg mojej nowej pracy. Czy kodowanie to nadal miałoby zastosowanie do analizy korelacji.
Adhesh Josh

1
@Adhesh Jeśli masz na myśli korelację między dwiema zmiennymi ilościowymi, oznacza to, że nie ma problemu z kodowaniem: po prostu użyj pierwotnych miar. Jeśli twoje pytanie dotyczy powiązania między dwiema zmiennymi jakościowymi, możesz rozważyć zadanie nowego pytania, ale szczerze mówiąc, nie ma w tym przypadku większych trudności (chyba że chcesz zastosować nierówne wyniki dla kategorii zmiennych, ale na to odpowiedziano w innym miejscu na ten temat) teren).
chl

4
@Adesh Kodowanie pliku binarnego 1/2 lub 0/1 sprawi, że nie wpłyniesz na współczynnik korelacji. 0/1 ma również tę zaletę, że średnia zmiennej byłaby procentem mężczyzny lub kobiety, w zależności od tego, który jest który. Inne schematy kodowania mogą być przydatne do interpretacji różnych rodzajów analiz.
Michael Bishop,

2

Założyłem, że dzieje się tak, ponieważ typ pola często używany do przechowywania płci jest polem bitowym, a pola bitowe w SQL mogą mieć tylko wartości 0 lub 1. Gdy zrzucisz dane, pojawi się jako 0 lub 1, i dlatego otrzymujesz te konkretne wartości.

Jeśli chcesz użyć 1 i 2, musisz użyć większego typu pola, co zająłoby więcej miejsca, a tym samym sprawiłoby, że cała baza danych była nieco większa.


Jako programista SQL była to również moja pierwsza reakcja. Nie jestem pewien żadnych czysto matematycznych powodów używania 0 i 1 dla płci, ale wiem z tego, że pewien impet wynikał z potrzeby użycia możliwie najmniejszych typów danych. Standardy branżowe zostały opracowane na zamówienie i wszyscy byli zgodni. Warto w tym celu sprawdzić historię standardów ANSI. W dzisiejszych czasach istnieje potrzeba, aby DBA używały bajtów lub małych liczb całkowitych dla płci, aby wskazać niezwykłe wyjątki, takie jak „podmiot korporacyjny” lub „nieokreślony”, ale wiele starych baz danych nadal odzwierciedla stary standard.
SQLServerSteve

2

Miałem profesora, który sugeruje, że kodujemy „biologicznie”: kobiety mają 0, a mężczyźni 1 - aby odzwierciedlić anatomię. Nie sądzę, żeby była to najbardziej wrażliwa rzecz na PC, którą można powiedzieć w klasie, ale zdecydowanie łatwa do zapamiętania, patrząc na zestaw danych 5 lat później.


To oczywiście nie jest „prawdziwa” odpowiedź na pytanie (być może jest to bardziej komentarz niż odpowiedź), ale mnemonik jest wyraźnie taki, który wielu ludzi uważa za użyteczny.
Silverfish,

Nauczono mnie bardziej „biologicznego” niż „anatomicznego” (choć podejrzewam, że „przyczyna” została wynaleziona z perspektywy czasu, a nie oryginalności), że 0 jest używane dla kobiet, ponieważ jest to „domyślny” seks - przekonanie jest takie rozwój embrionalny, szlak kobiecy jest podejmowany, chyba że procesy pośredniczące popychają zarodek do różnicowania się w dół męskiego szlaku. Kiedyś było to powszechne przekonanie, ale obecnie uważa się je za przestarzałe : należy również aktywnie uruchomić kobiecą ścieżkę.
Silverfish,

1
W takim przypadku nie należy kodować mężczyzn jako „00”.
Harvey Motulsky

1

Dotychczas opublikowano wiele dobrych powodów, ale powinno to być również zwrotne. Dlaczego zaczniesz liczyć na 1? To sprawia, że ​​wiele algorytmów numerycznych jest znacznie bardziej skomplikowanych. Etykietowanie zaczyna się od 0, a nie 1. Jeśli nie jesteś jeszcze do tego przekonany, mam dobry przykład, dlaczego jest to ważne na http://madhadron.com/?p=69

Jeśli chodzi o to, dlaczego kobiety mają 0 lat, a mężczyźni 1, pamiętajmy, że przez większą część swojej historii statystyk był prawdopodobnie prostym mężczyzną. Zapytany o nazwę płci, pierwszą, która przyszła mi do głowy, była „kobieta”. Wszystko później było prawdopodobnie historycznym wypadkiem i racjonalizacją.


-1

W ISO / IEC 5218 standardowe aktualizacje to pojęcie z poniższej mapie:

0 = not known,
1 = male,
2 = female,
9 = not applicable.

Jest to szczególnie przydatne w językach, w których 0 wymusza fałsz, np. W JavaScript:

if ( !user.gender ) {
    promptForGender();
}

10
Należy zauważyć, że ten rodzaj standardu jest tak naprawdę przeznaczony do przesyłania i / lub przechowywania danych. Nie jest to wystarczające jako standard do analizy danych , o co konkretnie chodzi w tym pytaniu.
whuber

-2

To, co widzę osobiście, to falliczne 0, zazwyczaj reprezentuje kobietę, ponieważ jest to kształt macicy, i uważane jest za żeńskie ... w prawie wszystkich naukach (tj. W biologii / genetyce), koła lub zera reprezentują kobiety. Gdzie bardziej proste kształty krawędzi (trójkąty, kwadraty lub 1s) zwykle reprezentują płeć męską. To proste zrozumienie ułatwiło mi zawsze zapamiętanie, które jest dla mnie najlepsze.

Chociaż na koniec dnia, jeśli to Ty sam kodujesz i analizujesz dane, możesz wstawić dowolne liczby, na ogół tak długo, jak istnieje klucz określający, dla której zmiennej zastępczej użyłeś, dla której to nie ma znaczenia.


2
Dziwna odpowiedź na głupie pytanie.
Michael R. Chernick
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.