Czynniki w R: więcej niż irytacja?

Question 1

Jednym z podstawowych typów danych w R są współczynniki. Z mojego doświadczenia wynika, że czynniki są w zasadzie uciążliwe i nigdy ich nie używam. Zawsze konwertuję na postacie. Dziwnie czuję, że czegoś mi brakuje.

Czy istnieją ważne przykłady funkcji, które wykorzystują czynniki jako zmienne grupujące, w przypadku których typ danych czynnika staje się konieczny? Czy istnieją szczególne okoliczności, w których powinienem używać współczynników?

Question 2

Powinieneś używać współczynników. Tak mogą być ból, ale moja teoria jest taka, że 90% tego, dlaczego są one uciążliwe jest bo read.tablei read.csvargument stringsAsFactors = TRUEdomyślnie (a większość użytkowników przegap tej subtelności). Twierdzę, że są przydatne, ponieważ pakiety dopasowania modeli, takie jak lme4, używają współczynników i współczynników uporządkowanych, aby w różny sposób dopasować modele i określić rodzaj kontrastów, których należy użyć. Pakiety graficzne również używają ich do grupowania według. ggplota większość funkcji dopasowywania modeli wymusza przekształcenie wektorów znaków na czynniki, więc wynik jest taki sam. Jednak w kodzie pojawiają się ostrzeżenia:

lm(Petal.Length ~ -1 + Species, data=iris)

# Call:
# lm(formula = Petal.Length ~ -1 + Species, data = iris)

# Coefficients:
#     Speciessetosa  Speciesversicolor   Speciesvirginica  
#             1.462              4.260              5.552  

iris.alt <- iris
iris.alt$Species <- as.character(iris.alt$Species)
lm(Petal.Length ~ -1 + Species, data=iris.alt)

# Call:
# lm(formula = Petal.Length ~ -1 + Species, data = iris.alt)

# Coefficients:
#     Speciessetosa  Speciesversicolor   Speciesvirginica  
#             1.462              4.260              5.552

Komunikat ostrzegawczy: W model.matrix.default(mt, mf, contrasts):

zmienna Speciesprzekonwertowana nafactor

Jedna trudna sprawa to całość drop=TRUE. W wektorach działa to dobrze, aby usunąć poziomy czynników, których nie ma w danych. Na przykład:

s <- iris$Species
s[s == 'setosa', drop=TRUE]
#  [1] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [11] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [21] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [31] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [41] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# Levels: setosa
s[s == 'setosa', drop=FALSE]
#  [1] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [11] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [21] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [31] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [41] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# Levels: setosa versicolor virginica

Jednak w przypadku data.frames zachowanie [.data.frame()jest inne: zobacz tego e-maila lub ?"[.data.frame". Używanie drop=TRUEna data.frames nie działa tak, jak można sobie wyobrazić:

x <- subset(iris, Species == 'setosa', drop=TRUE)  # susbetting with [ behaves the same way
x$Species
#  [1] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [11] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [21] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [31] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# [41] setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa
# Levels: setosa versicolor virginica

Na szczęście możesz łatwo upuścić współczynniki, droplevels()aby zrzucić niewykorzystane poziomy współczynników dla pojedynczego czynnika lub dla każdego czynnika w a data.frame(od R 2.12):

x <- subset(iris, Species == 'setosa')
levels(x$Species)
# [1] "setosa"     "versicolor" "virginica" 
x <- droplevels(x)
levels(x$Species)
# [1] "setosa"

W ten sposób możesz powstrzymać wybrane poziomy przed pojawieniem się ggplotlegend.

Wewnętrznie factors są liczbami całkowitymi z wektorem znaków na poziomie atrybutu (zobacz attributes(iris$Species)i class(attributes(iris$Species)$levels)), który jest czysty. Gdybyś musiał zmienić nazwę poziomu (i używałeś ciągów znaków), byłaby to znacznie mniej wydajna operacja. Często zmieniam nazwy poziomów, szczególnie w przypadku ggplotlegend. Jeśli sfałszujesz czynniki za pomocą wektorów znaków, istnieje ryzyko, że zmienisz tylko jeden element i przypadkowo utworzysz oddzielny nowy poziom.

Question 3

uporządkowane czynniki są niesamowite, jeśli przypadkiem kocham pomarańcze i nienawidzę jabłek, ale nie mam nic przeciwko winogronom, nie muszę zarządzać jakimś dziwnym indeksem, żeby to powiedzieć:

d <- data.frame(x = rnorm(20), f = sample(c("apples", "oranges", "grapes"), 20, replace = TRUE, prob = c(0.5, 0.25, 0.25)))
d$f <- ordered(d$f, c("apples", "grapes", "oranges"))
d[d$f >= "grapes", ]

Question 4

A factorjest najbardziej analogiczne do typu wyliczonego w innych językach. Jego właściwe użycie dotyczy zmiennej, która może przyjmować tylko jeden z określonych zestawów wartości. W takich przypadkach nie każda możliwa dozwolona wartość może występować w jakimkolwiek konkretnym zbiorze danych, a „puste” poziomy dokładnie to odzwierciedlają.

Rozważ kilka przykładów. W przypadku niektórych danych, które zostały zebrane w całych Stanach Zjednoczonych, jako czynnik należy podać stan. W tym przypadku istotny jest fakt, że żadne sprawy nie zostały odebrane z danego państwa. Mogły być dane z tego stanu, ale zdarzyło się (z jakiegokolwiek powodu, który może być powodem zainteresowania), że ich nie było. Gdyby zebrano rodzinne miasto, nie miałoby to znaczenia. Nie ma z góry określonego zestawu możliwych miast rodzinnych. Gdyby dane były zbierane z trzech miast, a nie z całego kraju, to miasto byłoby czynnikiem: na początku podano trzy opcje, a jeśli w jednym z tych trzech miast nie znaleziono żadnych odpowiednich przypadków / danych, jest to istotne.

Inne aspekty factors, takie jak zapewnienie sposobu nadania arbitralnej kolejności zbioru ciągów, są użytecznymi cechami drugorzędnymi factors, ale nie są powodem ich istnienia.

Question 5

Czynniki są fantastyczne, gdy ktoś wykonuje analizę statystyczną i faktycznie eksploruje dane. Jednak wcześniej, gdy ktoś czyta, czyści, rozwiązuje problemy, łączy i ogólnie manipuluje danymi, czynniki są totalnym bólem. Niedawno, podobnie jak w ciągu ostatnich kilku lat, wiele funkcji uległo poprawie, aby lepiej radzić sobie z czynnikami. Na przykład, rbind ładnie się z nimi gra. Nadal uważam za uciążliwe pozostawienie pustych poziomów po funkcji podzbioru.

#drop a whole bunch of unused levels from a whole bunch of columns that are factors using gdata
require(gdata)
drop.levels(dataframe)

Wiem, że łatwo jest przekodować poziomy współczynnika i zmienić etykiety, a także są wspaniałe sposoby na zmianę kolejności poziomów. Mój mózg po prostu ich nie pamięta i za każdym razem, kiedy go używam, muszę się uczyć na nowo. Przekodowywanie powinno być o wiele łatwiejsze niż jest.

Funkcje łańcuchowe języka R są dość łatwe i logiczne w użyciu. Więc kiedy manipuluję, generalnie wolę postacie od czynników.

Question 6

Co za złośliwy tytuł!

Uważam, że wiele funkcji estymacji pozwala na łatwe definiowanie zmiennych fikcyjnych za pomocą współczynników ... ale nie używam ich do tego.

Używam ich, gdy mam bardzo duże wektory znaków z kilkoma unikalnymi obserwacjami. Może to zmniejszyć zużycie pamięci, zwłaszcza jeśli łańcuchy w wektorze znakowym są dłuższe.

PS - żartuję z tytułu. Widziałem twój tweet. ;-)

Question 7

Czynniki to doskonały mechanizm oznaczania „unikalnych przypadków”. Odtworzyłem to źle wiele razy i pomimo kilku sporadycznych zmarszczek, są one niezwykle silne.

library(dplyr)
d <- tibble(x = sample(letters[1:10], 20, replace = TRUE))

## normalize this table into an indexed value across two tables
id <- tibble(x_u = sort(unique(d$x))) %>% mutate(x_i = row_number())
di <- tibble(x_i = as.integer(factor(d$x)))


## reconstruct d$x when needed
d2 <- inner_join(di, id) %>% transmute(x = x_u)
identical(d, d2)
## [1] TRUE

Jeśli istnieje lepszy sposób wykonania tego zadania, chciałbym to zobaczyć, nie widzę omawianej możliwości factor.

Question 8

tapply (i agregacja ) polegają na czynnikach. Stosunek informacji do nakładu pracy tych funkcji jest bardzo wysoki.

Na przykład w jednej linii kodu (wezwanie do tapply poniżej) możesz uzyskać średnią cenę diamentów według szlifu i koloru:

> data(diamonds, package="ggplot2")

> head(dm)

   Carat     Cut    Clarity Price Color
1  0.23     Ideal     SI2   326     E
2  0.21   Premium     SI1   326     E
3  0.23      Good     VS1   327     E


> tx = with(diamonds, tapply(X=Price, INDEX=list(Cut=Cut, Color=Color), FUN=mean))

> a = sort(1:diamonds(tx)[2], decreasing=T)  # reverse columns for readability

> tx[,a]

         Color
Cut         J    I    H    G    F    E    D
Fair      4976 4685 5136 4239 3827 3682 4291
Good      4574 5079 4276 4123 3496 3424 3405
Very Good 5104 5256 4535 3873 3779 3215 3470
Premium   6295 5946 5217 4501 4325 3539 3631
Ideal     4918 4452 3889 3721 3375 2598 2629