Dobre książki dotyczące technik wstępnego przetwarzania danych i wykrywania wartości odstających


11

Jak tytuł mówi, czy ktoś wie o dobrej, aktualnej książce, która ogólnie obejmuje wstępne przetwarzanie danych, a szczególnie techniki wykrywania wartości odstających?

Książka nie musi skupiać się wyłącznie na tym, ale powinna wyczerpująco omawiać wyżej wymienione tematy - nie byłbym zadowolony z czegoś, co stanowi punkt wyjścia i cytuje listę artykułów, wyjaśnienia różnych technik muszą pojawić się w sama książka.

Preferowane, ale niekonieczne techniki radzenia sobie z brakującymi danymi


Czy możesz nam powiedzieć, na jakie dane (dziedzina naukowa lub technika pomiaru) patrzysz?
cbeleites niezadowoleni z SX

Dane zbierane od użytkowników sieci (nie mogą być bardziej szczegółowe). Uwzględniono znaczniki czasu (chociaż dane nie są ściśle związane z czasem, przynajmniej intuicyjnie), atrybuty kategoryczne i atrybuty ciągłe. Wartości odstające mogą być spowodowane niezliczonymi przyczynami, w tym roboty internetowe, złośliwi użytkownicy i wiele innych źródeł. Dane są również dość duże (GB w formacie CSV, kilka milionów wpisów)
em70

Dla mnie jest to dość szczegółowe: nie trzeba zanudzać cię przetwarzaniem
wstępnym dla

Odpowiedzi:


3

Mimo że jest specyficzny dla Staty, znalazłem książkę Scotta Longa, „Przepływ pracy analizy danych za pomocą Staty” , nieocenioną w dziedzinie zarządzania danymi i ich przygotowania. Autor udziela wielu przydatnych porad dotyczących dobrych praktyk w zarządzaniu danymi, takich jak czyszczenie i archiwizacja danych, sprawdzanie wartości odstających i radzenie sobie z brakującymi danymi.


2
Uwielbiam też tę książkę, ale jestem zagorzałym użytkownikiem Staty, jeśli chodzi o zarządzanie danymi. Chociaż się nie zgadzam, inni z tej listy argumentowali, że jest zbyt specyficzny dla Staty, aby był użyteczny, więc zastrzegaj emptor / lector.
Dimitriy V. Masterov

Bardzo historycznie z tego, co zbieram, i nie znam ani staty, ani nie pomógłbym w tym projekcie, gdybym był (dane są zbyt duże, przy użyciu różnych technologii)
em70

Książka jest rzeczywiście bardzo osobliwa. Poszczególne techniki przetwarzania danych (a zwłaszcza metadanych) są specyficzne dla Stata, ale ogólne pomysły można przenosić między platformami. Dziwi mnie, że przy stosunku około 20 książek Stata / 100 książek R na rynku nie ma porównywalnych książek na temat organizacji pracy w R - czy to drugie jest niemożliwe? Największa ilość pamięci, którą żywo pamiętam, przydzielając Stacie, to 48 Gb na komputerze 64 Gb - to, czy rozmiar ma znaczenie. Jeśli chcesz manipulować obiektami o zupełnie innej strukturze, zrób to w R, a nie w Stacie.
StasK

0

W przypadku SAS istnieją techniki czyszczenia danych Rona Cody'ego przy użyciu oprogramowania SAS . W SAS-L jest powiedzenie: „Nigdy nie możesz się pomylić z książką Rona Cody'ego”


Obawiam się, że SAS nie jest narzędziem z wyboru w moim otoczeniu, ani nie znam go. Poza tym szukam jakiegoś podejścia, a nie książki kucharskiej. Powiedzmy, że szukam czegoś bardziej matematycznego i modelującego.
em70

0

Jeśli masz podstawy (identyfikowanie wartości odstających, brakujące wartości, ważenie, kodowanie) w zależności od tematu, w zwykłej literaturze akademickiej można znaleźć znacznie więcej. Na przykład w badaniach ankietowych (temat, w którym wiele rzeczy może pójść źle i jest podatnych na wiele źródeł stronniczości), można znaleźć wiele dobrych artykułów.

Przygotowując się do regularnej regresji przekrojowej, sprawy mogą być mniej złożone. Problem może polegać na przykład na usunięciu zbyt wielu „wartości odstających”, a tym samym na sztucznym dopasowaniu modelu.

Polecam więc oprócz nauki dobrych technik, pamiętaj także o zdrowym rozsądku. Upewnij się, że stosujesz techniki prawidłowo, a nie na ślepo. Co do dyskusji na temat oprogramowania w innych odpowiedziach. Myślę, że SPSS nie jest zły do ​​przygotowania danych (słyszałem również dobre rzeczy o SAS) w zależności od rozmiaru zestawu danych. Rozwijane menu są bardzo intuicyjne.

Ale jako bezpośrednia odpowiedź na twoje pytanie, literatura akademicka może, ale nie musi, być bardzo dobrym źródłem do przygotowania danych w zależności od tematu i analizy.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.