Żądania dotyczące zestawów danych są w tej witrynie nie na temat. Użyj tego znacznika do pytań dotyczących tworzenia, przetwarzania lub utrzymywania zestawów danych.
Często widzę ludzi, którzy określają wymiar / cechę zestawu danych jako zero-średnią poprzez usunięcie średniej ze wszystkich elementów. Ale nigdy nie rozumiałem, dlaczego to robić? Jaki jest efekt robienia tego jako etapu wstępnego przetwarzania? Czy poprawia to klasyfikację? Czy pomaga odpowiedzieć na coś o zestawie danych? Czy pomaga w wizualizacji …
Jestem doktorantem z psychologii eksperymentalnej i staram się doskonalić swoje umiejętności i wiedzę na temat analizy moich danych. Do piątego roku studiów w psychologii myślałem, że modele podobne do regresji (np. ANOVA) zakładają następujące rzeczy: normalność danych jednorodność wariancji danych i tak dalej Moje studia licencjackie doprowadziły mnie do przekonania, …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 6 lat temu . Od pewnego czasu używam plików tekstowych do przechowywania moich danych w R. Ale w ostatnim projekcie rozmiary plików stają się zbyt …
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
Podejrzewam, że większość użytkowników narzędzi statystycznych to użytkownicy pomocniczy (ludzie, którzy nie mieli formalnego szkolenia statystycznego). Bardzo kuszące jest, aby badacze i inni profesjonaliści zastosowali metody statystyczne do swoich danych po prostu dlatego, że widzieli to „wcześniej” w recenzowanych artykułach, szarej literaturze, Internecie lub na konferencji. Jednak zrobienie tego bez …
Szukam optymalnej metody binowania (dyskretyzacji) zmiennej ciągłej w odniesieniu do danej zmiennej binarnej odpowiedzi (celu) i maksymalnej liczby interwałów jako parametru. przykład: mam zestaw obserwacji ludzi ze zmiennymi „wzrost” (ciągłe cyfry) i „has_back_pains” (binarne). Chcę dyskretyzować wzrost na 3 przedziały (grupy) co najwyżej z różnym odsetkiem osób z bólami pleców, …
Hadley Wickham napisał w zeszłym roku w JSS gwiezdny artykuł zatytułowany „Tidy Data” ( link ) na temat manipulacji danymi i doprowadzenia danych do stanu „optymalnego” w celu przeprowadzenia analizy. Zastanawiałem się jednak, jakie były najlepsze praktyki w zakresie prezentacji danych tabelarycznych w środowisku pracy? Powiedzmy, że twój współpracownik prosi …
Jestem studentem fizyki studiującym uczenie maszynowe / informatykę, więc nie mam na myśli, aby to pytanie wywoływało jakiekolwiek konflikty :) Jednak dużą częścią każdego programu licencjackiego z fizyki jest przeprowadzanie laboratoriów / eksperymentów, co oznacza dużo danych przetwarzanie i analiza statystyczna. Zauważam jednak wyraźną różnicę między sposobem, w jaki fizycy …
Wyszukiwanie w Internecie samouczka PCA daje tysiące wyników (nawet wideo). Wiele samouczków jest bardzo dobrych. Ale nie jestem w stanie znaleźć żadnego praktycznego przykładu, w którym wyjaśniono PCA przy użyciu niektórych zestawów danych, których mogę użyć do demonstracji. Potrzebuję samouczka, który zapewnia niewielki zestaw danych, który jest łatwy do wykreślenia …
Imię: pierwsze, ewentualnie środkowe i nazwisko. Jestem ciekawy, ile informacji możesz wydobyć z nazwy, używając publicznie dostępnych zestawów danych. Wiem, że możesz uzyskać następujące z dowolnym między niskim a wysokim prawdopodobieństwem (w zależności od danych wejściowych) przy użyciu danych ze spisu powszechnego w USA: 1) Płeć. 2) Wyścig. Na przykład …
Mam dużą (650K wierszy * 62 kolumny) macierz danych binarnych (tylko wpisy 0-1). Matryca jest w większości rzadka: około 8% jest wypełnione. Chciałbym podzielić go na 5 grup - powiedzmy nazwanych od 1 do 5. Próbowałem zgrupować hierarchicznie i nie byłem w stanie obsłużyć rozmiaru. Użyłem również algorytmu grupowania k-średnich …
Jak tytuł mówi, czy ktoś wie o dobrej, aktualnej książce, która ogólnie obejmuje wstępne przetwarzanie danych, a szczególnie techniki wykrywania wartości odstających? Książka nie musi skupiać się wyłącznie na tym, ale powinna wyczerpująco omawiać wyżej wymienione tematy - nie byłbym zadowolony z czegoś, co stanowi punkt wyjścia i cytuje listę …
Czy to tylko agregacja punktów danych? A może reprezentacja punktów danych dla różnych elementów w formacie tabelarycznym ułożonym z wartościami różnych zmiennych? Czym różni się od surowych danych?
Ok, uczciwe ostrzeżenie - to filozoficzne pytanie, które nie zawiera liczb. Dużo zastanawiałem się nad tym, jak błędy wkradają się do zestawów danych w czasie i jak analitycy powinni to potraktować - czy może to naprawdę ma znaczenie? Na przykład robię analizę długoterminowego badania, które obejmuje wiele zbiorów danych zebranych …
Oto na przykład definicje, które otrzymuję ze standardowych podręczników Zmienna - charakterystyczna dla populacji lub próby. dawny. Cena akcji lub oceny na teście Dane - rzeczywiste obserwowane wartości Tak więc dla raportu dwukolumnowego [Nazwa | Dochód] nazwami kolumn byłyby zmienne, a rzeczywiste zaobserwowane wartości {dave | 100K}, {jim | 200 …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.