Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

5
Powiązania pomiędzy
Powiedzmy, że mam dwie tablice 1-wymiarowe, za1a1a_1 i za2)a2a_2 . Każdy zawiera 100 punktów danych. 1 jest rzeczywiste dane i 2 jest przewidywania modelu. W tym przypadku, R 2 wartość będzie: R 2 = 1 - S S r e sza1a1a_1za2)a2a_2R2)R2R^2R2)= 1 - S.S.r e sS.S.t o t ( 1 …

4
Czy zmienne towarzyszące, które nie są istotne statystycznie, powinny być „utrzymywane” podczas tworzenia modelu?
Mam kilka zmiennych towarzyszących w moich obliczeniach dla modelu i nie wszystkie są istotne statystycznie. Czy powinienem usunąć te, które nie są? To pytanie omawia to zjawisko, ale nie odpowiada na moje pytanie: Jak interpretować nieistotny wpływ zmiennej towarzyszącej w ANCOVA? W odpowiedzi na to pytanie nie ma nic, co …



2
Symulacja analizy mocy regresji logistycznej - zaprojektowane eksperymenty
To pytanie jest odpowiedzią na odpowiedź udzieloną przez @Greg Snow na pytanie, które zadałem, dotyczące analizy mocy z regresją logistyczną i SAS Proc GLMPOWER. Jeśli projektuję eksperyment i przeanalizuję wyniki w silnej regresji logistycznej, jak mogę użyć symulacji (i tutaj ) do przeprowadzenia analizy mocy? Oto prosty przykład, w którym …

1
Jak interpretować i zgłaszać eta kwadrat / częściowy eta kwadrat w statystycznie istotnych i nieistotnych analizach?
Mam dane, które mają wartości eta do kwadratu i częściowe wartości eta do kwadratu obliczone jako miara wielkości efektu dla średnich różnic w grupie. Jaka jest różnica między eta kwadratem a częściowym eta kwadratem? Czy można je interpretować przy użyciu tych samych wytycznych Cohena (Myślę, że 1988: 0,01 = mały, …

4
Jakie jest znaczenie „.” (Kropka) w R?
Właśnie czytam książkę „R in a Nutshell”. I wygląda na to, że pominąłem część, w której „.” jak w „sample.formula” zostało wyjaśnione. > sample.formula <- as.formula(y~x1+x2) Czy próbka jest przedmiotem z formułą pola jak w innych językach? A jeśli tak, to jak mogę dowiedzieć się, jakie inne pola / funkcje …
39 r 

2
Model regresji logistycznej nie jest zbieżny
Mam dane na temat lotów linii lotniczych (w ramce danych o nazwie flights) i chciałbym sprawdzić, czy czas lotu ma jakikolwiek wpływ na prawdopodobieństwo znacznie opóźnionego przybycia (co oznacza 10 lub więcej minut). Uznałem, że użyję regresji logistycznej, z czasem lotu jako predyktorem i czy każdy lot był znacznie opóźniony …
39 r  logistic  separation 

6
Regresja najmniejszego kąta vs. lasso
Regresja przy najmniejszym kącie i lasso mają tendencję do tworzenia bardzo podobnych ścieżek regularyzacji (identycznych, z wyjątkiem przypadków, gdy współczynnik przekracza zero). Oba mogą być skutecznie dopasowane za pomocą praktycznie identycznych algorytmów. Czy jest jakiś praktyczny powód, aby preferować jedną metodę od drugiej?
39 regression  lasso 

3
Tryb, klasa i typ obiektów R.
Zastanawiałem się, jakie są różnice między trybem, klasą i typem R obiektów? Typ obiektu R można uzyskać za pomocą funkcji typeof (), mode by mode () i class by class (). Jakieś inne podobne funkcje i koncepcje, za którymi tęskniłem? Dziękuję i pozdrawiam!
39 r 

8
Jak przetestować hipotezę braku różnic grupowych?
Wyobraź sobie, że masz badanie z dwiema grupami (np. Mężczyznami i kobietami) przyglądającymi się numerycznej zmiennej zależnej (np. Wyniki testu inteligencji) i masz hipotezę, że nie ma różnic grupowych. Pytanie: Jaki jest dobry sposób na sprawdzenie, czy nie ma różnic grupowych? Jak określiłbyś wielkość próby potrzebną do odpowiedniego przetestowania pod …

3
Clojure vs. R: zalety i wady analizy danych
Miałem plan nauki R w najbliższej przyszłości. Czytając kolejne pytanie , dowiedziałem się o Clojure. Teraz nie wiem co robić. Myślę, że dużą zaletą R dla mnie jest to, że niektórzy ludzie w ekonomii go używają, w tym jeden z moich przełożonych (chociaż drugi powiedział: trzymaj się z dala od …
39 r 

8
Graficzny przegląd danych (podsumowanie) w R
Jestem pewien, że wcześniej spotkałem taką funkcję w pakiecie R. Ale po rozległym Googlingu nigdzie nie mogę jej znaleźć. Funkcja, o której myślę, wygenerowała podsumowanie graficzne dla danej zmiennej, generując dane wyjściowe z niektórymi wykresami (histogram i być może wykres z pudełkiem i wąsami) oraz tekstem zawierającym takie szczegóły, jak …


5
LDA vs word2vec
Próbuję zrozumieć, jakie jest podobieństwo między Latent Dirichlet Allocation i word2vec do obliczania podobieństwa słów. Jak rozumiem, LDA odwzorowuje słowa na wektor prawdopodobieństwa ukrytych tematów, podczas gdy word2vec odwzorowuje je na wektor liczb rzeczywistych (związanych z rozkładem pojedynczej wartości punktowej wzajemnej informacji, patrz O. Levy, Y. Goldberg, „Neural Word Embedding” …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.