Statystyki i duże zbiory danych

5

Powiedzmy, że mam dwie tablice 1-wymiarowe, za1a1a_1 i za2)a2a_2 . Każdy zawiera 100 punktów danych. 1 jest rzeczywiste dane i 2 jest przewidywania modelu. W tym przypadku, R 2 wartość będzie: R 2 = 1 - S S r e sza1a1a_1za2)a2a_2R2)R2R^2R2)= 1 - S.S.r e sS.S.t o t ( 1 …

39 correlation r-squared

4

Czy zmienne towarzyszące, które nie są istotne statystycznie, powinny być „utrzymywane” podczas tworzenia modelu?

Mam kilka zmiennych towarzyszących w moich obliczeniach dla modelu i nie wszystkie są istotne statystycznie. Czy powinienem usunąć te, które nie są? To pytanie omawia to zjawisko, ale nie odpowiada na moje pytanie: Jak interpretować nieistotny wpływ zmiennej towarzyszącej w ANCOVA? W odpowiedzi na to pytanie nie ma nic, co …

39 regression statistical-significance ancova model predictor

5

Używanie LASSO z pakietu lars (lub glmnet) w R do wyboru zmiennych

Przepraszam, jeśli to pytanie jest trochę podstawowe. Chciałbym użyć selekcji zmiennych LASSO dla modelu wielokrotnej regresji liniowej w R. Mam 15 predyktorów, z których jeden jest kategoryczny (czy to spowoduje problem?). Po ustawieniu mojego i Y używam następujące polecenia:xxxyyy model = lars(x, y) coef(model) Mój problem polega na tym, kiedy …

39 feature-selection lasso glmnet lars

3

Dlaczego prawo dużych liczb nie ma zastosowania w przypadku ceny akcji Apple?

Oto artykuł z czasów nowojorskich zatytułowany „Apple konfrontuje prawo wielkich liczb” . Stara się wyjaśnić wzrost cen akcji Apple za pomocą prawa wielkich liczb. Jakie błędy statystyczne (lub matematyczne) popełnia ten artykuł?

39 probability central-limit-theorem law-of-large-numbers statistics-in-media

2

Symulacja analizy mocy regresji logistycznej - zaprojektowane eksperymenty

To pytanie jest odpowiedzią na odpowiedź udzieloną przez @Greg Snow na pytanie, które zadałem, dotyczące analizy mocy z regresją logistyczną i SAS Proc GLMPOWER. Jeśli projektuję eksperyment i przeanalizuję wyniki w silnej regresji logistycznej, jak mogę użyć symulacji (i tutaj ) do przeprowadzenia analizy mocy? Oto prosty przykład, w którym …

39 r logistic generalized-linear-model simulation power-analysis

1

Jak interpretować i zgłaszać eta kwadrat / częściowy eta kwadrat w statystycznie istotnych i nieistotnych analizach?

Mam dane, które mają wartości eta do kwadratu i częściowe wartości eta do kwadratu obliczone jako miara wielkości efektu dla średnich różnic w grupie. Jaka jest różnica między eta kwadratem a częściowym eta kwadratem? Czy można je interpretować przy użyciu tych samych wytycznych Cohena (Myślę, że 1988: 0,01 = mały, …

39 anova statistical-significance effect-size

4

Jakie jest znaczenie „.” (Kropka) w R?

Właśnie czytam książkę „R in a Nutshell”. I wygląda na to, że pominąłem część, w której „.” jak w „sample.formula” zostało wyjaśnione. > sample.formula <- as.formula(y~x1+x2) Czy próbka jest przedmiotem z formułą pola jak w innych językach? A jeśli tak, to jak mogę dowiedzieć się, jakie inne pola / funkcje …

39 r

2

Model regresji logistycznej nie jest zbieżny

Mam dane na temat lotów linii lotniczych (w ramce danych o nazwie flights) i chciałbym sprawdzić, czy czas lotu ma jakikolwiek wpływ na prawdopodobieństwo znacznie opóźnionego przybycia (co oznacza 10 lub więcej minut). Uznałem, że użyję regresji logistycznej, z czasem lotu jako predyktorem i czy każdy lot był znacznie opóźniony …

39 r logistic separation

6

Regresja najmniejszego kąta vs. lasso

Regresja przy najmniejszym kącie i lasso mają tendencję do tworzenia bardzo podobnych ścieżek regularyzacji (identycznych, z wyjątkiem przypadków, gdy współczynnik przekracza zero). Oba mogą być skutecznie dopasowane za pomocą praktycznie identycznych algorytmów. Czy jest jakiś praktyczny powód, aby preferować jedną metodę od drugiej?

39 regression lasso

3

Tryb, klasa i typ obiektów R.

Zastanawiałem się, jakie są różnice między trybem, klasą i typem R obiektów? Typ obiektu R można uzyskać za pomocą funkcji typeof (), mode by mode () i class by class (). Jakieś inne podobne funkcje i koncepcje, za którymi tęskniłem? Dziękuję i pozdrawiam!

39 r

8

Jak przetestować hipotezę braku różnic grupowych?

Wyobraź sobie, że masz badanie z dwiema grupami (np. Mężczyznami i kobietami) przyglądającymi się numerycznej zmiennej zależnej (np. Wyniki testu inteligencji) i masz hipotezę, że nie ma różnic grupowych. Pytanie: Jaki jest dobry sposób na sprawdzenie, czy nie ma różnic grupowych? Jak określiłbyś wielkość próby potrzebną do odpowiedniego przetestowania pod …

39 hypothesis-testing t-test equivalence tost

3

Clojure vs. R: zalety i wady analizy danych

Miałem plan nauki R w najbliższej przyszłości. Czytając kolejne pytanie , dowiedziałem się o Clojure. Teraz nie wiem co robić. Myślę, że dużą zaletą R dla mnie jest to, że niektórzy ludzie w ekonomii go używają, w tym jeden z moich przełożonych (chociaż drugi powiedział: trzymaj się z dala od …

39 r

8

Graficzny przegląd danych (podsumowanie) w R

Jestem pewien, że wcześniej spotkałem taką funkcję w pakiecie R. Ale po rozległym Googlingu nigdzie nie mogę jej znaleźć. Funkcja, o której myślę, wygenerowała podsumowanie graficzne dla danej zmiennej, generując dane wyjściowe z niektórymi wykresami (histogram i być może wykres z pudełkiem i wąsami) oraz tekstem zawierającym takie szczegóły, jak …

39 r data-visualization descriptive-statistics eda

1

Dlaczego używamy dywergencji Kullbacka-Leiblera zamiast funkcji entropii krzyżowej w funkcji celu t-SNE?

Moim zdaniem rozbieżność KL od rozkładu próbki do rozkładu rzeczywistego jest po prostu różnicą między entropią krzyżową a entropią. Dlaczego używamy entropii krzyżowej jako funkcji kosztów w wielu modelach uczenia maszynowego, a dywergencji Kullbacka-Leiblera w t-sne? Czy jest jakaś różnica w szybkości uczenia się?

39 kullback-leibler tsne cross-entropy

5

LDA vs word2vec

Próbuję zrozumieć, jakie jest podobieństwo między Latent Dirichlet Allocation i word2vec do obliczania podobieństwa słów. Jak rozumiem, LDA odwzorowuje słowa na wektor prawdopodobieństwa ukrytych tematów, podczas gdy word2vec odwzorowuje je na wektor liczb rzeczywistych (związanych z rozkładem pojedynczej wartości punktowej wzajemnej informacji, patrz O. Levy, Y. Goldberg, „Neural Word Embedding” …

39 machine-learning self-study natural-language latent-variable word2vec