Statystyki i duże zbiory danych

8

Kiedy należy uwzględnić zmienną w regresji, mimo że nie jest ona statystycznie istotna?

Jestem studentem ekonomii z pewnym doświadczeniem w ekonometrii i R. Chciałbym wiedzieć, czy kiedykolwiek zdarzy się sytuacja, w której powinniśmy uwzględnić zmienną w regresji, mimo że nie jest ona statystycznie istotna?

37 statistical-significance feature-selection

5

Czy fakt, że mój włoski syn będzie uczęszczał do szkoły podstawowej, zmieni oczekiwaną liczbę włoskich dzieci obecnych w jego klasie?

To pytanie wynika z rzeczywistej sytuacji, na którą naprawdę byłem zaskoczony odpowiedzią. Mój syn ma rozpocząć szkołę podstawową w Londynie. Ponieważ jesteśmy Włochami, byłem ciekawy, ilu włoskich dzieci uczęszcza już do szkoły. Poprosiłem o to urzędnika ds. Przyjęć podczas składania wniosku, a ona powiedziała mi, że mają średnio 2 włoskie …

37 probability self-study average

2

Czy to niezwykłe, że MEAN przewyższa ARIMA?

Niedawno zastosowałem szereg metod prognozowania (MEAN, RWF, ETS, ARIMA i MLP) i stwierdziłem, że MEAN zadziwiająco dobrze. (MEAN: gdzie wszystkie przyszłe prognozy są przewidywane jako równe średniej arytmetycznej z obserwowanych wartości.) MEAN nawet przewyższył ARIMA w trzech zastosowanych przeze mnie seriach. Chcę wiedzieć, czy jest to niezwykłe? Czy to oznacza, …

37 forecasting arima

2

Interwał prognozy dla modelu efektów mieszanych lmer () w R

Chcę uzyskać przedział przewidywania wokół prognozy z modelu lmer (). Znalazłem trochę dyskusji na ten temat: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq ale wydaje się, że nie uwzględniają niepewności losowych efektów. Oto konkretny przykład. Ścigam się złotą rybką. Mam dane dotyczące ostatnich 100 wyścigów. Chcę przewidzieć 101., biorąc pod uwagę niepewność moich oszacowań RE …

37 r mixed-model prediction prediction-interval lme4-nlme

6

Sprawdź, czy dwa rozkłady dwumianowe różnią się statystycznie od siebie

Mam trzy grupy danych, każda z rozkładem dwumianowym (tj. Każda grupa ma elementy, które są albo sukcesem, albo porażką). Nie mam przewidywanego prawdopodobieństwa sukcesu, ale zamiast tego mogę polegać jedynie na współczynniku sukcesu każdego z nich jako przybliżeniu prawdziwego wskaźnika sukcesu. Znalazłem tylko to pytanie , które jest bliskie, ale …

37 statistical-significance binomial bernoulli-distribution

1

Dlaczego glmer nie osiąga maksymalnego prawdopodobieństwa (potwierdzonego przez dalszą optymalizację ogólną)?

Wyprowadzanie liczbowe MLE z GLMM jest trudne i, w praktyce, wiem, nie powinniśmy stosować optymalizacji siły brutalnej (np. Używając optimw prosty sposób). Ale dla własnego celu edukacyjnego chcę go wypróbować, aby upewnić się, że poprawnie rozumiem model (patrz poniższy kod). Odkryłem, że zawsze otrzymuję niespójne wyniki glmer(). W szczególności, nawet …

37 r maximum-likelihood optimization lme4-nlme

3

Porównanie SVM i regresji logistycznej

Czy ktoś może mi podpowiedzieć, kiedy wybrać SVM lub LR? Chcę zrozumieć intuicję stojącą za różnicą między kryteriami optymalizacji uczenia się hiperpłaszczyzny tych dwóch, gdzie odpowiednie cele są następujące: SVM: Spróbuj zmaksymalizować margines między najbliższymi wektorami wsparcia LR: Maksymalizuj prawdopodobieństwo tylnej klasy Rozważmy liniową przestrzeń cech dla SVM i LR. …

37 regression logistic svm optimization

6

Popraw klasyfikację za pomocą wielu zmiennych kategorycznych

Pracuję nad zbiorem danych z ponad 200 000 próbek i około 50 cechami na próbkę: 10 zmiennych ciągłych, a pozostałe ~ 40 to zmienne jakościowe (kraje, języki, dziedziny nauki itp.). Dla tych zmiennych kategorialnych masz na przykład 150 różnych krajów, 50 języków, 50 dziedzin naukowych itp. Jak dotąd moje podejście …

37 machine-learning classification categorical-data random-forest many-categories

2

Jak analiza czynnikowa wyjaśnia kowariancję, podczas gdy PCA wyjaśnia wariancję?

Oto cytat z książki Bishopa „Rozpoznawanie wzorców i uczenie maszynowe”, rozdział 12.2.4 „Analiza czynnikowa”: Według wyróżnionej części analizy czynnika oddaje kowariancji pomiędzy zmiennymi w macierzy WWW . Zastanawiam się JAK ? Oto jak to rozumiem. Powiedzmy, że xxx to obserwowana zmienna ppp wymiarowa, WWW to macierz obciążenia czynnikowego, a zzz …

37 pca factor-analysis geometry

8

Pomóż mi obliczyć, ile osób przyjdzie na mój ślub! Czy mogę przypisać procent każdej osobie i dodać ją?

Planuję ślub. Chcę oszacować, ile osób przyjdzie na mój ślub. Stworzyłem listę osób i szansę, że będą uczestniczyć w procentach. Na przykład Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% Mam listę około 230 osób z odsetkami. Jak mogę oszacować, ile osób weźmie udział w moim …

37 probability

10

Czy jest jakaś dobra książka popularnonaukowa na temat statystyki lub uczenia maszynowego?

Wokół jest mnóstwo naprawdę dobrych książek popularnonaukowych, które dotyczą prawdziwej nauki, a także historii i przyczyn obecnych teorii, a jednocześnie są niezwykle przyjemne do czytania. Na przykład „Chaos” Jamesa Gleicka (chaos, fraktale, nieliniowość), „Krótka historia czasu” Stephena Hawkinga (fizyka, pochodzenie wszechświata, czas, czarne dziury) lub „Samolubny gen” Richarda Dawkinsa ( …

37 references communication

2

Jak znaleźć dobre dopasowanie do modelu półsinusoidalnego w R?

Chcę założyć, że temperatura powierzchni morza w Morzu Bałtyckim jest taka sama rok po roku, a następnie opisać to za pomocą modelu funkcyjnego / liniowego. Pomysł, jaki miałem, to po prostu wpisać rok jako liczbę dziesiętną (lub num_months / 12) i ustalić, jaka powinna być temperatura w tym czasie. Wrzucając …

37 r regression time-series lm

4

Czy silne doświadczenie matematyczne to całkowity wymóg ML?

Zaczynam chcieć rozwijać własny zestaw umiejętności i zawsze fascynowało mnie uczenie maszynowe. Jednak sześć lat temu zamiast tego dążyć, postanowiłem podjąć całkowicie niezwiązany stopień z informatyką. Zajmuję się tworzeniem oprogramowania i aplikacji od około 8-10 lat, więc dobrze sobie z tym radzę, ale po prostu nie mogę przeniknąć matematyki do …

37 machine-learning references mathematical-statistics

5

Jak przetestować powiązanie nieliniowe?

W przypadku wykresu 1 mogę przetestować powiązanie między xiy, wykonując prostą korelację. W przypadku wykresu 2, w którym związek jest nieliniowy, ale istnieje wyraźny związek między xiy, w jaki sposób mogę przetestować powiązanie i oznaczyć jego naturę?

37 nonlinear-regression non-independent association-measure

6

Bayesowskie a częste interpretacje prawdopodobieństwa

Czy ktoś może dobrze podsumować różnice między bayesowskim a częstym podejściem do prawdopodobieństwa? Z tego co rozumiem: Częstotliwość uważa, że dane są powtarzalną próbą losową (zmienną losową) o określonej częstotliwości / prawdopodobieństwie (która jest zdefiniowana jako względna częstotliwość zdarzenia, gdy liczba prób zbliża się do nieskończoności). Podstawowe parametry i prawdopodobieństwa …

37 probability bayesian frequentist