To pytanie zostało wywołane przez coś, co przeczytałem w tym podręczniku do statystyki dla absolwentów, a także (niezależnie) usłyszałem podczas tej prezentacji na seminarium statystycznym. W obu przypadkach stwierdzenie było zgodne z „ponieważ wielkość próbki jest dość mała, postanowiliśmy przeprowadzić oszacowanie za pomocą bootstrap zamiast (lub wraz z) tą metodą …
Dla badań symulacyjnych mam do generowania zmiennych losowych, które wykazują prefined (populacji) korelację do istniejącej zmiennej .YYY I spojrzał w Ropakowaniach copula, a CDVinektóre mogą powodować przypadkowe wielowymiarowych rozkładów danej struktury zależności. Nie można jednak naprawić jednej z powstałych zmiennych do istniejącej zmiennej. Wszelkie pomysły i linki do istniejących funkcji …
Kanoniczna analiza korelacji (CCA) jest techniką związaną z analizą głównych składników (PCA). Chociaż łatwo jest nauczyć się PCA lub regresji liniowej za pomocą wykresu punktowego (zobacz kilka tysięcy przykładów w wyszukiwaniu obrazów w Google), nie widziałem podobnego intuicyjnego dwuwymiarowego przykładu dla CCA. Jak wizualnie wyjaśnić, co robi liniowy CCA?
Ciekawe, dla tych z was, którzy mają duże doświadczenie we współpracy z innymi badaczami, jakie są najczęstsze nieporozumienia na temat regresji liniowej, które napotykasz? Myślę, że może to być przydatne ćwiczenie, aby pomyśleć o typowych nieporozumieniach przed czasem, aby to zrobić Przewiduj błędy ludzi i potrafisz wyartykułować, dlaczego niektóre nieporozumienia …
Pytanie: Chcę się czegoś upewnić, czy stosowanie k-krotnej walidacji krzyżowej z szeregami czasowymi jest proste, czy też należy na to zwrócić szczególną uwagę? Tło: modeluję 6-letni szereg czasowy (z łańcuchem pół-markowa), z próbką danych co 5 minut. Aby porównać kilka modeli, używam 6-krotnej walidacji krzyżowej, dzieląc dane na 6 lat, …
Obecnie pracuję nad quasi-eksperymentalnym artykułem badawczym. Mam tylko 15-osobową próbkę ze względu na małą populację w wybranym obszarze i tylko 15 spełnia moje kryteria. Czy 15 to minimalny rozmiar próbki do obliczenia dla testu t i testu F. Jeśli tak, to gdzie mogę uzyskać artykuł lub książkę na poparcie tej …
Ekonometria w znacznym stopniu pokrywa się z tradycyjnymi statystykami, ale często używa własnego żargonu na różne tematy („identyfikacja”, „egzogeniczny” itp.). Kiedyś usłyszałem, jak profesor statystyki stosowanej w innym polu skomentował, że często terminologia jest inna, ale pojęcia są takie same. Ale ma też własne metody i filozoficzne rozróżnienia (przychodzi na …
Dlaczego w wielokrotnej regresji liniowej możliwe jest uzyskanie bardzo istotnej statystyki F (p <0,001), ale bardzo wysokich wartości p we wszystkich testach t regresora? W moim modelu jest 10 regresorów. Jeden ma wartość p 0,1, a reszta jest powyżej 0,9 Aby poradzić sobie z tym problemem, patrz pytanie uzupełniające .
W kwietniu uczestniczyłem w przemówieniu na cyklicznym seminarium grupowym UMD Math Department Statistics zatytułowanym „Wyjaśnić czy przewidzieć?”. Rozmowę wygłosił prof. Galit Shmueli, który wykłada w Smith Business School w UMD. Jej przemówienie opierało się na badaniach, które przeprowadziła dla artykułu zatytułowanego „Modelowanie predykcyjne vs. model wyjaśniający w badaniach IS” oraz …
Epoka stochastycznego spadku gradientu jest definiowana jako pojedyncze przejście przez dane. Dla każdego minibatchu SGD rysuje się kkk próbek, oblicza gradient i aktualizuje parametry. W ustawieniu epoki próbki są rysowane bez zamiany. Ale to wydaje się niepotrzebne. Dlaczego nie narysować każdego minibatchu SGD, gdy kkk losuje z całego zestawu danych …
Zauważyłem, że przedział ufności dla przewidywanych wartości w regresji liniowej jest zwykle wąski wokół średniej predyktora, a tłuszcz wokół minimalnych i maksymalnych wartości predyktora. Można to zobaczyć na wykresach tych 4 regresji liniowych: Początkowo myślałem, że dzieje się tak, ponieważ większość wartości predyktorów była skoncentrowana wokół średniej predyktora. Zauważyłem jednak, …
Spodziewałbym się, że współczynnik korelacji będzie taki sam jak nachylenie regresji (beta), jednak po porównaniu obu tych wartości są one różne. Czym się różnią - jakie różne informacje podają?
Jaka jest odpowiednia strategia podziału zestawu danych? Pytam o opinie na następujące podejście (nie na poszczególnych parametrów, takich jak test_sizeczy n_iter, ale jeśli kiedyś X, y, X_train, y_train, X_test, a y_testwłaściwie i czy sekwencja ma sens): (rozszerzenie tego przykładu z dokumentacji scikit-learn) 1. Załaduj zestaw danych from sklearn.datasets import load_digits …
tło Pracuję w Network Operations Center, monitorujemy systemy komputerowe i ich wydajność. Jednym z kluczowych wskaźników do monitorowania jest liczba odwiedzających \ klientów aktualnie podłączonych do naszych serwerów. Aby to pokazać, zbieramy takie dane, jak dane szeregów czasowych i rysujemy wykresy. Grafit pozwala nam to zrobić, ma dość bogaty interfejs …
Porównałem ?prcompi ?princompznalazłem coś na temat analizy głównego składnika w trybie Q i R (PCA). Ale szczerze mówiąc - nie rozumiem tego. Czy ktoś może wyjaśnić różnicę, a może nawet wyjaśnić, kiedy zastosować?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.