Chcę oszacować kwantyl niektórych danych. Dane są tak ogromne, że nie można ich zapisać w pamięci. A dane nie są statyczne, wciąż pojawiają się nowe dane. Czy ktoś zna jakiś algorytm do monitorowania kwantyli danych obserwowanych do tej pory przy bardzo ograniczonej pamięci i obliczeniach? Uważam, że algorytm P2 jest …
Każdy podręcznik, który do tej pory widziałem, opisuje algorytmy ML i sposoby ich implementacji. Czy istnieje także podręcznik, który buduje twierdzenia i dowody na zachowanie tych algorytmów? np. stwierdzenie, że w warunkach , opadanie gradientu zawsze prowadzi do ?A , B , C.x,y,zx,y,zx,y,zA,B,CA,B,CA,B,C
To pytanie dotyczy skutecznego sposobu obliczania głównych składników. Wiele tekstów na temat liniowego PCA opowiada się za dekompozycją danych w liczbie pojedynczej . Oznacza to, że jeśli mamy dane i chcemy zastąpić zmienne (jego kolumny ) głównymi składnikami, wykonujemy SVD: , wartości osobliwe (pierwiastki kwadratowe wartości własnych) zajmujące główną przekątną …
Muszę od razu wyjaśnić, że jestem praktykującym programistą, a nie statystykiem, a moja klasa statystyk z college'u była bardzo dawno temu… To powiedziawszy, chciałbym wiedzieć, czy istnieje metoda gromadzenia zestawu statystyk opisowych, które można by następnie wykorzystać do stworzenia wykresu pudełkowego, który nie pociąga za sobą przechowywania wielu pojedynczych próbek? …
Przeczytałem sporo ukrytych modeli Markowa i sam byłem w stanie napisać całkiem podstawową wersję. Są jednak dwa główne sposoby, których się uczę. Jednym z nich jest przeczytanie i zaimplementowanie go w kodzie (co jest zrobione), a drugim zrozumienie, w jaki sposób ma zastosowanie w różnych sytuacjach (dzięki czemu mogę lepiej …
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
Mam problem z wygenerowaniem zestawu stacjonarnych kolorowych szeregów czasowych, biorąc pod uwagę ich macierz kowariancji (ich gęstości widmowe mocy (PSD) i gęstości widmowe mocy krzyżowej (CSD)). Wiem, że biorąc pod uwagę dwie serie czasowe i , mogę oszacować ich gęstość widmową mocy (PSD) i gęstość krzyżową widmową (CSD) przy użyciu …
migrował z math.stackexchange . Przetwarzam długi strumień liczb całkowitych i rozważam śledzenie kilku chwil, aby móc w przybliżeniu obliczyć różne percentyle dla strumienia bez przechowywania dużej ilości danych. Jaki jest najprostszy sposób obliczenia percentyli z kilku chwil. Czy istnieje lepsze podejście polegające na przechowywaniu tylko niewielkiej ilości danych?
Nie jestem ekspertem od losowego lasu, ale doskonale rozumiem, że kluczowym problemem z losowym lasem jest (losowe) generowanie drzew. Czy możesz mi wyjaśnić, w jaki sposób generowane są drzewa? (tj. Jaka jest używana dystrybucja do generowania drzew?) Z góry dziękuję !
Próbuję porównać złożoność obliczeniową / szybkość estymacji trzech grup metod regresji liniowej, jak wyróżniono w Hastie i in. „Elementy statystycznego uczenia się” (wydanie drugie), rozdział 3: Wybór podzbioru Metody skurczowe Metody wykorzystujące pochodne kierunki wprowadzania (PCR, PLS) Porównanie może być bardzo przybliżone, aby dać pewien pomysł. Rozumiem, że odpowiedzi mogą …
Czy ER jest bardziej wydajne w realizacji (może Extreme Gradient Boostingto być zwiększenie gradientu) - czy różnica jest ważna z praktycznego punktu widzenia? Istnieje pakiet R, który je implementuje. Czy to nowy algorytm, który pokonuje implementację „ogólną” (pakiet RandomForest od R) nie tylko pod względem wydajności, czy też w niektórych …
Muszę obliczyć przykładową odległość Mahalanobisa w R pomiędzy każdą parą obserwacji w macierzy współzmiennych . Potrzebuję rozwiązania, które jest wydajne, tj. Obliczane są tylko odległości, a najlepiej realizowane w C / RCpp / Fortran itp. Zakładam, że , macierz kowariancji populacyjnej, jest nieznana i wykorzystuję próbkę macierz kowariancji na swoim …
Można wykonać regresję logit w R przy użyciu takiego kodu: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 Wygląda na to, że algorytm optymalizacji jest zbiegnięty - jest informacja o liczbie kroków algorytmu oceniania Fishera: Call: glm(formula = …
Załóżmy, że mam gęstą macierz o rozmiarze m × n , z rozkładem SVD A = U S V ⊤ . W mogę obliczyć SVD w następujący sposób: .AA \textbf{A}m×nm×nm \times nA=USV⊤.A=USV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) Jeśli nowy -ty wiersz zostanie dodany do A , czy można obliczyć nowy rozkład SVD na podstawie starego …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.