Statystyki i duże zbiory danych computational-statistics

1

Rozwiązanie formy zamkniętej dla problemu lasso, gdy macierz danych jest ukośna

nazwa operatora {diag}}\newcommand{\diag}{\operatorname{diag}} Mamy problem: minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), przy założeniu, że: ∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Czy w tym przypadku istnieje rozwiązanie w formie zamkniętej? Mam to: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), więc myślę, że odpowiedź brzmi : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\}, dla yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2} , ale nie jestem pewien.

13 mathematical-statistics lasso computational-statistics regularization

7

Sens teorii i aplikacji statystycznych

Niedawno ukończyłem studia magisterskie z zakresu modelowania medycznego i biologicznego wraz z matematyką inżynierską jako tłem. Mimo że mój program edukacyjny obejmował znaczną liczbę kursów statystyki matematycznej (lista poniżej), którymi zarządzałem z dość wysokimi ocenami, często kończyłem się całkowitym zagubieniem się zarówno w teorii, jak i zastosowaniach statystyki. Muszę powiedzieć, …

13 mathematical-statistics bioinformatics computational-statistics

1

Jak mogę zoptymalizować wydajność obliczeniową przy wielokrotnym dopasowywaniu złożonego modelu do dużego zestawu danych?

Mam problemy z wydajnością przy użyciu MCMCglmmpakietu w R do uruchomienia mieszanego modelu efektów. Kod wygląda następująco: MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) Dane zawierają około 20 000 obserwacji i są skupione w około 200 szkołach. Usunąłem wszystkie nieużywane zmienne z ramki danych i usunąłem wszystkie …

12 r mixed-model mcmc computational-statistics

4

Wykrywanie wartości odstających w szeregach czasowych: jak zmniejszyć liczbę fałszywych trafień?

Próbuję zautomatyzować wykrywanie wartości odstających w szeregach czasowych i użyłem modyfikacji rozwiązania zaproponowanego przez Roba Hyndmana tutaj . Powiedzmy, że mierzę codzienne wizyty na stronie z różnych krajów. W niektórych krajach, w których codzienne wizyty to kilka setek lub tysięcy, moja metoda wydaje się działać rozsądnie. Jednak w przypadkach, gdy …

11 time-series outliers computational-statistics

3

Korzystanie z symulacji komputerowych w celu lepszego zrozumienia pojęć statystycznych na poziomie absolwenta

Cześć, studiuję na kierunku Statystyka, omawiamy statystyki testowe i inne pojęcia. Jednak często jestem w stanie zastosować formuły i rozwinąć swoistą intuicję dotyczącą tego, jak działają rzeczy, ale często mam wrażenie, że być może, jeśli poprę moje badanie symulowanymi eksperymentami, rozwinę lepszą intuicję w bieżące problemy . Zastanawiałem się więc …

11 r hypothesis-testing sas simulation computational-statistics

1

Co to jest ten „maksymalny współczynnik korelacji”?

Typową statystyką przetwarzania obrazu jest użycie funkcji tekstur Haralicka , które wynoszą 14. Zastanawiam się nad czternastą z tych cech: Biorąc pod uwagę mapę sąsiedztwa (którą możemy po prostu zobaczyć empiryczny rozkład dwóch liczb całkowitych i , j < 256 ), jest ona zdefiniowana jako: pierwiastek kwadratowy z drugiej wartości …

11 probability computational-statistics

1

Znalezienie porównywalnej grupy kontrolnej dla grupy terapeutycznej?

Mam grupę terapeutyczną o wielkości 30 (30 szkół w Kalifornii), która korzystała z dodatkowego oprogramowania matematycznego. W prostej analizie chciałbym porównać średni wzrost matematyki uczniów między naszą grupą leczoną a porównywalną grupą kontrolną. W CA jest wiele szkół, które nie korzystały z oprogramowania. Chciałbym, aby grupa kontrolna obejmowała szkoły o …

11 mathematical-statistics descriptive-statistics computational-statistics

2

Odwrotna macierz kowariancji vs macierz kowariancji w PCA

Czy w PCA robi to różnicę, jeśli wybieramy główne składniki odwrotnej macierzy kowariancji LUB jeśli upuszczamy wektory własne macierzy kowariancji odpowiadające dużym wartościom własnym? Jest to związane z dyskusją w tym poście .

10 machine-learning pca computational-statistics

3

Czy w R (lub ogólnie) można wymusić, aby współczynniki regresji były pewnym znakiem?

Pracuję z niektórymi danymi ze świata rzeczywistego, a modele regresji dają pewne sprzeczne z intuicją wyniki. Zwykle ufam statystykom, ale w rzeczywistości niektóre z tych rzeczy nie mogą być prawdziwe. Główny problem, jaki widzę, polega na tym, że wzrost jednej zmiennej powoduje wzrost odpowiedzi, gdy w rzeczywistości muszą one być …

10 r regression regression-coefficients computational-statistics

1

Szybkie obliczanie / szacowanie niskiego rzędu systemu liniowego

Liniowe układy równań są wszechobecne w statystyce obliczeniowej. Jednym specjalnym systemem, z którym się zetknąłem (np. W analizie czynnikowej) jest system A x = bAx=bAx=b gdzie Tutaj D jest macierzą diagonalną n × n ze ściśle dodatnią przekątną, Ω jest m × m (z m ≪ n ) symetryczną dodatnią …

10 factor-analysis matrix computational-statistics matrix-decomposition matrix-inverse

4

Testowanie oprogramowania statystycznego

Jakie techniki / podejścia są przydatne w testowaniu oprogramowania statystycznego? Szczególnie interesują mnie programy wykonujące estymację parametryczną z maksymalnym prawdopodobieństwem. Porównywanie wyników z wynikami z innych programów lub opublikowanych źródeł nie zawsze jest możliwe, ponieważ przez większość czasu, gdy piszę własny program, jest tak, ponieważ obliczenia, których potrzebuję, nie są …

10 software computing computational-statistics

4

Dlaczego wymagane jest zejście gradientowe?

Kiedy możemy rozróżnić funkcję kosztu i znaleźć parametry, rozwiązując równania uzyskane przez częściowe różnicowanie w odniesieniu do każdego parametru i dowiedzieć się, gdzie funkcja kosztu jest minimalna. Myślę też, że można znaleźć wiele miejsc, w których pochodne są zerowe, dzięki czemu możemy sprawdzić wszystkie takie miejsca i znaleźć globalne minima …

10 machine-learning computational-statistics

2

Jak próbkować z dyskretnego rozkładu na liczbach całkowitych nieujemnych?

Mam następujący dyskretny rozkład, w którym są znanymi stałymi:α , βα,β\alpha,\beta p ( x ; α , β) =Beta ( α + 1 , β+ x )Beta ( α , β)dla x = 0 , 1 , 2 , …p(x;α,β)=Beta(α+1,β+x)Beta(α,β)dla x=0,1,2),… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots …

10 sampling mcmc computational-statistics importance-sampling rejection-sampling

3

Wykrywanie anomalii szeregów czasowych za pomocą Pythona

Muszę wdrożyć wykrywanie anomalii w kilku zestawach danych szeregów czasowych. Nigdy wcześniej tego nie robiłem i liczyłem na radę. Bardzo dobrze czuję się w Pythonie, więc wolałbym, aby rozwiązanie było zaimplementowane w nim (większość mojego kodu to Python dla innych części mojej pracy). Opis danych: to miesięczne dane szeregów czasowych, …

10 machine-learning time-series python computational-statistics anomaly-detection

1

koszt próbkowania w wysokości

Natknąłem się na następujący problem z symulacją: biorąc pod uwagę zestaw {ω1, ... ,ωre}{ω1,…,ωd}\{\omega_1,\ldots,\omega_d\} znanych liczb rzeczywistych, rozkład na { - 1 , 1}re{−1,1}d\{-1,1\}^d jest zdefiniowany przez P (X= (x1, ... ,xre) ) ∝ (x1ω1+ … +xreωre)+P(X=(x1,…,xd))∝(x1ω1+…+xdωd)+\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+ gdzie ( z)+(z)+(z)_+ oznacza pozytywną część zzz. Chociaż mogę wymyślić próbnik Metropolis-Hastings …

9 simulation algorithms random-generation computational-statistics metropolis-hastings

Pytania otagowane jako computational-statistics