Pytania otagowane jako computational-statistics

Odnosi się do interfejsu statystyki i informatyki; wykorzystanie algorytmów i oprogramowania do celów statystycznych.

1
Rozwiązanie formy zamkniętej dla problemu lasso, gdy macierz danych jest ukośna
nazwa operatora {diag}}\newcommand{\diag}{\operatorname{diag}} Mamy problem: minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), przy założeniu, że: ∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Czy w tym przypadku istnieje rozwiązanie w formie zamkniętej? Mam to: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), więc myślę, że odpowiedź brzmi : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\}, dla yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2} , ale nie jestem pewien.

7
Sens teorii i aplikacji statystycznych
Niedawno ukończyłem studia magisterskie z zakresu modelowania medycznego i biologicznego wraz z matematyką inżynierską jako tłem. Mimo że mój program edukacyjny obejmował znaczną liczbę kursów statystyki matematycznej (lista poniżej), którymi zarządzałem z dość wysokimi ocenami, często kończyłem się całkowitym zagubieniem się zarówno w teorii, jak i zastosowaniach statystyki. Muszę powiedzieć, …

1
Jak mogę zoptymalizować wydajność obliczeniową przy wielokrotnym dopasowywaniu złożonego modelu do dużego zestawu danych?
Mam problemy z wydajnością przy użyciu MCMCglmmpakietu w R do uruchomienia mieszanego modelu efektów. Kod wygląda następująco: MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) Dane zawierają około 20 000 obserwacji i są skupione w około 200 szkołach. Usunąłem wszystkie nieużywane zmienne z ramki danych i usunąłem wszystkie …

4
Wykrywanie wartości odstających w szeregach czasowych: jak zmniejszyć liczbę fałszywych trafień?
Próbuję zautomatyzować wykrywanie wartości odstających w szeregach czasowych i użyłem modyfikacji rozwiązania zaproponowanego przez Roba Hyndmana tutaj . Powiedzmy, że mierzę codzienne wizyty na stronie z różnych krajów. W niektórych krajach, w których codzienne wizyty to kilka setek lub tysięcy, moja metoda wydaje się działać rozsądnie. Jednak w przypadkach, gdy …

3
Korzystanie z symulacji komputerowych w celu lepszego zrozumienia pojęć statystycznych na poziomie absolwenta
Cześć, studiuję na kierunku Statystyka, omawiamy statystyki testowe i inne pojęcia. Jednak często jestem w stanie zastosować formuły i rozwinąć swoistą intuicję dotyczącą tego, jak działają rzeczy, ale często mam wrażenie, że być może, jeśli poprę moje badanie symulowanymi eksperymentami, rozwinę lepszą intuicję w bieżące problemy . Zastanawiałem się więc …

1
Co to jest ten „maksymalny współczynnik korelacji”?
Typową statystyką przetwarzania obrazu jest użycie funkcji tekstur Haralicka , które wynoszą 14. Zastanawiam się nad czternastą z tych cech: Biorąc pod uwagę mapę sąsiedztwa (którą możemy po prostu zobaczyć empiryczny rozkład dwóch liczb całkowitych i , j < 256 ), jest ona zdefiniowana jako: pierwiastek kwadratowy z drugiej wartości …

1
Znalezienie porównywalnej grupy kontrolnej dla grupy terapeutycznej?
Mam grupę terapeutyczną o wielkości 30 (30 szkół w Kalifornii), która korzystała z dodatkowego oprogramowania matematycznego. W prostej analizie chciałbym porównać średni wzrost matematyki uczniów między naszą grupą leczoną a porównywalną grupą kontrolną. W CA jest wiele szkół, które nie korzystały z oprogramowania. Chciałbym, aby grupa kontrolna obejmowała szkoły o …


3
Czy w R (lub ogólnie) można wymusić, aby współczynniki regresji były pewnym znakiem?
Pracuję z niektórymi danymi ze świata rzeczywistego, a modele regresji dają pewne sprzeczne z intuicją wyniki. Zwykle ufam statystykom, ale w rzeczywistości niektóre z tych rzeczy nie mogą być prawdziwe. Główny problem, jaki widzę, polega na tym, że wzrost jednej zmiennej powoduje wzrost odpowiedzi, gdy w rzeczywistości muszą one być …


4
Testowanie oprogramowania statystycznego
Jakie techniki / podejścia są przydatne w testowaniu oprogramowania statystycznego? Szczególnie interesują mnie programy wykonujące estymację parametryczną z maksymalnym prawdopodobieństwem. Porównywanie wyników z wynikami z innych programów lub opublikowanych źródeł nie zawsze jest możliwe, ponieważ przez większość czasu, gdy piszę własny program, jest tak, ponieważ obliczenia, których potrzebuję, nie są …

4
Dlaczego wymagane jest zejście gradientowe?
Kiedy możemy rozróżnić funkcję kosztu i znaleźć parametry, rozwiązując równania uzyskane przez częściowe różnicowanie w odniesieniu do każdego parametru i dowiedzieć się, gdzie funkcja kosztu jest minimalna. Myślę też, że można znaleźć wiele miejsc, w których pochodne są zerowe, dzięki czemu możemy sprawdzić wszystkie takie miejsca i znaleźć globalne minima …

2
Jak próbkować z dyskretnego rozkładu na liczbach całkowitych nieujemnych?
Mam następujący dyskretny rozkład, w którym są znanymi stałymi:α , βα,β\alpha,\beta p ( x ; α , β) =Beta ( α + 1 , β+ x )Beta ( α , β)dla x = 0 , 1 , 2 , …p(x;α,β)=Beta(α+1,β+x)Beta(α,β)dla x=0,1,2),… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots …

3
Wykrywanie anomalii szeregów czasowych za pomocą Pythona
Muszę wdrożyć wykrywanie anomalii w kilku zestawach danych szeregów czasowych. Nigdy wcześniej tego nie robiłem i liczyłem na radę. Bardzo dobrze czuję się w Pythonie, więc wolałbym, aby rozwiązanie było zaimplementowane w nim (większość mojego kodu to Python dla innych części mojej pracy). Opis danych: to miesięczne dane szeregów czasowych, …

1
koszt próbkowania w wysokości
Natknąłem się na następujący problem z symulacją: biorąc pod uwagę zestaw {ω1, ... ,ωre}{ω1,…,ωd}\{\omega_1,\ldots,\omega_d\} znanych liczb rzeczywistych, rozkład na { - 1 , 1}re{−1,1}d\{-1,1\}^d jest zdefiniowany przez P (X= (x1, ... ,xre) ) ∝ (x1ω1+ … +xreωre)+P(X=(x1,…,xd))∝(x1ω1+…+xdωd)+\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+ gdzie ( z)+(z)+(z)_+ oznacza pozytywną część zzz. Chociaż mogę wymyślić próbnik Metropolis-Hastings …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.