Pytania otagowane jako self-study

Rutynowe ćwiczenie z podręcznika, kursu lub testu stosowane na zajęciach lub do samodzielnej nauki. Polityka tej społeczności polega na „udzielaniu pomocnych wskazówek” w przypadku takich pytań, a nie na udzielaniu pełnych odpowiedzi.

1
Gradienty dla słowa skipgram 2
Przechodzę przez problemy w pisemnych problemach z klasą głębokiego uczenia się NLP Stanforda http://cs224d.stanford.edu/assignment1/assignment1_soln Próbuję zrozumieć odpowiedź dla 3a, gdzie szukają pochodnej wektora dla środkowego słowa. Załóżmy, że otrzymałeś przewidywany wektor słowa odpowiadający środkowemu słowu c dla skipgramu, a przewidywania słów dokonuje się za pomocą funkcji softmax występującej w modelach …

2
Bezstronny estymator parametru Poissona
Liczba wypadków na dzień jest zmienną losową Poissona o parametrze , w 10 losowo wybranych dniach zaobserwowano liczbę wypadków jako 1,0,1,1,2,0,2,0,0,1, co będzie być obiektywnym estymatorem ?λλ\lambdaeλeλe^{\lambda} Próbowałem w ten sposób: Wiemy, że , ale . Więc jaki będzie wymagany obiektywny estymator?E(x¯)=λ=0.8E(x¯)=λ=0.8E(\bar{x})=\lambda=0.8E(ex¯)≠ eλE(ex¯)≠ eλE(e^{\bar{x}})\neq\ e^{\lambda}

2
Porównanie estymatorów Bayesa
Rozważmy kwadratową stratę , z podanym wcześniej gdzie . Niech prawdopodobieństwo. Znajdź estymator Bayesa .L(θ,δ)=(θ−δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ)π(θ)\pi(\theta)π(θ)∼U(0,1/2)π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi Rozważ ważoną stratę kwadratową gdzie z wcześniejszym . Niech będzie prawdopodobieństwem. Znajdź estymator Bayesa .Lw(θ,δ)=w(θ)(θ−δ)2Lw(θ,δ)=w(θ)(θ−δ)2L_w(\theta,\delta)=w(\theta)(\theta-\delta)^2w(θ)=I(−∞,1/2)w(θ)=I(−∞,1/2)w(\theta)=\mathbb{I}_{(-\infty,1/2)}π1(θ)=I[0,1](θ)π1(θ)=I[0,1](θ)\pi_1(\theta)=\mathbb{I}_{[0,1]}(\theta)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπ1δ1π\delta^\pi_1 Porównaj iδπδπ\delta^\piδπ1δ1π\delta^\pi_1 Najpierw zauważyłem, że , i założyłem, że takie jest prawdopodobieństwo, w przeciwnym razie …

2
Pomoc w oczekiwaniu Maksymalizacja z papieru: jak uwzględnić wcześniejszą dystrybucję?
Pytanie oparte jest na pracy zatytułowanej: Rekonstrukcja obrazu w rozproszonej tomografii optycznej z wykorzystaniem sprzężonego radiacyjnego modelu transportowo-dyfuzyjnego Link do pobrania Autorzy stosują algorytm EM z rzadkości nieznanego wektora celu oszacowania pikseli obrazu. Model podajel1l1l_1μμ\mu y=Aμ+e(1)(1)y=Aμ+ey=A\mu + e \tag{1} Oszacowanie podano w równaniu (8) as μ^=argmaxlnp(y|μ)+γlnp(μ)(2)(2)μ^=arg⁡maxln⁡p(y|μ)+γln⁡p(μ)\hat{\mu} = \arg max {\ln …

2
Przekształcanie statystyk zamówień
Załóżmy, że zmienne losowe i są niezależne i przez . Pokaż, że ma \ dystrybucja tekstu {Exp} (1) .X1,...,XnX1,...,XnX_1, ... , X_nY1,...,YnY1,...,YnY_1, ..., Y_nU(0,a)U(0,a)U(0,a)Zn=nlogmax(Y(n),X(n))min(Y(n),X(n))Zn=nlog⁡max(Y(n),X(n))min(Y(n),X(n))Z_n= n\log\frac{\max(Y_{(n)},X_{(n)})}{\min(Y_{(n)},X_{(n)})}Exp(1)Exp(1)\text{Exp}(1) Zacząłem ten problem, ustawiając {X1,...,Xn,Y1,...Yn}={Z1,...,Zn}{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}\{X_1,...,X_n,Y_1,...Y_n\} = \{Z_1,...,Z_n\} Następnie max(Yn,Xn)=Z(2n)max(Yn,Xn)=Z(2n)\max(Y_n,X_n)= Z_{(2n)} będzie rozpowszechniany jako (za)2n(za)2n(\frac{z}{a})^{2n} a min(Yn,Xn)=Z(1)min(Yn,Xn)=Z(1)\min(Y_n,X_n)= Z_{(1)} będzie dystrybuowany jako 1−(1−za)2n1−(1−za)2n1 - (1 - \frac{z}{a})^{2n} …

1
niezmienność korelacji z transformacją liniową:
Jest to faktycznie jeden z problemów w czwartym wydaniu Gujarati Basic Econometrics (Q3.11) i mówi, że współczynnik korelacji jest niezmienny w odniesieniu do zmiany pochodzenia i skali, czyli gdzie , , , są stałymi arbitralnymi.corr(aX+b,cY+d)=corr(X,Y)corr(aX+b,cY+d)=corr(X,Y)\text{corr}(aX+b, cY+d) = \text{corr}(X,Y)aaabbbcccddd Ale moje główne pytanie jest następujące: Niech i będą sparowanymi obserwacjami i …

3
Jak to udowodnić
Próbowałem ustalić nierówność |Ti|=∣∣Xi−X¯∣∣S≤n−1n−−√|Ti|=|Xi−X¯|S≤n−1n\left| T_i \right|=\frac{\left|X_i -\bar{X} \right|}{S} \leq\frac{n-1}{\sqrt{n}} gdzie to średnia próbki, a standardowe odchylenie próbki, to znaczy .X¯X¯\bar{X}SSSS=∑ni=1(Xi−X¯)2n−1−−−−−−−−−√S=∑i=1n(Xi−X¯)2n−1S=\sqrt{\frac{\sum_{i=1}^n \left( X_i -\bar{X} \right)^2}{n-1}} Łatwo zauważyć, że a więc ale to nie jest bardzo blisko tego, czego szukałem, ani nie jest to przydatne ograniczenie. Eksperymentowałem z Cauchy-Schwarzem i nierównościami trójkąta, …

1
W jaki sposób wzmocnienie gradientu przypomina opadanie gradientu?
Czytam przydatny wpis w Wikipedii na temat zwiększania gradientu ( https://en.wikipedia.org/wiki/Gradient_boosting ) i próbuję zrozumieć, w jaki sposób / dlaczego możemy przybliżać reszty za pomocą najbardziej stromego kroku opadania (zwanego również pseudo-gradientem ). Czy ktoś może mi podpowiedzieć, w jaki sposób najbardziej strome zejście jest powiązane / podobne do resztek? …

4
Oczekiwana liczba rzutów kostkami wymaga, aby suma była większa lub równa K?
6-stronna kostka jest rzutowana iteracyjnie. Jaka jest oczekiwana liczba rzutów wymagana do uzyskania sumy większej lub równej K? Przed edycją P(Sum>=1 in exactly 1 roll)=1 P(Sum>=2 in exactly 1 roll)=5/6 P(Sum>=2 in exactly 2 rolls)=1/6 P(Sum>=3 in exactly 1 roll)=5/6 P(Sum>=3 in exactly 2 rolls)=2/6 P(Sum>=3 in exactly 3 rolls)=1/36 …


1
Jeśli są niezależną wersją beta, pokaż to również wersja beta
Oto problem, który pojawił się podczas egzaminu semestralnego na naszej uczelni kilka lat temu, z którym staram się rozwiązać. Jeśli są niezależnymi zmiennymi losowymi o gęstości odpowiednio gęstości i to pokaż, że następuje po .X1,X2X1,X2X_1,X_2ββ\betaβ(n1,n2)β(n1,n2)\beta(n_1,n_2)β(n1+12,n2)β(n1+12,n2)\beta(n_1+\dfrac{1}{2},n_2)X1X2−−−−−√X1X2\sqrt{X_1X_2}β(2n1,2n2)β(2n1,2n2)\beta(2n_1,2n_2) Użyłem metody jakobianu, aby uzyskać, że gęstość jest następująca: Y=X1X2−−−−−√Y=X1X2Y=\sqrt{X_1X_2}fY(y)=4y2n1B(n1,n2)B(n1+12,n2)∫1y1x2(1−x2)n2−1(1−y2x2)n2−1dxfY(y)=4y2n1B(n1,n2)B(n1+12,n2)∫y11x2(1−x2)n2−1(1−y2x2)n2−1dxf_Y(y)=\dfrac{4y^{2n_1}}{B(n_1,n_2)B(n_1+\dfrac{1}{2},n_2)}\int_y^1\dfrac{1}{x^2}(1-x^2)^{n_2-1}(1-\dfrac{y^2}{x^2})^{n_2-1}dx Właściwie w tym momencie jestem …

1
Rozwiązanie do ćwiczenia 2.2a.16 „Solidnych statystyk: podejście oparte na funkcjach wpływu”
Na stronie 180 szczegółowych statystyk: Podejście oparte na funkcjach wpływu można znaleźć następujące pytanie: 16: Pokaż, że zawsze dla estymatorów niezmienniczych dla lokalizacji ε∗≤12ε∗≤12\varepsilon^*\leq\frac{1}{2}. Znajdź odpowiednią górną granicę w punkcie podziału próby skończonejε∗nεn∗\varepsilon^*_n, zarówno w przypadku, gdy nnn jest nieparzysty lub nnn jest parzysty. Druga część (po kropce) jest właściwie …

1
Czy ujemny dwumian nie jest wyrażalny jak w rodzinie wykładniczej, jeśli istnieją 2 niewiadome?
Miałem zadanie domowe, aby wyrazić ujemny rozkład dwumianowy jako wykładniczą rodzinę rozkładów, biorąc pod uwagę, że parametr dyspersji był znaną stałą. Było to dość łatwe, ale zastanawiałem się, dlaczego wymagałyby, abyśmy utrzymali ten parametr w naprawie. Odkryłem, że nie mogę znaleźć sposobu, aby ustawić go we właściwej formie, ponieważ dwa …

1
Uzyskiwanie wektorów kointegracyjnych metodą Johansena
Próbuję zrozumieć lepszą metodę Johansena, dlatego opracowałem przykład 3.1 podany w książce Likelihood-Based-Inference-Cointegrated-Autoregressive-Econometrics, w której mamy trzy procesy: X1t=∑i=1tϵ1i+ϵ2tX1t=∑i=1tϵ1i+ϵ2tX_{1t} = \sum_{i=1}^t \epsilon_{1i} + \epsilon_{2t} X2t=α∑i=1tϵ1i+ϵ3tX2t=α∑i=1tϵ1i+ϵ3t X_{2t} = \alpha \sum_{i=1}^t \epsilon_{1i} + \epsilon_{3t} X3t=ϵ4tX3t=ϵ4t X_{3t} = \epsilon_{4t} więc wektorami kointegracji powinny być [a, -1, 0] i [0, 0 1], ale kiedy …

1
Co to jest CDF z dwoma próbkami
Próbuję zrozumieć, jak uzyskać wartości dla jednostronnego testu Kołmogorowa-Smirnowa i staram się znaleźć CDF dla i w przypadku dwóch próbek. Poniżej podano w kilku miejscach CDF dla w przypadku jednej próby:pppD+n1,n2Dn1,n2+D^{+}_{n_{1},n_{2}}D−n1,n2Dn1,n2−D^{-}_{n_{1},n_{2}}D+nDn+D^{+}_{n} p+n(x)=P(D+n≥x|H0)=x∑j=0⌊n(1−x)⌋(nj)(jn+x)j−1(1−x−jn)n−jpn+(x)=P(Dn+≥x|H0)=x∑j=0⌊n(1−x)⌋(nj)(jn+x)j−1(1−x−jn)n−jp^{+}_{n}\left(x\right) = \text{P}\left(D^{+}_{n} \ge x | \text{H}_{0}\right) = x\sum_{j=0}^{\lfloor n\left(1-x\right)\rfloor}{ \binom{n}{j} \left(\frac{j}{n}+x\right)^{j-1}\left(1 - x - \frac{j}{n}\right)^{n-j}} Co więcej, istnieje …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.