Statystyki i duże zbiory danych

6

Zasada zwijania zmiennych jakościowych na wielu poziomach?

Jakie techniki są dostępne do zwijania (lub łączenia) wielu kategorii do kilku, w celu wykorzystania ich jako danych wejściowych (predyktorów) w modelu statystycznym? Rozważ zmienną taką jak kierunek studiów studenckich (dyscyplina wybrana przez studenta). Jest nieuporządkowany i kategoryczny, ale potencjalnie może mieć dziesiątki różnych poziomów. Powiedzmy, że chcę użyć major …

58 regression categorical-data dimensionality-reduction feature-construction many-categories

6

Co to jest „nasycony” model?

Co należy rozumieć, gdy mówimy, że mamy model nasycony?

58 modeling regression

3

Jaka jest różnica między sieciami neuronowymi typu feed-forward a rekurencyjnymi?

Jaka jest różnica między feed-forward i nawracających sieci neuronowej? Dlaczego miałbyś używać jednego nad drugim? Czy istnieją inne topologie sieci?

58 machine-learning neural-networks terminology rnn topologies

11

Łamigłówka: Jak wygenerować 7 liczb całkowitych z jednakowym prawdopodobieństwem przy użyciu stronniczej monety, która ma pr (głowa) = p?

Oto pytanie, które znalazłem na Glassdoor : Jak wygenerować 7 liczb całkowitych z jednakowym prawdopodobieństwem, używając monety, która ma Pr(Head)=p∈(0,1)P.r(Głowa)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) ? Zasadniczo masz monetę, która może, ale nie musi być uczciwa, i jest to jedyny proces generowania liczb losowych, jaki masz, więc wymyśl generator liczb losowych, który generuje …

58 probability binomial random-generation

3

Średni błąd bezwzględny LUB średni błąd kwadratu pierwiastka?

Dlaczego warto korzystać z podstawowego średniego błędu kwadratu (RMSE) zamiast średniego bezwzględnego błędu (MAE)? cześć Badałem błąd wygenerowany w obliczeniach - początkowo obliczyłem błąd jako błąd pierwiastkowy znormalizowany do kwadratu. Patrząc trochę bliżej, widzę, że efekt kwadratu błędu nadaje większą wagę większym błędom niż mniejszym, przekrzywiając oszacowanie błędu w kierunku …

58 least-squares mean rms mae

2

Jak mogę zmienić tytuł legendy w ggplot2? [Zamknięte]

Mam wykres, który tworzę w ggplot2, aby podsumować dane, które pochodzą z 2 x 4 x 3 komórek. Byłem w stanie wykonać panele dla zmiennej 2-poziomowej za pomocą facet_grid(. ~ Age)i ustawić za pomocą osi xiy aes(x=4leveledVariable, y=DV). Kiedyś aes(group=3leveledvariable, lty=3leveledvariable)produkować fabułę tej pory. To daje mi wizualizację, która jest …

58 r data-visualization ggplot2

7

Jak działa sztuczka reparametryzacji VAE i dlaczego jest ważna?

Jak działa sztuczka reparametryzacji dla wariacyjnych autoencoderów (VAE)? Czy istnieje intuicyjne i łatwe wyjaśnienie bez uproszczenia podstawowej matematyki? A dlaczego potrzebujemy „sztuczki”?

57 mathematical-statistics autoencoders variational-bayes generative-models

1

Zrozumienie krzywej ROC

Mam problem ze zrozumieniem krzywej ROC. Czy jest jakaś przewaga / poprawa w obszarze pod krzywą ROC, jeśli zbuduję różne modele z każdego unikalnego podzbioru zestawu treningowego i użyję go do ustalenia prawdopodobieństwa? Na przykład, jeśli ma wartości { a , a , a , a , b , b …

57 r roc

1

Dlaczego transformacja pierwiastka kwadratowego jest zalecana dla danych zliczania?

Często zaleca się, aby wziąć pierwiastek kwadratowy, gdy zliczasz dane. (Aby zapoznać się z niektórymi przykładami CV, patrz odpowiedź @ Harveya Motulsky'ego tutaj lub odpowiedź @ whubera tutaj .) Z drugiej strony, podczas dopasowywania uogólnionego modelu liniowego ze zmienną odpowiedzi rozmieszczoną jako Poisson, log jest łącznikiem kanonicznym . Jest to …

57 generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing

13

Czy 10 głów z rzędu zwiększa szansę, że następnym rzutem będzie ogon?

Zakładam, że jest to prawdą: zakładanie uczciwej monety, zdobywanie 10 głów z rzędu podczas rzucania monetą nie zwiększa szansy na to, że następnym rzutem monetą będzie ogon , bez względu na to, jakie prawdopodobieństwo i / lub żargon statystyczny jest rzucany (przepraszam za kalambury). Zakładając, że tak jest, moje pytanie …

57 probability independence intuition games bernoulli-process

4

Jaki jest powód, dla którego funkcja wiarygodności nie jest plikiem pdf?

Jaki jest powód, dla którego funkcja prawdopodobieństwa nie jest pdf (funkcja gęstości prawdopodobieństwa)?

57 likelihood pdf

7

Przykłady, w których metoda momentów może przekroczyć maksymalne prawdopodobieństwo w małych próbkach?

Estymatory maksymalnego prawdopodobieństwa (MLE) są asymptotycznie skuteczne; widzimy praktyczny wynik w tym, że często wypadają lepiej niż szacunki metodą momentów (MoM) (gdy się różnią), nawet przy małych próbkach Tutaj „lepsze niż” oznacza w tym sensie, że zazwyczaj ma mniejszą wariancję, gdy oba są obiektywne, i zazwyczaj mniejszy średni błąd kwadratowy …

57 estimation maximum-likelihood mse method-of-moments efficiency

4

Czy sensowne jest dodanie do modelu członu kwadratowego, ale nie liniowego?

Mam (mieszany) model, w którym jeden z moich predyktorów powinien z góry być kwadratowo powiązany tylko z predyktorem (z powodu manipulacji eksperymentalnej). Dlatego chciałbym dodać do modelu tylko kwadratowy termin. Dwie rzeczy powstrzymują mnie od tego: Myślę, że czytałem już gdzieś, że zawsze powinieneś uwzględniać wielomian niższego rzędu przy dopasowywaniu …

57 regression polynomial

11

Materiały do nauki łańcucha Markowa i ukrytych modeli Markowa

Szukam zasobów (samouczki, podręczniki, webcast itp.), Aby dowiedzieć się więcej o Markov Chain i HMM. Pochodzę z zawodu biologa i obecnie jestem zaangażowany w projekt związany z bioinformatyką. Ponadto, jakie są niezbędne podstawy matematyczne, których potrzebuję, aby dobrze zrozumieć modele Markowa i HMM? Rozglądałem się za pomocą Google, ale jak …

57 references markov-process hidden-markov-model bioinformatics

5

Jak niewielka ilość powinna być dodana do x, aby uniknąć przyjęcia logarytmu zerowego?

Analizowałem moje dane takimi, jakie są. Teraz chcę spojrzeć na moje analizy po pobraniu dziennika wszystkich zmiennych. Wiele zmiennych zawiera wiele zer. Dlatego dodaję niewielką ilość, aby uniknąć przyjęcia logarytmu zerowego. Do tej pory dodałem 10 ^ -10, bez żadnego uzasadnienia, tylko dlatego, że czułem, że dodanie bardzo małej ilości …

57 data-transformation chemometrics