Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

6
Zasada zwijania zmiennych jakościowych na wielu poziomach?
Jakie techniki są dostępne do zwijania (lub łączenia) wielu kategorii do kilku, w celu wykorzystania ich jako danych wejściowych (predyktorów) w modelu statystycznym? Rozważ zmienną taką jak kierunek studiów studenckich (dyscyplina wybrana przez studenta). Jest nieuporządkowany i kategoryczny, ale potencjalnie może mieć dziesiątki różnych poziomów. Powiedzmy, że chcę użyć major …



11
Łamigłówka: Jak wygenerować 7 liczb całkowitych z jednakowym prawdopodobieństwem przy użyciu stronniczej monety, która ma pr (głowa) = p?
Oto pytanie, które znalazłem na Glassdoor : Jak wygenerować 7 liczb całkowitych z jednakowym prawdopodobieństwem, używając monety, która ma Pr(Head)=p∈(0,1)P.r(Głowa)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) ? Zasadniczo masz monetę, która może, ale nie musi być uczciwa, i jest to jedyny proces generowania liczb losowych, jaki masz, więc wymyśl generator liczb losowych, który generuje …

3
Średni błąd bezwzględny LUB średni błąd kwadratu pierwiastka?
Dlaczego warto korzystać z podstawowego średniego błędu kwadratu (RMSE) zamiast średniego bezwzględnego błędu (MAE)? cześć Badałem błąd wygenerowany w obliczeniach - początkowo obliczyłem błąd jako błąd pierwiastkowy znormalizowany do kwadratu. Patrząc trochę bliżej, widzę, że efekt kwadratu błędu nadaje większą wagę większym błędom niż mniejszym, przekrzywiając oszacowanie błędu w kierunku …
58 least-squares  mean  rms  mae 

2
Jak mogę zmienić tytuł legendy w ggplot2? [Zamknięte]
Mam wykres, który tworzę w ggplot2, aby podsumować dane, które pochodzą z 2 x 4 x 3 komórek. Byłem w stanie wykonać panele dla zmiennej 2-poziomowej za pomocą facet_grid(. ~ Age)i ustawić za pomocą osi xiy aes(x=4leveledVariable, y=DV). Kiedyś aes(group=3leveledvariable, lty=3leveledvariable)produkować fabułę tej pory. To daje mi wizualizację, która jest …


1
Zrozumienie krzywej ROC
Mam problem ze zrozumieniem krzywej ROC. Czy jest jakaś przewaga / poprawa w obszarze pod krzywą ROC, jeśli zbuduję różne modele z każdego unikalnego podzbioru zestawu treningowego i użyję go do ustalenia prawdopodobieństwa? Na przykład, jeśli ma wartości { a , a , a , a , b , b …
57 r  roc 

1
Dlaczego transformacja pierwiastka kwadratowego jest zalecana dla danych zliczania?
Często zaleca się, aby wziąć pierwiastek kwadratowy, gdy zliczasz dane. (Aby zapoznać się z niektórymi przykładami CV, patrz odpowiedź @ Harveya Motulsky'ego tutaj lub odpowiedź @ whubera tutaj .) Z drugiej strony, podczas dopasowywania uogólnionego modelu liniowego ze zmienną odpowiedzi rozmieszczoną jako Poisson, log jest łącznikiem kanonicznym . Jest to …

13
Czy 10 głów z rzędu zwiększa szansę, że następnym rzutem będzie ogon?
Zakładam, że jest to prawdą: zakładanie uczciwej monety, zdobywanie 10 głów z rzędu podczas rzucania monetą nie zwiększa szansy na to, że następnym rzutem monetą będzie ogon , bez względu na to, jakie prawdopodobieństwo i / lub żargon statystyczny jest rzucany (przepraszam za kalambury). Zakładając, że tak jest, moje pytanie …


7
Przykłady, w których metoda momentów może przekroczyć maksymalne prawdopodobieństwo w małych próbkach?
Estymatory maksymalnego prawdopodobieństwa (MLE) są asymptotycznie skuteczne; widzimy praktyczny wynik w tym, że często wypadają lepiej niż szacunki metodą momentów (MoM) (gdy się różnią), nawet przy małych próbkach Tutaj „lepsze niż” oznacza w tym sensie, że zazwyczaj ma mniejszą wariancję, gdy oba są obiektywne, i zazwyczaj mniejszy średni błąd kwadratowy …

4
Czy sensowne jest dodanie do modelu członu kwadratowego, ale nie liniowego?
Mam (mieszany) model, w którym jeden z moich predyktorów powinien z góry być kwadratowo powiązany tylko z predyktorem (z powodu manipulacji eksperymentalnej). Dlatego chciałbym dodać do modelu tylko kwadratowy termin. Dwie rzeczy powstrzymują mnie od tego: Myślę, że czytałem już gdzieś, że zawsze powinieneś uwzględniać wielomian niższego rzędu przy dopasowywaniu …

11
Materiały do ​​nauki łańcucha Markowa i ukrytych modeli Markowa
Szukam zasobów (samouczki, podręczniki, webcast itp.), Aby dowiedzieć się więcej o Markov Chain i HMM. Pochodzę z zawodu biologa i obecnie jestem zaangażowany w projekt związany z bioinformatyką. Ponadto, jakie są niezbędne podstawy matematyczne, których potrzebuję, aby dobrze zrozumieć modele Markowa i HMM? Rozglądałem się za pomocą Google, ale jak …

5
Jak niewielka ilość powinna być dodana do x, aby uniknąć przyjęcia logarytmu zerowego?
Analizowałem moje dane takimi, jakie są. Teraz chcę spojrzeć na moje analizy po pobraniu dziennika wszystkich zmiennych. Wiele zmiennych zawiera wiele zer. Dlatego dodaję niewielką ilość, aby uniknąć przyjęcia logarytmu zerowego. Do tej pory dodałem 10 ^ -10, bez żadnego uzasadnienia, tylko dlatego, że czułem, że dodanie bardzo małej ilości …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.