Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych


4
Jak interpretować wykres QQ
Pracuję z małym zestawem danych (21 obserwacji) i mam następujący normalny wykres QQ w R: Widząc, że fabuła nie obsługuje normalności, co mogę wnioskować o rozkładzie podstawowym? Wydaje mi się, że rozkład bardziej przesunięty w prawo byłby lepszym rozwiązaniem, prawda? Jakie inne wnioski możemy wyciągnąć z danych?

9
Skąd ta nagła fascynacja tensorami?
Zauważyłem ostatnio, że wiele osób opracowuje ekwiwalenty tensora wielu metod (faktoryzacja tensora, jądra tensora, tensory do modelowania tematów itp.) Zastanawiam się, dlaczego świat jest nagle zafascynowany tensorami? Czy pojawiły się ostatnio ostatnie artykuły / standardowe wyniki, które są szczególnie zaskakujące? Czy jest obliczeniowo dużo tańszy niż wcześniej podejrzewano? Nie jestem …

3
Kiedy powinienem używać lasso kontra grzbiet?
Powiedzmy, że chcę oszacować dużą liczbę parametrów i chcę ukarać niektóre z nich, ponieważ uważam, że powinny one mieć niewielki wpływ w porównaniu z innymi. Jak zdecydować, jakiego schematu kary użyć? Kiedy regresja kalenicy jest bardziej odpowiednia? Kiedy powinienem używać lasso?



8
Jak radzić sobie z idealną separacją w regresji logistycznej?
Jeśli masz zmienną, która doskonale oddziela zera i jedynki w zmiennej docelowej, R wyświetli następujący komunikat ostrzegawczy „idealna lub quasi idealna separacja”: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Nadal otrzymujemy model, ale szacunki współczynników są zawyżone. Jak sobie z tym radzisz w praktyce?


3
Ściąglejszy ściągacz R.
Na tym forum toczy się wiele dyskusji na temat właściwego sposobu określania różnych modeli hierarchicznych lmer. Pomyślałem, że wspaniale byłoby mieć wszystkie informacje w jednym miejscu. Kilka pytań na początek: Jak określić wiele poziomów, gdzie jedna grupa jest zagnieżdżony w drugiej: jest to (1|group1:group2)albo (1+group1|group2)? Jaka jest różnica między (~1 …

3
ROC vs krzywe precyzji i przywołania
Rozumiem formalne różnice między nimi, chcę wiedzieć, kiedy bardziej odpowiednie jest użycie jednego kontra drugiego. Czy zawsze zapewniają komplementarny wgląd w działanie danego systemu klasyfikacji / wykrywania? Kiedy uzasadnione jest podanie ich obu, powiedzmy, w formie papierowej? zamiast tylko jednego? Czy istnieją jakieś alternatywne (być może bardziej nowoczesne) deskryptory, które …


2
Generatywne a dyskryminujące
Wiem, że generatywny oznacza „oparty na P.( x , y)P.(x,r)P(x,y) ”, a dyskryminujący oznacza „oparty na P.( y| x)P.(r|x)P(y|x) ”, ale jestem zdezorientowany w kilku kwestiach: Wikipedia (+ wiele innych trafień w sieci) klasyfikuje takie rzeczy jak maszyny SVM i drzewa decyzyjne jako dyskryminujące. Ale nie mają nawet probabilistycznych interpretacji. …


6
Czy wartość rozkładu prawdopodobieństwa przekraczająca 1 może być OK?
Na stronie Wikipedii o naiwnych klasyfikatorach Bayesa znajduje się następujący wiersz: p(height|male)=1.5789p(hmijasolht|mzalmi)=1,5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (rozkład prawdopodobieństwa na 1 jest OK. Jest to obszar pod krzywą dzwonową równy 1.) Jak wartość być OK? Myślałem, że wszystkie wartości prawdopodobieństwa zostały wyrażone w zakresie . Ponadto, biorąc pod uwagę, że można mieć taką …

6
Jak wybrać model predykcyjny po k-krotnej walidacji krzyżowej?
Zastanawiam się, jak wybrać model predykcyjny po przeprowadzeniu krzyżowej weryfikacji K-fold. Może to być niezręcznie sformułowane, więc pozwól mi wyjaśnić bardziej szczegółowo: za każdym razem, gdy uruchamiam K-krotnie weryfikację krzyżową, używam K podzbiorów danych treningowych i kończę na K różnych modelach. Chciałbym wiedzieć, jak wybrać jeden z modeli K, aby …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.