Statystyki i duże zbiory danych

28

Zrozumienie analizy głównych składników, wektorów własnych i wartości własnych

W dzisiejszej klasie rozpoznawania wzorców mój profesor mówił o PCA, wektorach własnych i wartościach własnych. Zrozumiałem matematykę. Jeśli poproszę o znalezienie wartości własnych itp. Zrobię to poprawnie jak maszyna. Ale nie zrozumiałem tego. Nie zrozumiałem tego. Nie czułem tego. Mocno wierzę w następujący cytat: Tak naprawdę czegoś nie rozumiesz, chyba …

975 pca intuition eigenvalues canonical-question

11

Jak wybrać liczbę ukrytych warstw i węzłów w sieci neuronowej z przekazywaniem danych?

Czy istnieje standardowa i akceptowana metoda wyboru liczby warstw i liczby węzłów w każdej warstwie w sieci neuronowej z przekazywaniem? Interesują mnie zautomatyzowane sposoby budowania sieci neuronowych.

540 model-selection neural-networks

10

Jaka jest różnica między „prawdopodobieństwem” a „prawdopodobieństwem”?

Strona wikipedia twierdzi, że prawdopodobieństwo i prawdopodobieństwo to odrębne pojęcia. W języku nietechnicznym „prawdopodobieństwo” jest zwykle synonimem „prawdopodobieństwa”, ale w zastosowaniu statystycznym istnieje wyraźne rozróżnienie w perspektywie: liczba, która jest prawdopodobieństwem niektórych zaobserwowanych wyników przy danym zestawie wartości parametrów, jest uważana za prawdopodobieństwo zbioru wartości parametrów z uwzględnieniem zaobserwowanych wyników. …

474 probability likelihood

11

Jaka intuicja kryje się za dystrybucją wersji beta?

Oświadczenie: Nie jestem statystykiem, ale inżynierem oprogramowania. Większość mojej wiedzy statystycznej pochodzi z samokształcenia, dlatego wciąż mam wiele luk w zrozumieniu pojęć, które mogą wydawać się trywialne dla innych ludzi. Byłbym więc bardzo wdzięczny, gdyby odpowiedzi zawierały mniej szczegółowe warunki i więcej wyjaśnień. Wyobraź sobie, że rozmawiasz ze swoją babcią …

438 distributions beta-distribution intuition beta-binomial

11

Jaka jest różnica między zestawem testowym a zestawem walidacyjnym?

Zauważyłem to mylące, gdy korzystam z przybornika sieci neuronowej w Matlabie. Podzielił nieprzetworzony zestaw danych na trzy części: zestaw treningowy zestaw sprawdzania poprawności zestaw testowy Zauważam, że w wielu algorytmach szkoleniowych lub uczących się dane często dzielą się na 2 części, zestaw szkoleniowy i zestaw testowy. Moje pytania to: jaka …

431 machine-learning validation

20

Dwie kultury: statystyki a uczenie maszynowe?

W zeszłym roku przeczytałem post na blogu od Brendana O'Connora zatytułowany „Statystyka vs. uczenie maszynowe, walka!” omawiające niektóre różnice między tymi dwoma polami. Andrew Gelman odpowiedział pozytywnie na to : Simon Blomberg: Z pakietu fortuny R.: Prowokując parafrazując „uczenie maszynowe to statystyka pomniejszona o sprawdzenie modeli i założeń”. - Brian …

420 machine-learning pac-learning

22

Po co różnicować różnicę zamiast przyjmować wartość bezwzględną w odchyleniu standardowym?

W definicji odchylenia standardowego, dlaczego musimy wyrównać różnicę od średniej, aby uzyskać średnią (E) i wziąć pierwiastek kwadratowy z powrotem na końcu? Czy nie możemy po prostu wziąć zamiast tego wartości bezwzględnej różnicy i uzyskać oczekiwaną (średnią) z nich, i czy nie pokazałoby to również zmienności danych? Liczba będzie różna …

408 standard-deviation definition

5

Jak zrozumieć wady K-średnich

K-średnich jest szeroko stosowaną metodą analizy skupień. W moim rozumieniu ta metoda NIE wymaga ŻADNYCH założeń, tj. Podaj mi zbiór danych i wcześniej określoną liczbę klastrów, k, i po prostu stosuję ten algorytm, który minimalizuje sumę błędów kwadratu (SSE), wewnątrz klastra do kwadratu błąd. Zatem k-średnich jest zasadniczo problemem optymalizacyjnym. …

365 machine-learning clustering data-mining k-means

25

Python jako stół roboczy statystyk

Wiele osób korzysta z głównego narzędzia, takiego jak Excel lub inny arkusz kalkulacyjny, SPSS, Stata lub R do swoich potrzeb statystycznych. Mogą zwrócić się do konkretnego pakietu dla bardzo specjalnych potrzeb, ale wiele rzeczy można zrobić za pomocą prostego arkusza kalkulacyjnego lub ogólnego pakietu statystyk lub środowiska programowania statystyk. Zawsze …

355 r spss stata python

3

Związek między SVD a PCA. Jak korzystać z SVD do wykonywania PCA?

Analiza głównego składnika (PCA) jest zwykle wyjaśniana za pomocą rozkładu własnego macierzy kowariancji. Jednakże, można także przeprowadzić za pomocą rozkładu wartości pojedyncza (SVD) macierzy danych . Jak to działa? Jaki jest związek między tymi dwoma podejściami? Jaki jest związek między SVD a PCA?XX\mathbf X Lub innymi słowy, jak użyć SVD …

351 pca dimensionality-reduction matrix svd

30

Jaka jest twoja ulubiona kreskówka „analiza danych”?

To jedno z moich ulubionych: Jeden wpis na odpowiedź. (Jest to zgodne z pytaniem dotyczącym przepełnienia stosu. Jaka jest twoja ulubiona kreskówka „programista”? ) PS Proszę nie przesyłać linków do kreskówek bez zgody strony.

343 humor

15

Rozumowanie bayesowskie i częste w prostym języku angielskim

Jak opisałbyś w prostym języku angielskim cechy odróżniające rozumowanie bayesowskie od częstościowego?

339 bayesian frequentist

11

Wyjaśnianie laikom, dlaczego działa ładowanie początkowe

Niedawno użyłem ładowania początkowego, aby oszacować przedziały ufności dla projektu. Ktoś, kto niewiele wie o statystykach, ostatnio poprosił mnie o wyjaśnienie, dlaczego działa ładowanie początkowe, tj. Dlaczego ponowne próbkowanie tej samej próbki w kółko daje dobre wyniki. Zdałem sobie sprawę, że chociaż spędziłem dużo czasu na zrozumieniu, jak z niego …

326 bootstrap communication

18

Co się stanie, jeśli zmienne objaśniające i odpowiedzi zostaną posortowane niezależnie przed regresją?

Załóżmy, że mamy zestaw danych z n punktami. Chcemy przeprowadzić regresję liniową, ale najpierw sortujemy wartości X_i i wartości Y_i niezależnie od siebie, tworząc zestaw danych (X_i, Y_j) . Czy jest jakaś sensowna interpretacja regresji w nowym zbiorze danych? Czy to ma imię?(Xi,Yi)(Xi,Yi)(X_i,Y_i)X i Y i ( X i , …

302 regression correlation

10

Różnica między modelami logit i probit

Jaka jest różnica między modelem Logit a modelem Probit ? Bardziej interesuje mnie wiedza o tym, kiedy stosować regresję logistyczną, a kiedy Probit. Jeśli jest jakaś literatura, która definiuje ją za pomocą R , to też byłoby pomocne.

299 r generalized-linear-model logistic probit link-function