Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

28
Zrozumienie analizy głównych składników, wektorów własnych i wartości własnych
W dzisiejszej klasie rozpoznawania wzorców mój profesor mówił o PCA, wektorach własnych i wartościach własnych. Zrozumiałem matematykę. Jeśli poproszę o znalezienie wartości własnych itp. Zrobię to poprawnie jak maszyna. Ale nie zrozumiałem tego. Nie zrozumiałem tego. Nie czułem tego. Mocno wierzę w następujący cytat: Tak naprawdę czegoś nie rozumiesz, chyba …


10
Jaka jest różnica między „prawdopodobieństwem” a „prawdopodobieństwem”?
Strona wikipedia twierdzi, że prawdopodobieństwo i prawdopodobieństwo to odrębne pojęcia. W języku nietechnicznym „prawdopodobieństwo” jest zwykle synonimem „prawdopodobieństwa”, ale w zastosowaniu statystycznym istnieje wyraźne rozróżnienie w perspektywie: liczba, która jest prawdopodobieństwem niektórych zaobserwowanych wyników przy danym zestawie wartości parametrów, jest uważana za prawdopodobieństwo zbioru wartości parametrów z uwzględnieniem zaobserwowanych wyników. …

11
Jaka intuicja kryje się za dystrybucją wersji beta?
Oświadczenie: Nie jestem statystykiem, ale inżynierem oprogramowania. Większość mojej wiedzy statystycznej pochodzi z samokształcenia, dlatego wciąż mam wiele luk w zrozumieniu pojęć, które mogą wydawać się trywialne dla innych ludzi. Byłbym więc bardzo wdzięczny, gdyby odpowiedzi zawierały mniej szczegółowe warunki i więcej wyjaśnień. Wyobraź sobie, że rozmawiasz ze swoją babcią …

11
Jaka jest różnica między zestawem testowym a zestawem walidacyjnym?
Zauważyłem to mylące, gdy korzystam z przybornika sieci neuronowej w Matlabie. Podzielił nieprzetworzony zestaw danych na trzy części: zestaw treningowy zestaw sprawdzania poprawności zestaw testowy Zauważam, że w wielu algorytmach szkoleniowych lub uczących się dane często dzielą się na 2 części, zestaw szkoleniowy i zestaw testowy. Moje pytania to: jaka …

20
Dwie kultury: statystyki a uczenie maszynowe?
W zeszłym roku przeczytałem post na blogu od Brendana O'Connora zatytułowany „Statystyka vs. uczenie maszynowe, walka!” omawiające niektóre różnice między tymi dwoma polami. Andrew Gelman odpowiedział pozytywnie na to : Simon Blomberg: Z pakietu fortuny R.: Prowokując parafrazując „uczenie maszynowe to statystyka pomniejszona o sprawdzenie modeli i założeń”. - Brian …

22
Po co różnicować różnicę zamiast przyjmować wartość bezwzględną w odchyleniu standardowym?
W definicji odchylenia standardowego, dlaczego musimy wyrównać różnicę od średniej, aby uzyskać średnią (E) i wziąć pierwiastek kwadratowy z powrotem na końcu? Czy nie możemy po prostu wziąć zamiast tego wartości bezwzględnej różnicy i uzyskać oczekiwaną (średnią) z nich, i czy nie pokazałoby to również zmienności danych? Liczba będzie różna …

5
Jak zrozumieć wady K-średnich
K-średnich jest szeroko stosowaną metodą analizy skupień. W moim rozumieniu ta metoda NIE wymaga ŻADNYCH założeń, tj. Podaj mi zbiór danych i wcześniej określoną liczbę klastrów, k, i po prostu stosuję ten algorytm, który minimalizuje sumę błędów kwadratu (SSE), wewnątrz klastra do kwadratu błąd. Zatem k-średnich jest zasadniczo problemem optymalizacyjnym. …

25
Python jako stół roboczy statystyk
Wiele osób korzysta z głównego narzędzia, takiego jak Excel lub inny arkusz kalkulacyjny, SPSS, Stata lub R do swoich potrzeb statystycznych. Mogą zwrócić się do konkretnego pakietu dla bardzo specjalnych potrzeb, ale wiele rzeczy można zrobić za pomocą prostego arkusza kalkulacyjnego lub ogólnego pakietu statystyk lub środowiska programowania statystyk. Zawsze …
355 r  spss  stata  python 


30
Jaka jest twoja ulubiona kreskówka „analiza danych”?
To jedno z moich ulubionych: Jeden wpis na odpowiedź. (Jest to zgodne z pytaniem dotyczącym przepełnienia stosu. Jaka jest twoja ulubiona kreskówka „programista”? ) PS Proszę nie przesyłać linków do kreskówek bez zgody strony.
343 humor 


11
Wyjaśnianie laikom, dlaczego działa ładowanie początkowe
Niedawno użyłem ładowania początkowego, aby oszacować przedziały ufności dla projektu. Ktoś, kto niewiele wie o statystykach, ostatnio poprosił mnie o wyjaśnienie, dlaczego działa ładowanie początkowe, tj. Dlaczego ponowne próbkowanie tej samej próbki w kółko daje dobre wyniki. Zdałem sobie sprawę, że chociaż spędziłem dużo czasu na zrozumieniu, jak z niego …



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.