Statystyki i duże zbiory danych

5

Jaka jest różnica między Problemem Wieloklasowym a Multilabelowym

Jaka jest różnica między problemem wieloklasowym a problemem wielopłaszczyznowym?

52 classification clustering terminology multi-class multilabel

7

Dlaczego termin regularyzacji * jest dodawany * do funkcji kosztu (zamiast pomnożonego itp.)?

Ilekroć stosuje się regularyzację, jest ona często dodawana do funkcji kosztu, na przykład w poniższej funkcji kosztu. Ma to dla mnie intuicyjny sens, ponieważ minimalizuję funkcja kosztu oznacza minimalizację błędu (lewy element) i minimalizację wielkości współczynników (prawy element) w tym samym czasie (lub przynajmniej równoważenie dwóch minimalizacji).J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta …

51 regularization

8

Co jest dobrym źródłem informacji na temat projektowania stołu?

Widziałem różne teoretyczne sposoby obróbki grafiki, takie jak gramatyka grafiki . Ale nie widziałem nic równoważnego w odniesieniu do tabel. Z czasem opracowałem nieformalny model dobrych praktyk w projektowaniu stołów. Chciałbym jednak zapewnić dobre referencje dla studentów. Instrukcja APA Style ma kilka wskazówek na temat projektowania tabeli, ale to tylko …

51 tables

4

Dlaczego nie podejść do klasyfikacji poprzez regresję?

Niektóre materiały, które widziałem na temat uczenia maszynowego, mówiły, że podejście do problemu klasyfikacji poprzez regresję jest złym pomysłem. Ale myślę, że zawsze można wykonać ciągłą regresję, aby dopasować dane i obciąć ciągłą prognozę, aby uzyskać dyskretne klasyfikacje. Dlaczego to zły pomysł?

51 regression machine-learning classification

6

Jak określić najlepszy punkt odcięcia i jego przedział ufności za pomocą krzywej ROC w R?

Mam dane z testu, który można by wykorzystać do rozróżnienia komórek normalnych i nowotworowych. Zgodnie z krzywą ROC wygląda dobrze do tego celu (pole pod krzywą wynosi 0,9): Moje pytania to: Jak ustalić punkt odcięcia dla tego testu i przedział ufności, w którym odczyty należy oceniać jako niejednoznaczne? Jaki jest …

51 r data-visualization confidence-interval roc ggplot2

3

Statystyki i wnioskowanie przyczynowe?

W swoim artykule z 1984 r. „Statystyka i wnioskowanie przyczynowe” Paul Holland podniósł jedno z najbardziej podstawowych pytań w statystyce: Co model statystyczny może powiedzieć o związku przyczynowym? Doprowadziło to do jego motto: BRAK PRZYCZYN BEZ MANIPULACJI co podkreślało znaczenie ograniczeń wokół eksperymentów uwzględniających związek przyczynowy. Andrew Gelman mówi podobnie …

51 causality

2

Jaka jest różnica między filtrem cząstek (sekwencyjnym Monte Carlo) a filtrem Kalmana?

Filtr cząstek , a filtr Kalmana są zarówno rekurencyjne Bayesa estymatory . Często spotykam filtry Kalmana w mojej dziedzinie, ale bardzo rzadko widzę użycie filtra cząstek. Kiedy jeden z nich będzie używany?

51 bayesian particle-filter kalman-filter

4

Wzajemne informacje a korelacja

Dlaczego i kiedy powinniśmy używać informacji wzajemnych zamiast pomiarów korelacji statystycznych, takich jak „Pearson”, „włócznik” lub „tau Kendalla”?

51 correlation mathematical-statistics mutual-information

3

Czy mamy problem z „litością przychylną”?

Wiem, może to zabrzmieć nie na temat, ale wysłuchaj mnie. W Stack Overflow i tutaj otrzymujemy głosy na posty, wszystko to jest przechowywane w formie tabelarycznej. Na przykład: post id identyfikator wyborcy typ głosowania datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 …

51 time-series hypothesis-testing data-mining markov-process censoring

5

Czy losowy las jest algorytmem wzmacniającym?

Krótka definicja wzmocnienia : Czy zestaw słabych uczniów może stworzyć jednego silnego ucznia? Słaby uczeń jest zdefiniowany jako klasyfikator, który jest tylko nieznacznie skorelowany z prawdziwą klasyfikacją (może lepiej opisywać przykłady niż losowe zgadywanie). Krótka definicja lasu losowego : Losowe lasy wyrastają z wielu drzew klasyfikacyjnych. Aby sklasyfikować nowy obiekt …

51 machine-learning random-forest boosting bagging

3

Jaka jest różnica w oszacowaniu Bayesa i oszacowaniu maksymalnego prawdopodobieństwa?

Proszę wyjaśnić mi różnicę w oszacowaniu Bayesa i oszacowaniu maksymalnego prawdopodobieństwa?

50 bayesian maximum-likelihood

3

Czy losowy las można wykorzystać do wyboru funkcji w wielokrotnej regresji liniowej?

Ponieważ RF może poradzić sobie z nieliniowością, ale nie może zapewnić współczynników, czy mądrze byłoby użyć losowego lasu do zebrania najważniejszych cech, a następnie podłączyć je do modelu wielokrotnej regresji liniowej w celu uzyskania ich współczynników?

50 regression machine-learning feature-selection random-forest regression-strategies

8

Jak określić prawdopodobieństwo awarii, jeśli nie wystąpiły awarie?

Zastanawiałem się, czy istnieje sposób na określenie prawdopodobieństwa wystąpienia awarii (produktu), jeśli mamy 100 000 produktów w terenie przez 1 rok i bez żadnych awarii? Jakie jest prawdopodobieństwo, że jeden z następnych 10 000 sprzedanych produktów zawiedzie?

50 probability survival binomial

4

Szybka regresja liniowa odporna na wartości odstające

Mam do czynienia z danymi liniowymi z wartościami odstającymi, z których niektóre są o 5 standardowych odchyleń od szacowanej linii regresji. Szukam techniki regresji liniowej, która zmniejsza wpływ tych punktów. Jak dotąd oszacowałem linię regresji ze wszystkimi danymi, a następnie odrzuciłem punkt danych z bardzo dużymi kwadratowymi resztkami (powiedzmy 10%) …

50 regression linear-model outliers robust fused-lasso

9

Czy ktoś zna jakieś dobre oprogramowanie open source do wizualizacji danych z bazy danych?

Ostatnio natknąłem się na Tableau i próbowałem wizualizować dane z bazy danych i pliku csv. Interfejs użytkownika umożliwia wizualizację danych czasowych i przestrzennych oraz błyskawiczne tworzenie wykresów. Takie narzędzie jest naprawdę przydatne, ponieważ umożliwia graficzną obserwację danych bez pisania kodu. Ponieważ istnieje wiele źródeł danych, z których muszę pobierać i …

50 data-visualization software interactive-visualization