Statystyki i duże zbiory danych data-mining

4

Jestem nowicjuszem, który zacznie czytać o eksploracji danych. Mam podstawową wiedzę na temat sztucznej inteligencji i statystyki. Ponieważ wielu twierdzi, że uczenie maszynowe odgrywa również ważną rolę w eksploracji danych, czy konieczne jest przeczytanie o uczeniu maszynowym, zanim będę mógł kontynuować eksplorację danych?

14 machine-learning references data-mining

3

Czy muszę usunąć zmienne, które są skorelowane / współliniowe przed uruchomieniem kmeans?

Prowadzę kmeans, aby zidentyfikować klastry klientów. Mam około 100 zmiennych do identyfikacji klastrów. Każda z tych zmiennych reprezentuje% wydatków klienta na kategorię. Tak więc, jeśli mam 100 kategorii, mam te 100 zmiennych, więc suma tych zmiennych wynosi 100% dla każdego klienta. Teraz te zmienne są ściśle ze sobą skorelowane. Czy …

14 clustering data-mining k-means multicollinearity compositional-data

2

Co to jest SVM jednej klasy i jak to działa?

Do pracy badawczej korzystałem z jednej klasy SVM , zaimplementowanej w scikit-learn. Ale nie rozumiem tego dobrze. Czy ktoś może podać proste, dobre wyjaśnienie jednej klasy SVM ?

14 machine-learning svm data-mining novelty-detection

2

Jakie są znane, istniejące praktyczne zastosowania teorii chaosu w eksploracji danych?

W ciągu ostatnich kilku lat od czasu do czasu czytając niektóre prace rynku masowego dotyczące teorii chaosu, zacząłem się zastanawiać, w jaki sposób można zastosować różne aspekty jej eksploracji danych i powiązanych dziedzin, takich jak sieci neuronowe, rozpoznawanie wzorców, zarządzanie niepewnością itp. Do tej pory natknąłem się na tak mało …

13 self-study mathematical-statistics references data-mining fractal

3

Czy losowy las i wzmocnienie jest parametryczny czy nieparametryczny?

Czytając doskonałe modelowanie statystyczne: Dwie kultury (Breiman 2001) , możemy uchwycić całą różnicę między tradycyjnymi modelami statystycznymi (np. Regresja liniowa) a algorytmami uczenia maszynowego (np. Bagging, Random Forest, Boosted trees ...). Breiman krytykuje modele danych (parametryczne), ponieważ opierają się one na założeniu, że obserwacje są generowane przez znany, formalny model …

13 machine-learning data-mining random-forest boosting bagging

2

Jak daleko zaprowadzi mnie samokształcenie?

Nigdy nie brałem udziału w oficjalnym lub ustrukturyzowanym kursie analizy danych lub uczenia maszynowego (innym niż ostatnie oferty online) i nauczyłem się większości tego, co wiem, czytając i wypróbowując różne rzeczy. Wiem, że daleko mi do znalezienia pracy. Moje pytanie nie jest takie, które jest lepsze ( jak to pytanie …

13 machine-learning data-mining careers

2

Pakowanie z oversamplingiem dla modeli predykcyjnych rzadkich zdarzeń

Czy ktoś wie, czy opisano poniżej (i tak czy inaczej), czy brzmi to jak wiarygodna metoda uczenia się modelu predykcyjnego z bardzo niezrównoważoną zmienną docelową? Często w aplikacjach CRM do eksploracji danych będziemy szukać modelu, w którym zdarzenie pozytywne (sukces) jest bardzo rzadkie w porównaniu do większości (klasa negatywna). Na …

13 data-mining predictive-models

2

Analiza eksploracyjna błędów prognozy przestrzenno-czasowej

Dane: Niedawno pracowałem nad analizą stochastycznych właściwości przestrzenno-czasowego pola błędów prognozowania produkcji energii wiatrowej. Formalnie można powiedzieć, że jest to proces indeksowane dwukrotnie w czasie (przytih), a raz w miejscu (P), zHoznacza liczbę razy LookAhead (czyli co około24regularnie próbki),toznacza liczbę „czasy prognozy” (tj. czasy, w których prognoza jest wydawana, około …

13 forecasting data-mining stochastic-processes spatial spatio-temporal

4

Najlepsze sposoby na agregację i analizę danych

Niedawno zacząłem uczyć się uczenia maszynowego i analizy danych. Uderzam w ścianę z powodu potrzeby tworzenia i wyszukiwania dużych zestawów danych. Chciałbym pobrać dane, które gromadzę w życiu zawodowym i osobistym, i przeanalizować je, ale nie jestem pewien, jak najlepiej wykonać następujące czynności: Jak powinienem przechowywać te dane? Przewyższać? SQL? …

13 data-mining dataset eda

3

Pomysł tworzenia danych ma wartość zero

Często widzę ludzi, którzy określają wymiar / cechę zestawu danych jako zero-średnią poprzez usunięcie średniej ze wszystkich elementów. Ale nigdy nie rozumiałem, dlaczego to robić? Jaki jest efekt robienia tego jako etapu wstępnego przetwarzania? Czy poprawia to klasyfikację? Czy pomaga odpowiedzieć na coś o zestawie danych? Czy pomaga w wizualizacji …

12 data-mining dataset

5

Termin częstotliwość / odwrotna częstotliwość dokumentów (TF / IDF): ważenie

Mam zestaw danych, który reprezentuje 1000 dokumentów i wszystkie słowa, które się w nim pojawiają. Tak więc wiersze reprezentują dokumenty, a kolumny - słowa. Na przykład wartość w komórce oznacza czas, w którym słowo występuje w dokumencie . Teraz muszę znaleźć „wagi” słów, używając metody tf / idf, ale tak …

12 r data-mining feature-selection

3

Baza matematyki dla algorytmów eksploracji danych i sztucznej inteligencji

Czy możesz mi wyjaśnić algorytmy eksploracji danych i sztucznej inteligencji? Do jakiej bazy matematycznej używali? Czy mógłbyś mi dać punkt wyjścia, w matematyce, do zrozumienia tego rodzaju algorytmów?

12 mathematical-statistics references data-mining algorithms artificial-intelligence

1

Różnice między PROC Mixed i lme / lmer w R - stopnie swobody

Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

Jak utworzyć krzywą Precision-Recall, gdy mam tylko jedną wartość PR?

Mam zadanie eksploracji danych, w którym tworzę system wyszukiwania obrazów oparty na treści. Mam 20 zdjęć 5 zwierząt. Łącznie więc 100 zdjęć. Mój system zwraca 10 najbardziej odpowiednich obrazów do obrazu wejściowego. Teraz muszę ocenić wydajność mojego systemu za pomocą krzywej Precision-Recall. Nie rozumiem jednak koncepcji krzywej Precyzja-Przywołanie. Powiedzmy, że …

12 data-mining matlab precision-recall curves computer-vision

1

Związek między macierzą Hesji a macierzą kowariancji

Podczas gdy ja studiuję oszacowanie maksymalnego prawdopodobieństwa, aby wnioskować w oszacowaniu maksymalnego prawdopodobieństwa, musimy znać wariancję. Aby dowiedzieć się o wariancji, muszę poznać Dolną Granicę Kramera, która wygląda jak matryca Hesji z Drugim Pochyleniem krzywizny. Jestem trochę pomieszany, aby zdefiniować związek między macierzą kowariancji a macierzą hessian. Mam nadzieję usłyszeć …

12 machine-learning mathematical-statistics maximum-likelihood data-mining

Pytania otagowane jako data-mining