Statystyki i duże zbiory danych data-mining

2

Jak pogrupować ciągi według wspólnych tematów?

Próbuję grupować, na przykład, ciągi o programowaniu z innymi ciągami o programowaniu, ciągi o fizyce z innymi ciągami o fizyce itp., Dla szerokiego zakresu tematów. Pomimo rażącego teoretycznego aspektu językowego problemu, zamierzam to zrobić za pomocą programowania / oprogramowania. Podsumowanie: Biorąc pod uwagę dużą liczbę ciągów, jak miałbym pogrupować je …

10 natural-language data-mining

3

Pierwsze szybkie spojrzenie na zestaw danych

Proszę wybaczyć moją ignorancję, ale ... Ciągle znajduję się w sytuacji, w której mam do czynienia z szeregiem nowych danych, które udało mi się znaleźć. Te dane zwykle wyglądają mniej więcej tak: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 …

10 data-visualization correlation data-mining eda

1

Jak znaleźć korelacje między awariami a środowiskami systemowymi?

W wolnym czasie pracuję nad małym systemem internetowym, który gromadzi raporty o awariach (ale nie inne, niezawierające raportów o błędach) wysyłane z aplikacji Delphi Windows. Przy rozwiązywaniu problemów użytkownicy chcieliby mieć funkcję eksploracji danych, aby znaleźć związki między wersjami sprzętu lub systemu operacyjnego a konkretnym błędem i / lub awarią. …

10 data-mining

1

Udokumentowane / odtwarzalne przykłady udanych zastosowań metod ekonometrycznych w świecie rzeczywistym?

To pytanie może zabrzmieć bardzo szeroko, ale oto czego szukam. Wiem, że istnieje wiele doskonałych książek o metodach ekonometrycznych oraz wiele doskonałych artykułów z ekspozytorów na temat technik ekonometrycznych. Istnieją nawet doskonałe powtarzalne przykłady ekonometrii, jak opisano w tym sprawdzonym pytaniu krzyżowym . W rzeczywistości przykłady w tym pytaniu są …

10 r machine-learning forecasting data-mining econometrics

2

Jaka jest różnica między analizą danych funkcjonalnych a analizą danych wielowymiarowych

W literaturze statystycznej istnieje wiele odniesień do „ danych funkcjonalnych ” (tj. Danych, które są krzywymi), a równolegle do „ danych wielowymiarowych ” (tj. Gdy dane są wektorami wielowymiarowymi). Moje pytanie dotyczy różnicy między tymi dwoma typami danych. Mówiąc o zastosowanych metodologiach statystycznych, które mają zastosowanie w przypadku 1, można …

10 data-mining signal-processing curve-fitting wavelet

6

Wątpliwe stosowanie zasad przetwarzania sygnałów w celu zidentyfikowania trendu

Proponuję spróbować znaleźć trend w niektórych bardzo hałaśliwych danych długoterminowych. Dane są w zasadzie cotygodniowymi pomiarami czegoś, co poruszało się o około 5 mm w ciągu około 8 miesięcy. Dane są z dokładnością do 1 mm i są bardzo głośne, regularnie zmieniając +/- 1 lub 2 mm w ciągu tygodnia. …

10 time-series data-mining signal-processing trend

1

K-oznacza: ile iteracji w sytuacjach praktycznych?

Nie mam doświadczenia w branży eksploracji danych ani dużych zbiorów danych, więc chciałbym usłyszeć, jak dzielisz się doświadczeniami. Czy ludzie faktycznie używają k-średnich, PAM, CLARA itp. Na naprawdę dużym zbiorze danych? Czy po prostu losowo wybierają z niego próbkę? Jeśli po prostu pobiorą próbkę zestawu danych, czy wynik byłby wiarygodny, …

10 clustering data-mining k-means convergence large-data

2

Maksymalna i często zamykana - odpowiedź w zestawie

My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4 : A , C., D , E4:A,C,D,E4:A,C,D,E 5 : C , D , E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E Chcę znaleźć …

10 data-mining dataset association-rules

1

R regresja liniowa zmienna kategorialna „ukryta” wartość

To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

5

Wykłady wideo na temat eksploracji danych?

Chcę nauczyć się eksploracji danych. Czy są jakieś bezpłatne wykłady wideo, które wyjaśniają dogłębnie proces eksploracji danych?

10 references data-mining

2

Oszacowanie błędu braku worka do zwiększenia?

W Random Forest każde drzewo jest uprawiane równolegle na unikalnej próbce danych doładowania. Ponieważ oczekuje się, że każda próbka przypominająca zawiera około 63% unikalnych obserwacji, pozostawia to około 37% obserwacji, które można wykorzystać do testowania drzewa. Teraz wydaje się, że w Stochastic Gradient Boosting istnieje również OOBerrorOOBerrorOOB_{error} oszacowanie podobne do …

9 machine-learning cross-validation data-mining random-forest boosting

2

Czy drzewa CART wychwytują interakcje między predyktorami?

Ten artykuł twierdzi, że w CART, ponieważ podział binarny jest wykonywany na jednej zmiennej towarzyszącej na każdym etapie, wszystkie podziały są ortogonalne, a zatem interakcje między zmiennymi towarzyszącymi nie są brane pod uwagę. Jednak wiele bardzo poważnych odniesień twierdzi, wręcz przeciwnie, że hierarchiczna struktura drzewa gwarantuje, że interakcje między predyktorami …

9 machine-learning classification data-mining cart

1

Wybór wartości k dla analizy wykrywania lokalnego współczynnika odstającego (LOF)

Mam zestaw danych trójwymiarowych i staram się korzystać z analizy lokalnego współczynnika odstającego, aby zidentyfikować najbardziej unikalne lub dziwne wartości. Jak decyduje się, jaką wartość k zastosować w analizie LOF? Rozumiem, co określa wartość k, więc nie jestem zaskoczony, że widzę nieco inne wyniki przy użyciu różnych wartości k, ale …

9 data-mining outliers

1

Korzystanie z narzędzi do eksploracji tekstu / przetwarzania języka naturalnego w ekonometrii

Nie jestem pewien, czy to pytanie jest w pełni odpowiednie tutaj, jeśli nie, proszę usunąć. Jestem studentką ekonomii. W przypadku projektu badającego problemy z zakresu ubezpieczeń społecznych mam dostęp do dużej liczby administracyjnych spraw (> 200 tys.), Które dotyczą oceny kwalifikowalności. Raporty te można ewentualnie powiązać z indywidualnymi informacjami administracyjnymi. …

9 machine-learning data-mining econometrics text-mining natural-language

5

Czy klastrowanie wstępne pomaga zbudować lepszy model predykcyjny?

Do zadania modelowania rezygnacji rozważałem: Oblicz k klastrów dla danych Zbuduj k modeli dla każdego klastra osobno. Uzasadnieniem tego jest to, że nie ma nic do udowodnienia, że populacja subskrybentów jest jednorodna, więc uzasadnione jest założenie, że proces generowania danych może być różny dla różnych „grup” Moje pytanie brzmi, czy …

9 machine-learning clustering data-mining predictive-models

Pytania otagowane jako data-mining