Pytania otagowane jako data-mining

Eksploracja danych wykorzystuje metody sztucznej inteligencji w kontekście bazy danych do odkrywania nieznanych wcześniej wzorców. W związku z tym metody te zwykle nie są nadzorowane. Jest ściśle powiązany, ale nie identyczny z uczeniem maszynowym. Kluczowymi zadaniami eksploracji danych są analiza skupień, wykrywanie wartości odstających i wyszukiwanie reguł asocjacyjnych.

2
Jak pogrupować ciągi według wspólnych tematów?
Próbuję grupować, na przykład, ciągi o programowaniu z innymi ciągami o programowaniu, ciągi o fizyce z innymi ciągami o fizyce itp., Dla szerokiego zakresu tematów. Pomimo rażącego teoretycznego aspektu językowego problemu, zamierzam to zrobić za pomocą programowania / oprogramowania. Podsumowanie: Biorąc pod uwagę dużą liczbę ciągów, jak miałbym pogrupować je …


1
Jak znaleźć korelacje między awariami a środowiskami systemowymi?
W wolnym czasie pracuję nad małym systemem internetowym, który gromadzi raporty o awariach (ale nie inne, niezawierające raportów o błędach) wysyłane z aplikacji Delphi Windows. Przy rozwiązywaniu problemów użytkownicy chcieliby mieć funkcję eksploracji danych, aby znaleźć związki między wersjami sprzętu lub systemu operacyjnego a konkretnym błędem i / lub awarią. …

1
Udokumentowane / odtwarzalne przykłady udanych zastosowań metod ekonometrycznych w świecie rzeczywistym?
To pytanie może zabrzmieć bardzo szeroko, ale oto czego szukam. Wiem, że istnieje wiele doskonałych książek o metodach ekonometrycznych oraz wiele doskonałych artykułów z ekspozytorów na temat technik ekonometrycznych. Istnieją nawet doskonałe powtarzalne przykłady ekonometrii, jak opisano w tym sprawdzonym pytaniu krzyżowym . W rzeczywistości przykłady w tym pytaniu są …

2
Jaka jest różnica między analizą danych funkcjonalnych a analizą danych wielowymiarowych
W literaturze statystycznej istnieje wiele odniesień do „ danych funkcjonalnych ” (tj. Danych, które są krzywymi), a równolegle do „ danych wielowymiarowych ” (tj. Gdy dane są wektorami wielowymiarowymi). Moje pytanie dotyczy różnicy między tymi dwoma typami danych. Mówiąc o zastosowanych metodologiach statystycznych, które mają zastosowanie w przypadku 1, można …


1
K-oznacza: ile iteracji w sytuacjach praktycznych?
Nie mam doświadczenia w branży eksploracji danych ani dużych zbiorów danych, więc chciałbym usłyszeć, jak dzielisz się doświadczeniami. Czy ludzie faktycznie używają k-średnich, PAM, CLARA itp. Na naprawdę dużym zbiorze danych? Czy po prostu losowo wybierają z niego próbkę? Jeśli po prostu pobiorą próbkę zestawu danych, czy wynik byłby wiarygodny, …


1
R regresja liniowa zmienna kategorialna „ukryta” wartość
To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
Oszacowanie błędu braku worka do zwiększenia?
W Random Forest każde drzewo jest uprawiane równolegle na unikalnej próbce danych doładowania. Ponieważ oczekuje się, że każda próbka przypominająca zawiera około 63% unikalnych obserwacji, pozostawia to około 37% obserwacji, które można wykorzystać do testowania drzewa. Teraz wydaje się, że w Stochastic Gradient Boosting istnieje również OOBerrorOOBerrorOOB_{error} oszacowanie podobne do …

2
Czy drzewa CART wychwytują interakcje między predyktorami?
Ten artykuł twierdzi, że w CART, ponieważ podział binarny jest wykonywany na jednej zmiennej towarzyszącej na każdym etapie, wszystkie podziały są ortogonalne, a zatem interakcje między zmiennymi towarzyszącymi nie są brane pod uwagę. Jednak wiele bardzo poważnych odniesień twierdzi, wręcz przeciwnie, że hierarchiczna struktura drzewa gwarantuje, że interakcje między predyktorami …


1
Korzystanie z narzędzi do eksploracji tekstu / przetwarzania języka naturalnego w ekonometrii
Nie jestem pewien, czy to pytanie jest w pełni odpowiednie tutaj, jeśli nie, proszę usunąć. Jestem studentką ekonomii. W przypadku projektu badającego problemy z zakresu ubezpieczeń społecznych mam dostęp do dużej liczby administracyjnych spraw (> 200 tys.), Które dotyczą oceny kwalifikowalności. Raporty te można ewentualnie powiązać z indywidualnymi informacjami administracyjnymi. …

5
Czy klastrowanie wstępne pomaga zbudować lepszy model predykcyjny?
Do zadania modelowania rezygnacji rozważałem: Oblicz k klastrów dla danych Zbuduj k modeli dla każdego klastra osobno. Uzasadnieniem tego jest to, że nie ma nic do udowodnienia, że ​​populacja subskrybentów jest jednorodna, więc uzasadnione jest założenie, że proces generowania danych może być różny dla różnych „grup” Moje pytanie brzmi, czy …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.