Pytania otagowane jako data-mining

Eksploracja danych wykorzystuje metody sztucznej inteligencji w kontekście bazy danych do odkrywania nieznanych wcześniej wzorców. W związku z tym metody te zwykle nie są nadzorowane. Jest ściśle powiązany, ale nie identyczny z uczeniem maszynowym. Kluczowymi zadaniami eksploracji danych są analiza skupień, wykrywanie wartości odstających i wyszukiwanie reguł asocjacyjnych.


5
Wzrost miary w eksploracji danych
Przeszukałem wiele stron internetowych, aby dowiedzieć się, co dokładnie zrobi winda? Wszystkie znalezione przeze mnie wyniki dotyczyły używania go w aplikacjach innych niż samo. Wiem o funkcji wsparcia i zaufania. Z Wikipedii, w eksploracji danych, lift jest miarą wydajności modelu w przewidywaniu lub klasyfikowaniu przypadków, mierząc w stosunku do modelu …

5
Myśl jak bayesian, sprawdź jak częsty: co to znaczy?
Patrzę na niektóre slajdy wykładowe na kursie danych, który można znaleźć tutaj: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Niestety nie widzę wideo z tego wykładu iw pewnym momencie na slajdzie prezenter ma następujący tekst: Niektóre kluczowe zasady Myśl jak Bayesian, sprawdź jak Frequentist (pojednanie) Czy ktoś wie, co to właściwie oznacza? Mam wrażenie, że z …


3
Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?
Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 


1
Czy są lekcje statystyczne z odcinka „Kod biblijny”?
Chociaż to pytanie jest nieco subiektywne, mam nadzieję, że kwalifikuje się jako dobre pytanie subiektywne zgodnie z wytycznymi faq . Opiera się na pytaniu, które zadał mi Olle Häggström rok temu i choć mam na ten temat pewne przemyślenia, nie mam jednoznacznej odpowiedzi i byłbym wdzięczny za pomoc innych. Tło: …

8
Jakie przedmioty matematyczne zaproponowałbyś, aby przygotować się do eksploracji danych i uczenia maszynowego?
Staram się stworzyć samokierujący program matematyki, aby przygotować się do uczenia się eksploracji danych i uczenia maszynowego. Jest to motywowane przez rozpoczęcie klasy uczenia maszynowego Andrew Ng na Coursera i odczuwanie, że przed kontynuowaniem muszę poprawić swoje umiejętności matematyczne. Niedawno ukończyłem studia, więc moja algebra i statystyki (szczególnie z nauk …

2
Dlaczego wartości p wprowadzają w błąd po dokonaniu selekcji stopniowej?
Rozważmy na przykład model regresji liniowej. Słyszałem, że w eksploracji danych, po przeprowadzeniu selekcji krokowej na podstawie kryterium AIC, mylące jest spojrzenie na wartości p w celu przetestowania hipotezy zerowej, że każdy prawdziwy współczynnik regresji wynosi zero. Słyszałem, że należy rozważyć wszystkie zmienne pozostawione w modelu jako mające prawdziwy współczynnik …

1
Różnica między standardowymi a sferycznymi algorytmami k-średnich
Chciałbym zrozumieć, jaka jest główna różnica w implementacji między standardowymi a sferycznymi algorytmami klastrowania k-średnich. Na każdym etapie k-średnich oblicza odległości między wektorami elementów i centroidami gromady i ponownie przypisuje dokument do tej gromady, której centroid jest najbliższy. Następnie wszystkie centroidy są przeliczane. W sferycznych średnich k wszystkie wektory są …

9
Oprogramowanie do analizy statystyk i eksploracji danych do obsługi dużych zestawów danych
Obecnie muszę przeanalizować około 20 milionów rekordów i zbudować modele predykcyjne. Do tej pory wypróbowałem Statistica, SPSS, RapidMiner i R. Wśród nich Statistica wydaje się najbardziej odpowiedni do eksploracji danych, a interfejs użytkownika RapidMiner jest również bardzo przydatny, ale wydaje się, że Statistica, RapidMiner i SPSS są odpowiednie tylko dla …


3
LSA vs. PCA (klastrowanie dokumentów)
Badam różne techniki stosowane w grupowaniu dokumentów i chciałbym wyjaśnić pewne wątpliwości dotyczące PCA (analiza głównego składnika) i LSA (utajona analiza semantyczna). Po pierwsze - jakie są między nimi różnice? Wiem, że w PCA rozkład SVD jest stosowany do macierzy kowariancji terminów, podczas gdy w LSA jest to matryca termin-dokument. …

3
Jakie są miary dokładności danych z wielu etykiet?
Zastanów się nad scenariuszem, w którym otrzymujesz matrycę znanych etykiet i predykowaną etykietę. Chciałbym zmierzyć dobroć macierzy PredictedLabel w porównaniu do matrycy FamousLabel. Wyzwanie polega jednak na tym, że Matryca Znanych Etykiet ma kilka wierszy tylko jeden 1, a kilka innych wierszy ma wiele 1 (te wystąpienia są oznaczone wieloma …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.