Pytania otagowane jako feature-selection

Metody i zasady wyboru podzbioru atrybutów do wykorzystania w dalszym modelowaniu

2
Wybór funkcji dla problemów związanych z klastrowaniem
Usiłuję grupować różne zestawy danych przy użyciu nienadzorowanych algorytmów (klastrowanie). Problem polega na tym, że mam wiele funkcji (~ 500) i niewielką liczbę skrzynek (200-300). Do tej pory robiłem tylko problemy z klasyfikacją, dla których zawsze oznaczyłem dane jako zestawy szkoleniowe. Tam zastosowałem jakieś kryterium (tj. Losowy.lasy.importance lub information.gain) do …

6
Jak przygotować / zbudować funkcje do wykrywania anomalii (dane bezpieczeństwa sieci)
Moim celem jest analiza dzienników sieciowych (np. Apache, syslog, audyt bezpieczeństwa Active Directory itd.) Przy użyciu wykrywania klastrów / anomalii do celów wykrywania włamań. Z dzienników mam wiele pól tekstowych, takich jak adres IP, nazwa użytkownika, nazwa hosta, port docelowy, port źródłowy itd. (Łącznie 15-20 pól). Nie wiem, czy w …

4
Lasso porządkuje opóźnienie?
Załóżmy, że mam dane podłużne postaci (Mam wiele obserwacji, to tylko forma jednego). Interesują mnie ograniczenia dotyczące . Nieograniczony jest równoważny z wzięciem z .Y =(Y1, ... ,Yjot) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYjot=αjot+∑ℓ = 1j - 1ϕℓ jYj - ℓ+εjotYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj …

1
Jak porównać obserwowane i oczekiwane zdarzenia?
Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


4
Jak przeprowadzić wiele testów chi-kwadrat post-hoc na stole 2 X 3?
Mój zestaw danych obejmuje zarówno całkowitą śmiertelność, jak i przeżycie organizmu w trzech typach miejsc: przybrzeżnym, śródokanałowym i przybrzeżnym. Liczby w poniższej tabeli reprezentują liczbę witryn. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Chciałbym wiedzieć, czy liczba witryn, w których wystąpiła 100% śmiertelność, jest …

2
Czy do wyboru funkcji można użyć jądra PCA?
Czy można używać analizy głównych składników jądra (kPCA) do latentnego indeksowania semantycznego (LSI) w taki sam sposób, jak w przypadku PCA? Wykonuję LSI in R za pomocą prcompfunkcji PCA i wydobywam cechy z najwyższymi obciążeniami od pierwszegokkkskładniki. Dzięki temu uzyskuję funkcje najlepiej opisujące komponent. Próbowałem użyć kpcafunkcji (z kernlibpakietu), ale …

3
Zastosowanie środkowej wypolerowanej do wyboru funkcji
W artykule, który ostatnio czytałem, w sekcji analizy danych natknąłem się na następujący fragment: Tabela danych została następnie podzielona na tkanki i linie komórkowe, a dwie podtabele zostały oddzielnie wypolerowane mediany (wiersze i kolumny zostały iteracyjnie dostosowane do mediany 0) przed ponownym połączeniem w pojedynczą tabelę. W końcu wybraliśmy podzbiór …

3
Obliczanie najlepszego podzbioru predyktorów dla regresji liniowej
Jakie metody są dostępne do wyboru predyktorów w wielowymiarowej regresji liniowej za pomocą odpowiednich predyktorów, aby znaleźć „optymalny” podzbiór predyktorów bez wyraźnego testowania wszystkich podzbiorów ? W „Applied Survival Analysis” Hosmer i Lemeshow odnoszą się do metody Kuka, ale nie mogę znaleźć oryginalnej pracy. Czy ktoś może opisać tę metodę, …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.