Statystyki i duże zbiory danych feature-selection

2

Wybór funkcji dla problemów związanych z klastrowaniem

Usiłuję grupować różne zestawy danych przy użyciu nienadzorowanych algorytmów (klastrowanie). Problem polega na tym, że mam wiele funkcji (~ 500) i niewielką liczbę skrzynek (200-300). Do tej pory robiłem tylko problemy z klasyfikacją, dla których zawsze oznaczyłem dane jako zestawy szkoleniowe. Tam zastosowałem jakieś kryterium (tj. Losowy.lasy.importance lub information.gain) do …

9 r clustering feature-selection unsupervised-learning

6

Jak przygotować / zbudować funkcje do wykrywania anomalii (dane bezpieczeństwa sieci)

Moim celem jest analiza dzienników sieciowych (np. Apache, syslog, audyt bezpieczeństwa Active Directory itd.) Przy użyciu wykrywania klastrów / anomalii do celów wykrywania włamań. Z dzienników mam wiele pól tekstowych, takich jak adres IP, nazwa użytkownika, nazwa hosta, port docelowy, port źródłowy itd. (Łącznie 15-20 pól). Nie wiem, czy w …

9 feature-selection outliers unsupervised-learning feature-construction

4

Lasso porządkuje opóźnienie?

Załóżmy, że mam dane podłużne postaci (Mam wiele obserwacji, to tylko forma jednego). Interesują mnie ograniczenia dotyczące . Nieograniczony jest równoważny z wzięciem z .Y =(Y1, ... ,Yjot) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYjot=αjot+∑ℓ = 1j - 1ϕℓ jYj - ℓ+εjotYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj …

9 feature-selection lasso shrinkage

1

Jak porównać obserwowane i oczekiwane zdarzenia?

Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Losowy test permutacji do wyboru funkcji

Jestem zdezorientowany co do analizy permutacji przy wyborze funkcji w kontekście regresji logistycznej. Czy możesz podać jasne wyjaśnienie losowego testu permutacji i jak ma on zastosowanie do wyboru funkcji? Prawdopodobnie z dokładnym algorytmem i przykładami. Wreszcie, jak to porównać z innymi metodami skurczu, takimi jak Lasso lub LAR?

9 regression logistic feature-selection permutation-test shrinkage

4

Jak przeprowadzić wiele testów chi-kwadrat post-hoc na stole 2 X 3?

Mój zestaw danych obejmuje zarówno całkowitą śmiertelność, jak i przeżycie organizmu w trzech typach miejsc: przybrzeżnym, śródokanałowym i przybrzeżnym. Liczby w poniższej tabeli reprezentują liczbę witryn. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Chciałbym wiedzieć, czy liczba witryn, w których wystąpiła 100% śmiertelność, jest …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Czy do wyboru funkcji można użyć jądra PCA?

Czy można używać analizy głównych składników jądra (kPCA) do latentnego indeksowania semantycznego (LSI) w taki sam sposób, jak w przypadku PCA? Wykonuję LSI in R za pomocą prcompfunkcji PCA i wydobywam cechy z najwyższymi obciążeniami od pierwszegokkkskładniki. Dzięki temu uzyskuję funkcje najlepiej opisujące komponent. Próbowałem użyć kpcafunkcji (z kernlibpakietu), ale …

9 r pca feature-selection kernel-trick

3

Zastosowanie środkowej wypolerowanej do wyboru funkcji

W artykule, który ostatnio czytałem, w sekcji analizy danych natknąłem się na następujący fragment: Tabela danych została następnie podzielona na tkanki i linie komórkowe, a dwie podtabele zostały oddzielnie wypolerowane mediany (wiersze i kolumny zostały iteracyjnie dostosowane do mediany 0) przed ponownym połączeniem w pojedynczą tabelę. W końcu wybraliśmy podzbiór …

9 feature-selection median genetics

3

Obliczanie najlepszego podzbioru predyktorów dla regresji liniowej

Jakie metody są dostępne do wyboru predyktorów w wielowymiarowej regresji liniowej za pomocą odpowiednich predyktorów, aby znaleźć „optymalny” podzbiór predyktorów bez wyraźnego testowania wszystkich podzbiorów ? W „Applied Survival Analysis” Hosmer i Lemeshow odnoszą się do metody Kuka, ale nie mogę znaleźć oryginalnej pracy. Czy ktoś może opisać tę metodę, …

9 modeling regression multivariable model-selection feature-selection

Pytania otagowane jako feature-selection