Usiłuję grupować różne zestawy danych przy użyciu nienadzorowanych algorytmów (klastrowanie). Problem polega na tym, że mam wiele funkcji (~ 500) i niewielką liczbę skrzynek (200-300). Do tej pory robiłem tylko problemy z klasyfikacją, dla których zawsze oznaczyłem dane jako zestawy szkoleniowe. Tam zastosowałem jakieś kryterium (tj. Losowy.lasy.importance lub information.gain) do …
Moim celem jest analiza dzienników sieciowych (np. Apache, syslog, audyt bezpieczeństwa Active Directory itd.) Przy użyciu wykrywania klastrów / anomalii do celów wykrywania włamań. Z dzienników mam wiele pól tekstowych, takich jak adres IP, nazwa użytkownika, nazwa hosta, port docelowy, port źródłowy itd. (Łącznie 15-20 pól). Nie wiem, czy w …
Załóżmy, że mam dane podłużne postaci (Mam wiele obserwacji, to tylko forma jednego). Interesują mnie ograniczenia dotyczące . Nieograniczony jest równoważny z wzięciem z .Y =(Y1, ... ,Yjot) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYjot=αjot+∑ℓ = 1j - 1ϕℓ jYj - ℓ+εjotYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj …
Jestem zdezorientowany co do analizy permutacji przy wyborze funkcji w kontekście regresji logistycznej. Czy możesz podać jasne wyjaśnienie losowego testu permutacji i jak ma on zastosowanie do wyboru funkcji? Prawdopodobnie z dokładnym algorytmem i przykładami. Wreszcie, jak to porównać z innymi metodami skurczu, takimi jak Lasso lub LAR?
Mój zestaw danych obejmuje zarówno całkowitą śmiertelność, jak i przeżycie organizmu w trzech typach miejsc: przybrzeżnym, śródokanałowym i przybrzeżnym. Liczby w poniższej tabeli reprezentują liczbę witryn. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Chciałbym wiedzieć, czy liczba witryn, w których wystąpiła 100% śmiertelność, jest …
Czy można używać analizy głównych składników jądra (kPCA) do latentnego indeksowania semantycznego (LSI) w taki sam sposób, jak w przypadku PCA? Wykonuję LSI in R za pomocą prcompfunkcji PCA i wydobywam cechy z najwyższymi obciążeniami od pierwszegokkkskładniki. Dzięki temu uzyskuję funkcje najlepiej opisujące komponent. Próbowałem użyć kpcafunkcji (z kernlibpakietu), ale …
W artykule, który ostatnio czytałem, w sekcji analizy danych natknąłem się na następujący fragment: Tabela danych została następnie podzielona na tkanki i linie komórkowe, a dwie podtabele zostały oddzielnie wypolerowane mediany (wiersze i kolumny zostały iteracyjnie dostosowane do mediany 0) przed ponownym połączeniem w pojedynczą tabelę. W końcu wybraliśmy podzbiór …
Jakie metody są dostępne do wyboru predyktorów w wielowymiarowej regresji liniowej za pomocą odpowiednich predyktorów, aby znaleźć „optymalny” podzbiór predyktorów bez wyraźnego testowania wszystkich podzbiorów ? W „Applied Survival Analysis” Hosmer i Lemeshow odnoszą się do metody Kuka, ale nie mogę znaleźć oryginalnej pracy. Czy ktoś może opisać tę metodę, …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.