Żądania dotyczące zestawów danych są w tej witrynie nie na temat. Użyj tego znacznika do pytań dotyczących tworzenia, przetwarzania lub utrzymywania zestawów danych.
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
Zestaw danych „Iris” jest prawdopodobnie znany tutaj większości ludzi - jest to jeden z kanonicznych zestawów danych testowych i przykładowy zestaw danych dla wszystkiego, od wizualizacji danych do uczenia maszynowego. Na przykład wszyscy w tym pytaniu ostatecznie wykorzystali go do dyskusji na temat wykresów rozrzutu oddzielonych przez leczenie. Co sprawia, …
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
Ponieważ nauka musi być odtwarzalna, z definicji coraz częściej uznaje się, że dane i kod są zasadniczym składnikiem odtwarzalności, o czym dyskutuje Okrągły Stół Yale do udostępniania danych i kodów . Czy przeglądając manuskrypt czasopisma, który nie wymaga udostępniania danych i kodu, mogę poprosić o udostępnienie danych i kodu do …
W wielu aplikacjach uczenia maszynowego tak zwane metody powiększania danych pozwoliły na zbudowanie lepszych modeli. Załóżmy na przykład zestaw szkoleniowy zawierający zdjęć kotów i psów. Obracając, odbijając, dostosowując kontrast itp. Można wygenerować dodatkowe obrazy z oryginalnych.100100100 W przypadku obrazów powiększanie danych jest stosunkowo proste. Załóżmy jednak (na przykład), że jeden …
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
Przeprowadziłem pewne badania na temat niedopasowania i niedopasowania i zrozumiałem, czym dokładnie są, ale nie mogę znaleźć powodów. Jakie są główne powody niedopasowania i niedopasowania? Dlaczego napotykamy te dwa problemy podczas szkolenia modelu?
Jakie są główne różnice między danymi rzadkimi a brakującymi? Jak wpływa na uczenie maszynowe? Mówiąc dokładniej, jaki wpływ rzadkie dane i brakujące dane mają na algorytmy klasyfikacji i algorytmy regresji (przewidywania liczb). Mówię o sytuacji, w której odsetek brakujących danych jest znaczny i nie możemy upuścić wierszy zawierających brakujące dane.
„Daleki nadzór” to schemat uczenia się, w którym klasyfikator uczy się, biorąc pod uwagę słabo oznakowany zestaw treningowy (dane treningowe są automatycznie oznaczane na podstawie heurystyki / zasad). Uważam, że zarówno nauczanie nadzorowane, jak i nauczanie częściowo nadzorowane może obejmować taki „zdalny nadzór”, jeśli ich oznaczone dane są heurystycznie / …
Jestem nowy w uczeniu maszynowym i szukam niektórych zestawów danych, za pomocą których mogę porównywać i kontrastować różnice między różnymi algorytmami uczenia maszynowego (drzewa decyzyjne, przyspieszenie, SVM i sieci neuronowe) Gdzie mogę znaleźć takie zbiory danych? Czego powinienem szukać podczas rozważania zestawu danych? Byłoby wspaniale, gdybyś mógł wskazać kilka dobrych …
Przejrzałem wiele zestawów danych R, wpisów w DASL i innych miejscach i nie znajduję zbyt wielu dobrych przykładów interesujących zestawów danych ilustrujących analizę kowariancji danych eksperymentalnych. Istnieje wiele „zabawkowych” zbiorów danych z wymyślonymi danymi w podręcznikach statystycznych. Chciałbym mieć przykład, w którym: Dane są prawdziwe, z ciekawą historią Istnieje co …
Pracuję nad bardzo niezrównoważonymi danymi. W literaturze stosuje się kilka metod ponownego równoważenia danych za pomocą ponownego próbkowania (nadmiernego lub niepełnego próbkowania). Dwa dobre podejścia to: SMOTE: TECHnique over-sampling syntetycznej mniejszości ( SMOTE ) ADASYN: Adaptacyjne syntetyczne podejście do próbkowania dla niezrównoważonego uczenia się ( ADASYN ) Wdrożyłem ADASYN, ponieważ …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.