Pytania otagowane jako k-nearest-neighbour

Klasyfikatory k-Nearest-Neighbor Te klasyfikatory są oparte na pamięci i nie wymagają dopasowania modelu. Biorąc pod uwagę punkt zapytania x0, znajdujemy k punktów szkoleniowych x (r), r = 1, ..., k najbliżej odległości x0, a następnie klasyfikujemy za pomocą głosów większości spośród k sąsiadów.


2
Jak wykreślić granicę decyzyjną klasyfikatora k-najbliższego sąsiada na podstawie elementów uczenia statystycznego?
Chcę wygenerować fabułę opisaną w książce ElemStatLearn „Elementy statystycznego uczenia się: eksploracja danych, wnioskowanie i przewidywanie. Drugie wydanie” Trevora Hastiego i Roberta Tibshirani i Jerome Friedmana. Fabuła jest: Zastanawiam się, jak mogę stworzyć ten dokładny wykres R, szczególnie zwróć uwagę na grafikę i obliczenia siatki, aby pokazać granicę.

1
Obliczanie powtarzalności efektów z modelu Lmer
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
Dlaczego ktoś miałby używać KNN do regresji?
Z tego, co rozumiem, możemy zbudować funkcję regresji, która mieści się w przedziale danych treningowych. Na przykład (potrzebny jest tylko jeden panel): Jak przewidzieć przyszłość za pomocą regresora KNN? Ponownie wydaje się, że przybliża tylko funkcję mieszczącą się w przedziale danych treningowych. Moje pytanie: Jakie są zalety korzystania z regresora …

3
Łączenie modeli uczenia maszynowego
Jestem trochę nowy w analizie danych / uczeniu maszynowym / itp. i czytałem o kilku sposobach łączenia wielu modeli i serii tego samego modelu w celu poprawy prognoz. Mam wrażenie, że po przeczytaniu kilku artykułów (często interesujących i świetnych z teorii i liter greckich, ale bez kodu i faktycznych przykładów) …

2
Kiedy dzisiaj ma znaczenie „najbliższy sąsiad”?
W 1999 r. Beyer i in. zapytał, kiedy „Nearest Neighbor” ma znaczenie? Czy istnieją lepsze sposoby analizy i wizualizacji wpływu płaskości odległości na wyszukiwanie NN od 1999 r.? Czy [dany] zestaw danych zawiera sensowne odpowiedzi na problem 1-NN? Problem 10-NN? Problem 100-NN? Jak dziś eksperci podchodzą do tego pytania? Edycje …

1
złożoność obliczeniowa k-NN
Jaka jest złożoność czasowa algorytmu k -NN z naiwnym podejściem wyszukiwania (bez drzewa kd lub podobnych)? Interesuje mnie jego złożoność czasowa, biorąc pod uwagę również hiperparametr k . Znalazłem sprzeczne odpowiedzi: O (nd + kn), gdzie n jest licznością zbioru treningowego, a d jest wymiarem każdej próbki. [1] O (ndk), …


3
Wybór optymalnego K dla KNN
Wykonałem 5-krotne CV, aby wybrać optymalną K dla KNN. I wydaje się, że im większy K, tym mniejszy błąd ... Niestety nie miałem legendy, ale różne kolory reprezentują różne próby. Jest ich łącznie 5 i wygląda na to, że między nimi jest niewielka różnorodność. Błąd zawsze wydaje się zmniejszać, gdy …


2
Dlaczego musisz skalować dane w KNN
Czy ktoś mógłby mi wyjaśnić, dlaczego należy znormalizować dane, używając K najbliższych sąsiadów. Próbowałem to sprawdzić, ale nadal nie mogę tego zrozumieć. Znalazłem następujący link: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 Ale w tym wyjaśnieniu nie rozumiem, dlaczego większy zakres jednej z funkcji wpływa na prognozy.

1
Czy klątwa wymiarowa działa na niektóre modele bardziej niż na inne?
Miejsca, które czytałem o klątwie wymiarowej, wyjaśniają to przede wszystkim w odniesieniu do kNN, a ogólnie modeli liniowych. Regularnie widzę najlepszych rankingów w Kaggle korzystających z tysięcy funkcji w zbiorze danych, który prawie nie ma 100 000 punktów danych. Używają głównie drzew Boosted i NN. To, że wiele cech wydaje …

5
Pakiety imputacji KNN
Szukam pakietu kalkulacyjnego KNN. Patrzyłem na pakiet imputacji ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ), ale z jakiegoś powodu funkcja imputacji KNN (nawet jeśli podąża za przykładem z opisu) wydaje się tylko przypisywać wartości zerowe (jak poniżej). Rozglądałem się, ale nie mogę jeszcze znaleźć czegoś, dlatego zastanawiałem się, czy ktoś ma inne sugestie dotyczące …

4
Jaki jest cel normalizacji wierszy
Rozumiem uzasadnienie normalizacji kolumn, ponieważ powoduje, że cechy są ważone równo, nawet jeśli nie są mierzone w tej samej skali - jednak często w literaturze najbliższego sąsiada zarówno kolumny, jak i wiersze są znormalizowane. Do czego służy normalizacja wierszy / dlaczego normalizować wiersze? W szczególności, w jaki sposób wynik normalizacji …

3
Adaptacyjne estymatory gęstości jądra?
Czy ktoś może poinformować o swoich doświadczeniach z adaptacyjnym estymatorem gęstości jądra? (Istnieje wiele synonimów: adaptacyjny | zmienny | zmienna szerokość, KDE | histogram | interpolator ...) Zmienne oszacowanie gęstości jądra mówi: „zmieniamy szerokość jądra w różnych regionach przestrzeni próbki. Istnieją dwie metody ...” w rzeczywistości więcej: sąsiedzi w pewnym …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.