Statystyki i duże zbiory danych classification

4

Czy KNN jest dyskryminującym algorytmem uczenia się?

Wygląda na to, że KNN jest algorytmem uczenia się dyskryminującego, ale nie mogę znaleźć żadnych źródeł online potwierdzających to. Czy KNN jest dyskryminującym algorytmem uczenia się?

17 machine-learning classification k-nearest-neighbour

2

Klasyfikacja ze wzmocnieniem gradientowym: Jak zachować prognozę w [0,1]

Pytanie Staram się zrozumieć, w jaki sposób prognoza jest utrzymywana w przedziale [0,1][0,1][0,1] podczas klasyfikacji binarnej z funkcją wzmocnienia gradientu. Załóżmy, że pracujemy nad problemem klasyfikacji binarnej, a naszą funkcją celu jest utrata logów, −∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i)) , gdzie yyy jest zmienną docelową a jest naszym obecnym …

17 logistic classification boosting

3

Jaka jest różnica między SVM a LDA?

Jaka jest różnica między maszynami wektorów wsparcia a liniową analizą dyskryminacyjną?

17 classification

1

Co to znaczy, że AUC jest częściowo poprawną zasadą punktacji?

Właściwa reguła punktacji jest regułą, która jest maksymalizowana przez „prawdziwy” model i nie pozwala na „zabezpieczanie” lub granie w system (celowe zgłaszanie różnych wyników, jak to jest prawdziwe przekonanie modelu o poprawie wyniku). Wynik Briera jest prawidłowy, dokładność (proporcja sklasyfikowana poprawnie) jest niewłaściwa i często zniechęcana. Czasami widzę, że AUC …

16 classification references roc measurement-error scoring-rules

3

Co to jest model zerowy w regresji i jak ma się do hipotezy zerowej?

Co to jest model zerowy w regresji i jaki jest związek między modelem zerowym a hipotezą zerową? Dla mojego zrozumienia, czy to oznacza Używasz „średniej zmiennej odpowiedzi” do przewidywania zmiennej odpowiedzi ciągłej? Używasz „rozkładu etykiet” w przewidywaniu zmiennych dyskretnych odpowiedzi? W takim przypadku wydaje się, że brakuje powiązań między hipotezą …

16 regression hypothesis-testing classification terminology model

2

Stan wiedzy ogólnej w oparciu o dane z '69

Próbuję zrozumieć kontekst słynnej książki Minsky and Papert „Perceptrons” z 1969 roku, tak krytycznej dla sieci neuronowych. O ile mi wiadomo, nie było jeszcze innych ogólnych algorytmów uczenia nadzorowanego, z wyjątkiem perceptronu: drzewa decyzyjne zaczęły być naprawdę przydatne dopiero pod koniec lat 70., losowe lasy i maszyny SVM to lata …

16 classification neural-networks history

1

Szkolenie podstawowego pola losowego Markowa do klasyfikowania pikseli na obrazie

Próbuję nauczyć się korzystać z losowych pól Markowa do segmentowania regionów na obrazie. Nie rozumiem niektórych parametrów w MRF ani tego, dlaczego maksymalizacja oczekiwań, którą wykonuję, czasami nie jest zbieżna z rozwiązaniem. Zaczynając od twierdzenia Bayesa, mam , gdzie y jest wartością skali szarości piksela, a x jest etykietą klasy. …

16 expectation-maximization image-processing classification

2

podejścia szkoleniowe dla wysoce niezrównoważonego zestawu danych

Mam wysoce niezrównoważony zestaw danych testowych. Zestaw dodatni składa się ze 100 przypadków, a zestaw ujemny składa się z 1500 przypadków. Po stronie treningowej mam większą pulę kandydatów: pozytywny zestaw treningowy ma 1200 przypadków, a negatywny zestaw treningowy ma 12000 przypadków. W przypadku tego rodzaju scenariusza mam kilka możliwości: 1) …

16 machine-learning classification data-mining svm bioinformatics

4

Niska dokładność klasyfikacji, co dalej?

Jestem więc nowicjuszem w dziedzinie ML i staram się dokonać klasyfikacji. Moim celem jest przewidzieć wynik wydarzenia sportowego. Zebrałem trochę danych historycznych i teraz próbuję wyszkolić klasyfikatora. Dostałem około 1200 próbek, z czego 0,2 oddzieliłem do celów testowych, inne poddałem wyszukiwaniu sieci (w tym walidacji krzyżowej) z różnymi klasyfikatorami. Do …

16 classification svm feature-selection random-forest

3

Wyszukiwanie w siatce na podstawie k-krotnego sprawdzania poprawności

Mam zestaw danych 120 próbek w 10-krotnym ustawieniu walidacji krzyżowej. Obecnie wybieram dane treningowe pierwszego wstrzymania i wykonuję na nim 5-krotną weryfikację krzyżową, aby wybrać wartości gamma i C za pomocą wyszukiwania siatki. Używam SVM z jądrem RBF. Ponieważ przeprowadzam dziesięć-krotną weryfikację krzyżową, aby zgłosić precyzję, pamiętajcie, czy wykonuję to …

16 machine-learning classification cross-validation svm

3

Zmienne współliniowe w szkoleniu Multlass LDA

Trenuję wieloklasowy klasyfikator LDA z 8 klasami danych. Podczas treningu otrzymuję ostrzeżenie: „ Zmienne są współliniowe ” Dostaję dokładność szkolenia ponad 90% . Korzystam z biblioteki scikits-learn w Pythonie do trenowania i testowania danych Multi-class. Dostaję też przyzwoitą dokładność testowania (około 85% -95% ). Nie rozumiem, co oznacza błąd / …

16 machine-learning classification python scikit-learn discriminant-analysis

1

Czy w statystycznej teorii uczenia się nie występuje problem przeregulowania zestawu testowego?

Rozważmy problem związany z klasyfikacją zestawu danych MNIST. Według strony MNIST Yanna LeCuna „Ciresan i in.” uzyskał poziom błędu 0,23% w zestawie testowym MNIST przy użyciu sieci neuronowej Convolutional. Oznaczmy zestaw treningowy MNIST jako , zestaw testowy MNIST jako , ostateczną hipotezę, którą uzyskali przy użyciu jako , oraz ich …

16 machine-learning classification overfitting probability-inequalities

5

Jaki wpływ ma zwiększenie danych treningowych na ogólną dokładność systemu?

Czy ktoś może podsumować dla mnie możliwe przykłady, w jakich sytuacjach zwiększenie danych treningowych poprawia cały system? Kiedy wykrywamy, że dodanie większej ilości danych treningowych może nadmiernie dopasować dane i nie dać dokładności danych testowych? To bardzo niespecyficzne pytanie, ale jeśli chcesz odpowiedzieć na konkretne pytanie w konkretnej sytuacji, zrób …

16 machine-learning classification dataset precision-recall

2

Jaką miarę błędu szkolenia zgłosić w Losowych lasach?

Obecnie dopasowuję losowe lasy pod kątem problemu z klasyfikacją za pomocą randomForestpakietu w R i nie jestem pewien, jak zgłosić błąd szkolenia dla tych modeli. Mój błąd szkolenia jest bliski 0%, kiedy go obliczam, używając prognoz, które otrzymuję za pomocą polecenia: predict(model, data=X_train) gdzie X_trainsą dane treningowe. W odpowiedzi na …

16 r machine-learning classification random-forest overfitting

3

Sugestie dotyczące uczenia się z uwzględnieniem kosztów w warunkach wysoce niezrównoważonych

Mam zestaw danych z kilkoma milionami wierszy i ~ 100 kolumnami. Chciałbym wykryć około 1% przykładów w zestawie danych, które należą do wspólnej klasy. Mam ograniczenie minimalnej precyzji, ale z powodu bardzo asymetrycznego kosztu nie jestem zbytnio zainteresowany żadnym konkretnym wycofaniem (o ile nie mam 10 pozytywnych wyników!) Jakie są …

15 machine-learning classification unbalanced-classes precision-recall

Pytania otagowane jako classification