Pytania otagowane jako classification

Klasyfikacja statystyczna to problem identyfikacji subpopulacji, do której należą nowe obserwacje, w przypadku których tożsamość subpopulacji nie jest znana, na podstawie zestawu danych szkoleniowych zawierających obserwacje, których subpopulacja jest znana. Dlatego te klasyfikacje wykażą zmienne zachowanie, które można zbadać za pomocą statystyk.

5
Co może spowodować pogorszenie wyników klasyfikatora przez PCA?
Mam klasyfikator, na którym przeprowadzam walidację krzyżową, wraz z około setką funkcji, które wybieram do przodu, aby znaleźć optymalne kombinacje funkcji. Porównuję to również z przeprowadzaniem tych samych eksperymentów z PCA, w których biorę potencjalne cechy, stosuję SVD, przekształcam oryginalne sygnały w nową przestrzeń współrzędnych i używam najlepszych funkcji w …

1
Czy sprawdzanie poprawności jest właściwym zamiennikiem zestawu sprawdzania poprawności?
W klasyfikacji tekstowej mam zestaw szkoleniowy z około 800 próbkami i zestaw testowy z około 150 próbkami. Zestaw testowy nigdy nie był używany i czeka na użycie do końca. Używam całego zestawu 800 próbek treningowych, z 10-krotnym sprawdzaniem poprawności podczas strojenia i poprawiania klasyfikatorów i funkcji. Oznacza to, że nie …

4
Jak mierzyć / oceniać „zmienne znaczenie” podczas korzystania z CART? (konkretnie używając {rpart} z R)
Podczas budowania modelu CART (w szczególności drzewa klasyfikacji) przy użyciu rpart (w R) często interesujące jest wiedzieć, jakie znaczenie mają różne zmienne wprowadzone do modelu. Tak więc moje pytanie brzmi: jakie wspólne miary istnieją dla uszeregowania / pomiaru znaczenia zmiennych uczestniczących zmiennych w modelu CART? I jak można to obliczyć …

7
W Naive Bayes, po co zawracać sobie głowę wygładzaniem Laplace'a, gdy w zestawie testowym mamy nieznane słowa?
Czytałem dziś o klasyfikacji Naive Bayes. Przeczytałem pod nagłówkiem Szacowanie parametrów z dodaniem 1 wygładzania : Niech odnosi się do klasy (takiej jak Pozytywna lub Negatywna), a niech odnosi się do tokena lub słowa.cccwww Estymator największego prawdopodobieństwa dla wynosiP(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in …

2
Kiedy właściwe jest stosowanie niewłaściwej reguły punktacji?
Merkle i Steyvers (2013) piszą: Aby formalnie zdefiniować prawidłową regułę punktacji, niech będzie prognozą probabilistyczną próby Bernoulliego z prawdziwym prawdopodobieństwem powodzenia . Prawidłowe reguły punktacji to miary, których oczekiwane wartości są zminimalizowane, jeśli .faffreddpppfa= pf=pf = p Rozumiem, że jest to dobre, ponieważ chcemy zachęcić prognostów do generowania prognoz, które …

1
One-vs-All i One-vs-One w svm?
Jaka jest różnica między klasyfikatorem SVM jeden na wszystkich a jednym na jednego? Czy jeden do wszystkich oznacza jednego klasyfikatora do klasyfikacji wszystkich typów / kategorii nowego obrazu, a jeden do jednego oznacza każdy typ / kategorię nowego obrazu klasyfikuje się za pomocą innego klasyfikatora (każda kategoria jest obsługiwana przez …

2
Trzy wersje analizy dyskryminacyjnej: różnice i sposób ich użycia
Czy ktoś może wyjaśnić różnice i podać konkretne przykłady wykorzystania tych trzech analiz? LDA - liniowa analiza dyskryminacyjna FDA - Analiza dyskryminacyjna Fishera QDA - Kwadratowa analiza dyskryminacyjna Szukałem wszędzie, ale nie mogłem znaleźć prawdziwych przykładów z prawdziwymi wartościami, aby zobaczyć, jak te analizy są wykorzystywane i obliczane dane, tylko …


4
Prognozowanie za pomocą funkcji ciągłych i kategorycznych
Niektóre techniki modelowania predykcyjnego są bardziej zaprojektowane do obsługi ciągłych predyktorów, podczas gdy inne są lepsze do obsługi zmiennych jakościowych lub dyskretnych. Oczywiście istnieją techniki przekształcania jednego typu na inny (dyskretyzacja, zmienne fikcyjne itp.). Czy są jednak jakieś techniki modelowania predykcyjnego, które zostały zaprojektowane do obsługi obu typów danych wejściowych …

1
Czy istnieje algorytm łączący klasyfikację i regresję?
Zastanawiam się, czy istnieje jakiś algorytm, który mógłby dokonać klasyfikacji i regresji w tym samym czasie. Na przykład chciałbym, aby algorytm nauczył się klasyfikatora, a jednocześnie w ramach każdej etykiety uczy się również ciągłego celu. Zatem dla każdego przykładu szkolenia ma kategoryczną etykietę i ciągłą wartość. Mógłbym najpierw wyszkolić klasyfikatora, …


2
Czy ma sens łączenie PCA i LDA?
Załóżmy, że mam zestaw danych do nadzorowanego zadania klasyfikacji statystycznej, np. Za pomocą klasyfikatora Bayesa. Ten zestaw danych składa się z 20 elementów i chcę sprowadzić go do 2 elementów za pomocą technik redukcji wymiarów, takich jak analiza głównych składników (PCA) i / lub liniowa analiza dyskryminacyjna (LDA). Obie techniki …

5
W jaki sposób najważniejsze główne komponenty mogą zachować moc predykcyjną zmiennej zależnej (a nawet prowadzić do lepszych prognoz)?
Załóżmy, że używam regresji . Dlaczego, wybierając najlepsze głównych składników , model zachowuje moc predykcyjną na ?Y∼XY∼XY \sim XkkkXXXYYY Rozumiem, że z punktu widzenia redukcji wymiarów / wyboru cech, jeśli są wektorami własnymi macierzy kowariancji X z najwyższymi wartościami własnymi k , to Xv_1, Xv_2 ... Xv_k są pierwszymi k …

3
Pięć najlepszych klasyfikatorów do wypróbowania w pierwszej kolejności
Poza oczywistymi cechami klasyfikatora, takimi jak koszt obliczeniowy, oczekiwane typy danych funkcji / etykiet i przydatność do określonych rozmiarów i wymiarów zbiorów danych, jakich pięciu najlepszych (lub 10, 20?) klasyfikatorów wypróbowuje najpierw na nowym zbiorze danych , o którym jeszcze niewiele wiadomo (np. semantyka i korelacja poszczególnych cech)? Zwykle wypróbowuję …

2
Wykrywanie wzorców oszukiwania podczas egzaminu na wiele pytań
PYTANIE: Mam dane binarne dotyczące pytań egzaminacyjnych (poprawne / niepoprawne). Niektóre osoby mogły mieć wcześniejszy dostęp do podzbioru pytań i prawidłowych odpowiedzi. Nie wiem kto, ilu lub który. Gdyby nie było oszukiwania, załóżmy, że modelowałbym prawdopodobieństwo poprawnej odpowiedzi dla elementu jako , gdzie reprezentuje trudność pytania, a to ukryta zdolność …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.