Mam problem z klasyfikacją binarną: Około 1000 próbek w zestawie treningowym 10 atrybutów, w tym binarne, numeryczne i kategoryczne Który algorytm jest najlepszym wyborem dla tego rodzaju problemu? Domyślnie zacznę od SVM (wstępne posiadanie nominalnych wartości atrybutów przekonwertowanych na funkcje binarne), ponieważ jest uważane za najlepsze dla stosunkowo czystych i …
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
Mam rzadkie cechy, które są predykcyjne, mam też pewne gęste cechy, które są również predykcyjne. Muszę połączyć te funkcje razem, aby poprawić ogólną wydajność klasyfikatora. Rzecz w tym, że kiedy próbuję połączyć je ze sobą, cechy gęste mają tendencję do dominacji nad cechami rzadkimi, a zatem dają tylko 1% poprawę …
Pracuję nad ulepszeniem istniejącego nadzorowanego klasyfikatora, do klasyfikowania sekwencji {białka} jako należących do określonej klasy (prekursorów hormonu neuropeptydowego), czy nie. Istnieje około 1150 znanych „pozytywów” na tle około 13 milionów sekwencji białek („Nieznane / słabo opatrzone adnotacjami tło”) lub około 100 000 sprawdzonych, odpowiednich białek, opatrzonych różnorodnymi właściwościami (ale bardzo …
Robiłem problem z klasyfikacją i przeczytałem kod wielu osób i samouczki. Jedną rzeczą, jaką zauważyłem jest to, że wiele osób podejmuje np.loglub logciągłej zmiennej jak loan_amounti applicant_incomeetc. Chcę tylko zrozumieć przyczynę tego. Czy pomaga to poprawić dokładność prognozowania naszego modelu? Czy to jest obowiązkowe? lub Czy kryje się za tym …
Mam dwa pytania dotyczące drzew decyzyjnych: Jeśli mamy ciągły atrybut, jak wybrać wartość podziału? Przykład: Wiek = (20,29,50,40 ....) Wyobrazić, że mają ciągłą atrybutu , które mają wartości R . Jak napisać algorytm, który znajdzie punkt podziału v , aby po podzieleniu f przez v uzyskaliśmy minimalne wzmocnienie dla f …
Pracuję nad problemem klasyfikacji. Mam zestaw danych zawierający taką samą liczbę zmiennych jakościowych i zmiennych ciągłych. Skąd będę wiedział, jakiej techniki użyć? między drzewem decyzyjnym a regresją logistyczną? Czy słusznie jest założyć, że regresja logistyczna będzie bardziej odpowiednia dla zmiennej ciągłej, a drzewo decyzyjne będzie bardziej odpowiednie dla zmiennej ciągłej …
Mam zbiór danych użytkowników kupujących produkty ze strony internetowej. Atrybuty, które mam, to identyfikator użytkownika, region (stan) użytkownika, identyfikator kategorii produktu, identyfikator słowa kluczowego produktu, identyfikator słowa kluczowego witryny internetowej i kwota sprzedaży produktu. Celem jest wykorzystanie informacji o produkcie i stronie internetowej w celu ustalenia tożsamości użytkowników, takich jak …
Mam zestaw danych o następujących specyfikacjach: Zestaw danych szkoleniowych z 193 176 próbkami z 2821 pozytywami Przetestuj zestaw danych z 82 887 próbkami z 673 pozytywami Istnieje 10 funkcji. Chcę przeprowadzić klasyfikację binarną (0 lub 1). Problem, przed którym stoję, polega na tym, że dane są bardzo niezrównoważone. Po normalizacji …
Jeśli mam zestaw danych treningowych i trenuję na nim klasyfikator Naive Bayes i mam wartość atrybutu, która ma prawdopodobieństwo zerowe. Jak sobie z tym poradzić, jeśli chcę później przewidzieć klasyfikację nowych danych? Problem polega na tym, że jeśli w obliczeniach jest zero, cały produkt staje się zerowy, bez względu na …
Czy ktoś może mi powiedzieć, jaki jest cel tworzenia funkcji? i dlaczego przed klasyfikacją obrazu konieczne jest wzbogacenie przestrzeni obiektów? Czy to konieczny krok? Czy istnieje metoda wzbogacenia przestrzeni funkcji?
Chciałbym wiedzieć, jaki jest najlepszy sposób klasyfikacji zestawu danych złożonego z mieszanych typów atrybutów, na przykład tekstowych i liczbowych. Wiem, że mogę konwertować tekst na logiczne, ale słownictwo jest zróżnicowane, a dane stają się zbyt rzadkie. Próbowałem również klasyfikować typy atrybutów osobno i łączyć wyniki za pomocą technik meta-uczenia, ale …
Muszę wiedzieć, dlaczego musimy radzić sobie z nierównowagą danych. Wiem, jak sobie z tym poradzić i różne metody rozwiązania tego problemu, polegające na próbkowaniu w górę lub w dół lub w programie Smote. Na przykład, jeśli mam rzadką chorobę 1 procent na 100, i powiedzmy, że zdecydowałem się na zbalansowany …
W tej chwili gram z Restricted Boltzmann Machines i skoro już to robię, chciałbym spróbować sklasyfikować za nim ręcznie pisane cyfry. Model, który stworzyłem, jest teraz dość fantazyjnym modelem generatywnym, ale nie wiem, jak dalej z nim iść. W tym artykule autor mówi, że po stworzeniu dobrego modelu generatywnego, jeden …
Potrzebuję pomocy na temat tego, jaki powinien być mój następny krok w projektowanym algorytmie. Ze względu na NDA nie mogę wiele ujawnić, ale postaram się być ogólny i zrozumiały. Zasadniczo po kilku krokach w algorytmach mam to: Dla każdego mojego klienta i wydarzeń, które robią w ciągu miesiąca, w pierwszych …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.