Od jakiegoś czasu buduję modele z danymi kategorialnymi, a kiedy w tej sytuacji zasadniczo używam funkcji LabelEncoder scikit-learn do transformacji tych danych przed zbudowaniem modelu. Rozumiem różnicę między OHE, LabelEncodera DictVectorizorjeśli chodzi o to, co robią z danymi, ale to, co nie jest dla mnie jasne jest, kiedy można wybrać …
Czy lepiej jest kodować funkcje takie jak miesiąc i godzina jako czynnik lub wartość liczbowa w modelu uczenia maszynowego? Z jednej strony uważam, że kodowanie numeryczne może być rozsądne, ponieważ czas jest procesem postępowym (po piątym miesiącu następuje szósty miesiąc), ale z drugiej strony uważam, że kodowanie kategoryczne może być …
Próbuję zrozumieć, w jaki sposób mogę kodować zmienne kategorialne za pomocą oszacowania prawdopodobieństwa, ale jak dotąd nie odniosłem sukcesu. Wszelkie sugestie będą mile widziane.
W przypadku posiadania kombinacji atrybutów jakościowych i liczbowych zwykle przekształcam atrybuty jakościowe w jeden gorący wektor. Moje pytanie brzmi: czy pozostawiam te wektory bez zmian i skaluję atrybuty numeryczne poprzez standaryzację / normalizację, czy powinienem skalować jeden gorący wektor wraz z atrybutami numerycznymi?
Biorę udział w konkursie kaggle. Zestaw danych ma około 100 funkcji i wszystkie są nieznane (pod względem tego, co faktycznie reprezentują). Zasadniczo są to tylko liczby. Ludzie wykonują wiele inżynierii funkcji na tych funkcjach. Zastanawiam się, jak dokładnie można wykonać inżynierię funkcji na nieznanych funkcjach? Czy ktoś może mi pomóc …
Zamknięte . To pytanie wymaga szczegółów lub jasności . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Dodaj szczegóły i wyjaśnij problem, edytując ten post . Zamknięte 3 lata temu . Pracuję nad fikcyjnym zestawem danych z 25 funkcjami. Dwie cechy to szerokość i długość geograficzna miejsca, a inne to …
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
Pracowałem nad rozwiązaniem konkursu cen mieszkań na Kaggle (jądro Human Analog w cenach domów: techniki regresji z wyprzedzeniem ) i natknąłem się na tę część: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = …
Czytam prezentację i zaleca się, aby nie używać pomijania jednego kodu, ale w przypadku jednego kodowania na gorąco jest to w porządku. Myślałem, że oba są takie same. Czy ktoś może opisać, jakie są między nimi różnice?
Mam praktyczne pytanie dotyczące inżynierii funkcji ... powiedzmy, że chcę przewidzieć ceny domów za pomocą regresji logistycznej i użyłem wielu funkcji, w tym kodu pocztowego. Następnie, sprawdzając ważność funkcji, zdaję sobie sprawę, że zip jest całkiem dobrą funkcją, więc postanowiłem dodać więcej funkcji opartych na zipie - na przykład idę …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.