Pytania otagowane jako feature-construction

Inżynieria funkcji to proces wykorzystywania wiedzy domenowej na temat danych do tworzenia funkcji dla modeli uczenia maszynowego. Ten tag jest przeznaczony zarówno do teoretycznych, jak i praktycznych pytań dotyczących inżynierii funkcji, z wyłączeniem pytań o kod, który byłby niezwiązany z tematem w CrossValidated.

6
Zasada zwijania zmiennych jakościowych na wielu poziomach?
Jakie techniki są dostępne do zwijania (lub łączenia) wielu kategorii do kilku, w celu wykorzystania ich jako danych wejściowych (predyktorów) w modelu statystycznym? Rozważ zmienną taką jak kierunek studiów studenckich (dyscyplina wybrana przez studenta). Jest nieuporządkowany i kategoryczny, ale potencjalnie może mieć dziesiątki różnych poziomów. Powiedzmy, że chcę użyć major …

2
Autoencodery nie mogą nauczyć się istotnych funkcji
Mam 50 000 obrazów takich jak te dwa: Przedstawiają wykresy danych. Chciałem wydobyć funkcje z tych obrazów, więc użyłem kodu autoencodera dostarczonego przez Theano (deeplearning.net). Problem polega na tym, że te autoencodery wydają się nie uczyć żadnych funkcji. Próbowałem RBM i to samo. Zestaw danych MNIST zapewnia ładne funkcje, ale …

7
jak reprezentować geografię lub kod pocztowy w modelu uczenia maszynowego lub systemie rekomendującym?
Buduję model i myślę, że położenie geograficzne może być bardzo dobre w przewidywaniu zmiennej docelowej. Mam kod pocztowy każdego z moich użytkowników. Nie jestem jednak całkowicie pewien najlepszego sposobu włączenia kodu pocztowego jako funkcji predykcyjnej w moim modelu. Chociaż kod pocztowy jest liczbą, nic nie znaczy, jeśli liczba rośnie lub …

2
Jak zainicjować elementy macierzy filtrów?
Próbuję lepiej zrozumieć splotowe sieci neuronowe, pisząc kod Pythona, który nie zależy od bibliotek (takich jak Convnet lub TensorFlow), i utknąłem w literaturze na temat wyboru wartości dla macierzy jądra, kiedy przeprowadzanie splotu obrazu. Próbuję zrozumieć szczegóły implementacji na etapie między mapami funkcji na poniższym obrazku pokazującym warstwy CNN. Zgodnie …

2
Kiedy powinniśmy dyskretyzować / bin ciągłe zmienne / funkcje niezależne, a kiedy nie?
Kiedy powinniśmy dyskretyzować / bin niezależne zmienne / cechy, a kiedy nie? Moje próby odpowiedzi na pytanie: Zasadniczo nie powinniśmy binować, ponieważ binowanie spowoduje utratę informacji. Binning faktycznie zwiększa stopień swobody modelu, więc możliwe jest spowodowanie nadmiernego dopasowania po binningu. Jeśli mamy model „dużej odchylenia”, binowanie może nie być złe, …

5
Dlaczego działa inżynieria funkcji?
Ostatnio dowiedziałem się, że jednym ze sposobów znajdowania lepszych rozwiązań problemów ML jest tworzenie funkcji. Można to zrobić, na przykład sumując dwie funkcje. Na przykład, mamy dwie cechy: „atak” i „obrona” jakiegoś bohatera. Następnie tworzymy dodatkową funkcję o nazwie „total”, która jest sumą „ataku” i „obrony”. Teraz wydaje mi się …

2
Samouczki dotyczące inżynierii funkcji
Jak wiadomo wszystkim, inżynieria cech jest niezwykle ważna w uczeniu maszynowym, jednak znalazłem niewiele materiałów związanych z tym obszarem. Brałem udział w kilku konkursach w Kaggle i wierzę, że dobre cechy mogą być nawet ważniejsze niż dobry klasyfikator w niektórych przypadkach. Czy ktoś zna tutoriale na temat inżynierii funkcji, czy …


1
Co to jest „przestrzeń funkcji”?
Jaka jest definicja „przestrzeni obiektów”? Na przykład czytając o SVM, czytam o „mapowaniu do przestrzeni funkcji”. Czytając o KOSZYKU, czytam o „partycjonowaniu w przestrzeń funkcji”. Rozumiem, co się dzieje, szczególnie w przypadku CART, ale myślę, że brakuje mi definicji. Czy istnieje ogólna definicja „przestrzeni obiektów”? Czy istnieje definicja, która da …


5
Czy lepiej jest przeprowadzać eksploracyjną analizę danych tylko w zestawie danych szkoleniowych?
Wykonuję eksploracyjną analizę danych (EDA) na zbiorze danych. Następnie wybiorę niektóre funkcje, aby przewidzieć zmienną zależną. Pytanie brzmi: czy powinienem wykonywać EDA tylko na moim zestawie danych szkoleniowych? A może powinienem dołączyć do zestawu danych szkoleniowych i testowych, a następnie wykonać na nich EDA i wybrać funkcje oparte na tej …



1
Automatyczne wyodrębnianie słów kluczowych: użycie podobieństw cosinusu jako funkcji
Mam matrycę terminów dokumentowych , a teraz chciałbym wyodrębnić słowa kluczowe dla każdego dokumentu za pomocą nadzorowanej metody uczenia się (SVM, Naive Bayes, ...). W tym modelu używam już Tf-idf, znacznika Pos, ...M.M.M Ale teraz zastanawiam się nad kolejnymi. Mam macierz z podobieństwami cosinusowymi między warunkami.dodoC Czy istnieje możliwość wykorzystania …

2
Inżynieria cech niezależna od domeny, która zachowuje znaczenie semantyczne?
Inżynieria cech jest często ważnym elementem uczenia maszynowego (została wykorzystana bardzo często, aby wygrać Puchar KDD w 2010 r .). Uważam jednak, że większość technik inżynierii cech również zniszczyć jakiekolwiek intuicyjne znaczenie podstawowych funkcji lub są bardzo specyficzne dla konkretnej domeny lub nawet określonego rodzaju funkcji. Klasycznym przykładem tego pierwszego …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.