Obecnie pracuję nad modelem regresji logistycznej dla genomiki. Jednym z pól wejściowych, które chcę uwzględnić jako zmienną towarzyszącą, jest genes
. Istnieje około 24 000 znanych genów. Istnieje wiele funkcji o tym poziomie zmienności w biologii obliczeniowej i potrzebne są setki tysięcy próbek.
- Jeśli ja
LabelEncoder()
te geny 24K - a potem
OneHotEncoder()
oni ...
Czy 24 000 kolumn sprawi, że moje czasy treningów z kamerami będą nieuzasadnione dla czterordzeniowego procesora i7 2,2 GHz?
Jeśli tak, to czy mogę zastosować inne podejście do kodowania?
Czy powinienem w jakiś sposób spróbować poświęcić warstwę mojego modelu tej funkcji?
Czy to oznacza, że potrzebuję 24K węzłów wejściowych?