Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny






6
Funkcje kodowania, takie jak miesiąc i godzina, jako kategoryczne lub numeryczne?
Czy lepiej jest kodować funkcje takie jak miesiąc i godzina jako czynnik lub wartość liczbowa w modelu uczenia maszynowego? Z jednej strony uważam, że kodowanie numeryczne może być rozsądne, ponieważ czas jest procesem postępowym (po piątym miesiącu następuje szósty miesiąc), ale z drugiej strony uważam, że kodowanie kategoryczne może być …

4
Czy XGBoost sam radzi sobie z wielokoliniowością?
Obecnie używam XGBoost na zestawie danych z 21 funkcjami (wybranymi z listy około 150 funkcji), a następnie zakodowałem je jednym kodem, aby uzyskać ~ 98 funkcji. Kilka z tych 98 funkcji jest nieco redundantnych, na przykład: zmienna (funkcja) pojawia się również jako i .B.ZAZAA C.bZAbZA\frac{B}{A}doZAdoZA\frac{C}{A} Moje pytania to: W jaki …

2
Jak korzystać z danych wyjściowych GridSearch?
Obecnie pracuję z Python i Scikit uczyć się do celów klasyfikacji i czytając GridSearch, pomyślałem, że to świetny sposób na optymalizację parametrów estymatora, aby uzyskać najlepsze wyniki. Moja metodologia jest następująca: Podziel moje dane na szkolenie / test. Użyj GridSearch z 5-krotną weryfikacją krzyżową, aby trenować i testować moje estymatory …



3
Funkcja transformacji danych wejściowych
Czytałem o rozwiązaniu tego wyzwania OTTO Kaggle i rozwiązanie na pierwszym miejscu wydaje się wykorzystywać kilka transformacji dla danych wejściowych X, na przykład Log (X + 1), sqrt (X + 3/8) itp. Czy istnieje ogólna wskazówka, kiedy zastosować rodzaj transformacji do różnych klasyfikatorów? Rozumiem pojęcia normalizacji średniej-zmiennej i minimalnej-maksymalnej. Jednak …


6
Udostępnianie notatników Jupyter w zespole
Chciałbym skonfigurować serwer, który mógłby wspierać zespół zajmujący się badaniami danych w następujący sposób: być centralnym punktem do przechowywania, wersjonowania, udostępniania i ewentualnego wykonywania notatników Jupyter. Niektóre pożądane właściwości: Różni użytkownicy mogą uzyskać dostęp do serwera oraz otwierać i uruchamiać notesy, które były przez nich przechowywane lub przez innych członków …


3
Jaki jest lepszy wkład w Word2Vec?
To jest bardziej ogólne pytanie NLP. Jaki jest odpowiedni wkład, aby nauczyć się osadzania słów, a mianowicie Word2Vec? Czy wszystkie zdania należące do artykułu powinny być osobnym dokumentem w korpusie? A może każdy artykuł powinien być dokumentem we wspomnianym korpusie? To tylko przykład użycia Pythona i gensim. Korpus podzielony według …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.