Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Czy przed klastrowaniem konieczna jest standaryzacja danych? W przykładzie z scikit learnokoło DBSCAN tutaj robią to w wierszu: X = StandardScaler().fit_transform(X) Ale nie rozumiem, dlaczego jest to konieczne. W końcu klastrowanie nie zakłada żadnej szczególnej dystrybucji danych - jest to metoda uczenia się bez nadzoru, więc jej celem jest eksploracja …
Próbuję zgrupować niektóre wektory z 90 funkcjami za pomocą K-średnich. Ponieważ ten algorytm pyta mnie o liczbę klastrów, chcę potwierdzić mój wybór pewną dobrą matematyką. Oczekuję, że mam od 8 do 10 klastrów. Funkcje są skalowane w punktacji Z. Wyjaśnienie metody łokcia i wariancji from scipy.spatial.distance import cdist, pdist from …
Istnieje wiele technik wizualizacji zestawów danych o dużych wymiarach, takich jak T-SNE, izomapa, PCA, nadzorowany PCA itp. I przechodzimy przez ruchy rzutowania danych do przestrzeni 2D lub 3D, więc mamy „ładne zdjęcia” „. Niektóre z tych metod osadzania (uczenie się na wiele sposobów) opisano tutaj . Ale czy to „ładne …
Chciałbym porównać jedną kolumnę pliku df z innymi plikami df. Kolumny to imiona i nazwiska. Chciałbym sprawdzić, czy osoba w jednej ramce danych jest w innej.
Czy lepiej jest kodować funkcje takie jak miesiąc i godzina jako czynnik lub wartość liczbowa w modelu uczenia maszynowego? Z jednej strony uważam, że kodowanie numeryczne może być rozsądne, ponieważ czas jest procesem postępowym (po piątym miesiącu następuje szósty miesiąc), ale z drugiej strony uważam, że kodowanie kategoryczne może być …
Obecnie używam XGBoost na zestawie danych z 21 funkcjami (wybranymi z listy około 150 funkcji), a następnie zakodowałem je jednym kodem, aby uzyskać ~ 98 funkcji. Kilka z tych 98 funkcji jest nieco redundantnych, na przykład: zmienna (funkcja) pojawia się również jako i .B.ZAZAA C.bZAbZA\frac{B}{A}doZAdoZA\frac{C}{A} Moje pytania to: W jaki …
Obecnie pracuję z Python i Scikit uczyć się do celów klasyfikacji i czytając GridSearch, pomyślałem, że to świetny sposób na optymalizację parametrów estymatora, aby uzyskać najlepsze wyniki. Moja metodologia jest następująca: Podziel moje dane na szkolenie / test. Użyj GridSearch z 5-krotną weryfikacją krzyżową, aby trenować i testować moje estymatory …
Najwyraźniej w uczeniu się przez wzmocnienie metoda różnic czasowych (TD) jest metodą ładowania początkowego. Z drugiej strony metody Monte Carlo nie są metodami ładowania początkowego. Czym dokładnie jest ładowanie w RL? Co to jest metoda ładowania początkowego w RL?
Jestem nowy w ML i to jest moje pierwsze pytanie tutaj, więc przepraszam, jeśli moje pytanie jest głupie. Staram się przeczytać i zrozumieć artykuł. Uwaga jest wszystkim, czego potrzebujesz, i jest tam zdjęcie: Nie wiem, co to jest kodowanie pozycyjne . słuchając niektórych filmów z YouTube odkryłem, że jest to …
Czytałem o rozwiązaniu tego wyzwania OTTO Kaggle i rozwiązanie na pierwszym miejscu wydaje się wykorzystywać kilka transformacji dla danych wejściowych X, na przykład Log (X + 1), sqrt (X + 3/8) itp. Czy istnieje ogólna wskazówka, kiedy zastosować rodzaj transformacji do różnych klasyfikatorów? Rozumiem pojęcia normalizacji średniej-zmiennej i minimalnej-maksymalnej. Jednak …
Często słyszę, jak ludzie mówią, dlaczego splotowe sieci neuronowe są nadal słabo poznane. Czy wiadomo, dlaczego splotowe sieci neuronowe zawsze uczą się coraz bardziej wyrafinowanych funkcji w miarę wchodzenia na kolejne warstwy? Co spowodowało, że stworzyli taki zestaw cech i czy dotyczyłoby to również innych typów głębokich sieci neuronowych?
Chciałbym skonfigurować serwer, który mógłby wspierać zespół zajmujący się badaniami danych w następujący sposób: być centralnym punktem do przechowywania, wersjonowania, udostępniania i ewentualnego wykonywania notatników Jupyter. Niektóre pożądane właściwości: Różni użytkownicy mogą uzyskać dostęp do serwera oraz otwierać i uruchamiać notesy, które były przez nich przechowywane lub przez innych członków …
Próbuję zrozumieć, w jaki sposób mogę kodować zmienne kategorialne za pomocą oszacowania prawdopodobieństwa, ale jak dotąd nie odniosłem sukcesu. Wszelkie sugestie będą mile widziane.
To jest bardziej ogólne pytanie NLP. Jaki jest odpowiedni wkład, aby nauczyć się osadzania słów, a mianowicie Word2Vec? Czy wszystkie zdania należące do artykułu powinny być osobnym dokumentem w korpusie? A może każdy artykuł powinien być dokumentem we wspomnianym korpusie? To tylko przykład użycia Pythona i gensim. Korpus podzielony według …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.