Nauka danych

4

Co sprawia, że kolumnowe bazy danych są odpowiednie do analizy danych?

Jakie są zalety kolumnowych magazynów danych, które czynią je bardziej odpowiednimi do analizy danych i analizy?

23 databases tools

4

Czy przed klastrowaniem konieczna jest standaryzacja danych?

Czy przed klastrowaniem konieczna jest standaryzacja danych? W przykładzie z scikit learnokoło DBSCAN tutaj robią to w wierszu: X = StandardScaler().fit_transform(X) Ale nie rozumiem, dlaczego jest to konieczne. W końcu klastrowanie nie zakłada żadnej szczególnej dystrybucji danych - jest to metoda uczenia się bez nadzoru, więc jej celem jest eksploracja …

23 python clustering clusters anomaly-detection

3

K oznacza niespójne zachowanie wybierając K metodą Elbow, BIC, wyjaśniono wariancję i sylwetkę

Próbuję zgrupować niektóre wektory z 90 funkcjami za pomocą K-średnich. Ponieważ ten algorytm pyta mnie o liczbę klastrów, chcę potwierdzić mój wybór pewną dobrą matematyką. Oczekuję, że mam od 8 do 10 klastrów. Funkcje są skalowane w punktacji Z. Wyjaśnienie metody łokcia i wariancji from scipy.spatial.distance import cdist, pdist from …

23 clustering k-means

7

Cel wizualizacji danych wysokowymiarowych?

Istnieje wiele technik wizualizacji zestawów danych o dużych wymiarach, takich jak T-SNE, izomapa, PCA, nadzorowany PCA itp. I przechodzimy przez ruchy rzutowania danych do przestrzeni 2D lub 3D, więc mamy „ładne zdjęcia” „. Niektóre z tych metod osadzania (uczenie się na wiele sposobów) opisano tutaj . Ale czy to „ładne …

23 machine-learning dimensionality-reduction visualization

5

Jak porównać kolumny w różnych ramkach danych?

Chciałbym porównać jedną kolumnę pliku df z innymi plikami df. Kolumny to imiona i nazwiska. Chciałbym sprawdzić, czy osoba w jednej ramce danych jest w innej.

23 pandas dataframe

6

Funkcje kodowania, takie jak miesiąc i godzina, jako kategoryczne lub numeryczne?

Czy lepiej jest kodować funkcje takie jak miesiąc i godzina jako czynnik lub wartość liczbowa w modelu uczenia maszynowego? Z jednej strony uważam, że kodowanie numeryczne może być rozsądne, ponieważ czas jest procesem postępowym (po piątym miesiącu następuje szósty miesiąc), ale z drugiej strony uważam, że kodowanie kategoryczne może być …

23 machine-learning feature-extraction feature-engineering encoding numerical

4

Czy XGBoost sam radzi sobie z wielokoliniowością?

Obecnie używam XGBoost na zestawie danych z 21 funkcjami (wybranymi z listy około 150 funkcji), a następnie zakodowałem je jednym kodem, aby uzyskać ~ 98 funkcji. Kilka z tych 98 funkcji jest nieco redundantnych, na przykład: zmienna (funkcja) pojawia się również jako i .B.ZAZAA C.bZAbZA\frac{B}{A}doZAdoZA\frac{C}{A} Moje pytania to: W jaki …

23 feature-selection correlation xgboost gbm

2

Jak korzystać z danych wyjściowych GridSearch?

Obecnie pracuję z Python i Scikit uczyć się do celów klasyfikacji i czytając GridSearch, pomyślałem, że to świetny sposób na optymalizację parametrów estymatora, aby uzyskać najlepsze wyniki. Moja metodologia jest następująca: Podziel moje dane na szkolenie / test. Użyj GridSearch z 5-krotną weryfikacją krzyżową, aby trenować i testować moje estymatory …

23 machine-learning cross-validation

2

Czym dokładnie jest bootstrapping w uczeniu się przez wzmacnianie?

Najwyraźniej w uczeniu się przez wzmocnienie metoda różnic czasowych (TD) jest metodą ładowania początkowego. Z drugiej strony metody Monte Carlo nie są metodami ładowania początkowego. Czym dokładnie jest ładowanie w RL? Co to jest metoda ładowania początkowego w RL?

23 reinforcement-learning

3

Jakie jest kodowanie pozycyjne w modelu transformatora?

Jestem nowy w ML i to jest moje pierwsze pytanie tutaj, więc przepraszam, jeśli moje pytanie jest głupie. Staram się przeczytać i zrozumieć artykuł. Uwaga jest wszystkim, czego potrzebujesz, i jest tam zdjęcie: Nie wiem, co to jest kodowanie pozycyjne . słuchając niektórych filmów z YouTube odkryłem, że jest to …

23 nlp encoding attention-mechanism transformer

3

Funkcja transformacji danych wejściowych

Czytałem o rozwiązaniu tego wyzwania OTTO Kaggle i rozwiązanie na pierwszym miejscu wydaje się wykorzystywać kilka transformacji dla danych wejściowych X, na przykład Log (X + 1), sqrt (X + 3/8) itp. Czy istnieje ogólna wskazówka, kiedy zastosować rodzaj transformacji do różnych klasyfikatorów? Rozumiem pojęcia normalizacji średniej-zmiennej i minimalnej-maksymalnej. Jednak …

22 machine-learning feature-extraction feature-scaling

6

Dlaczego działają splotowe sieci neuronowe?

Często słyszę, jak ludzie mówią, dlaczego splotowe sieci neuronowe są nadal słabo poznane. Czy wiadomo, dlaczego splotowe sieci neuronowe zawsze uczą się coraz bardziej wyrafinowanych funkcji w miarę wchodzenia na kolejne warstwy? Co spowodowało, że stworzyli taki zestaw cech i czy dotyczyłoby to również innych typów głębokich sieci neuronowych?

22 machine-learning neural-network deep-learning convnet cnn

6

Udostępnianie notatników Jupyter w zespole

Chciałbym skonfigurować serwer, który mógłby wspierać zespół zajmujący się badaniami danych w następujący sposób: być centralnym punktem do przechowywania, wersjonowania, udostępniania i ewentualnego wykonywania notatników Jupyter. Niektóre pożądane właściwości: Różni użytkownicy mogą uzyskać dostęp do serwera oraz otwierać i uruchamiać notesy, które były przez nich przechowywane lub przez innych członków …

22 software-recommendation

3

Kodowanie zmiennych kategorialnych przy użyciu oszacowania prawdopodobieństwa

Próbuję zrozumieć, w jaki sposób mogę kodować zmienne kategorialne za pomocą oszacowania prawdopodobieństwa, ale jak dotąd nie odniosłem sukcesu. Wszelkie sugestie będą mile widziane.

22 feature-engineering

3

Jaki jest lepszy wkład w Word2Vec?

To jest bardziej ogólne pytanie NLP. Jaki jest odpowiedni wkład, aby nauczyć się osadzania słów, a mianowicie Word2Vec? Czy wszystkie zdania należące do artykułu powinny być osobnym dokumentem w korpusie? A może każdy artykuł powinien być dokumentem we wspomnianym korpusie? To tylko przykład użycia Pythona i gensim. Korpus podzielony według …

22 nlp word-embeddings