Nauka danych

4

Czy istnieje prosty sposób na równoległe uruchamianie pandas.DataFrame.isin?

Mam program do modelowania i oceniania, który intensywnie wykorzystuje DataFrame.isinfunkcję pand, przeszukując listy „podobnych” rejestrów Facebooka dla poszczególnych użytkowników dla każdej z kilku tysięcy konkretnych stron. Jest to najbardziej czasochłonna część programu, bardziej niż modelowanie lub ocenianie elementów, po prostu dlatego, że działa tylko na jednym rdzeniu, podczas gdy reszta …

25 performance python pandas parallel

3

Współczynnik Gini vs zanieczyszczenie Gini - drzewa decyzyjne

Problem dotyczy budowy drzew decyzyjnych. Według Wikipedii „ współczynnika Giniego ” nie należy mylić z „ zanieczyszczeniem Giniego ”. Jednak obie miary mogą być użyte podczas budowania drzewa decyzyjnego - mogą one wspierać nasze wybory przy dzieleniu zestawu elementów. 1) „Zanieczyszczenie Giniego” - jest to standardowa miara podziału drzewa decyzyjnego …

25 data-mining

4

Word2Vec do rozpoznawania nazwanych jednostek

Chcę użyć implementacji word2vec Google do zbudowania systemu rozpoznawania nazwanych jednostek. Słyszałem, że rekurencyjne sieci neuronowe z wsteczną propagacją przez strukturę dobrze nadają się do zadań rozpoznawania nazwanych bytów, ale nie byłem w stanie znaleźć porządnej implementacji lub przyzwoitego samouczka dla tego typu modelu. Ponieważ pracuję z nietypowym korpusem, standardowe …

25 machine-learning python neural-network nlp

3

Dlaczego potrzebujemy XGBoost i Random Forest?

Nie byłem pewien kilku pojęć: XGBoost przekształca słabych uczniów w silnych uczniów. Jaka jest zaleta robienia tego? Łączenie wielu słabych uczniów zamiast korzystania z jednego drzewa? Losowy las używa różnych próbek z drzewa do utworzenia drzewa. Jaka jest zaleta tej metody zamiast używania pojedynczego drzewa?

25 machine-learning data-mining random-forest decision-trees xgboost

5

Obraz maszyny wirtualnej dla projektów związanych z nauką danych

Ponieważ dostępnych jest wiele narzędzi do zadań związanych z analizą danych, a instalacja wszystkiego i zbudowanie idealnego systemu jest uciążliwa. Czy istnieje obraz systemu Linux / Mac OS z zainstalowanymi i dostępnymi narzędziami do nauki danych w języku Python, R i innych wersjach open source? Idealny będzie system Ubuntu lub …

24 python r tools

4

Scikit-learn: Jak SGDClassifier przewidział, a także regresję logistyczną

Metodą trenowania regresji logistycznej jest użycie stochastycznego spadku gradientu, do którego scikit-learn oferuje interfejs. Co chciałbym zrobić, to wziąć scikit-learn na SGDClassifier i mieć go zdobyć taki sam jak regresja logistyczna tutaj . Jednak muszę brakować niektórych ulepszeń uczenia maszynowego, ponieważ moje wyniki nie są równoważne. To jest mój obecny …

24 python logistic-regression scikit-learn gradient-descent

3

Dlaczego społeczności NLP i Machine Learning są zainteresowane głębokim uczeniem się?

Mam nadzieję, że możesz mi pomóc, ponieważ mam kilka pytań na ten temat. Jestem nowy w dziedzinie głębokiego uczenia się i chociaż przeprowadziłem kilka samouczków, nie mogę nawiązywać ani rozróżniać pojęć.

24 machine-learning data-mining neural-network nlp deep-learning

9

Jakaś konsola Online R?

Szukam konsoli online dla języka R. Podobnie jak w przypadku pisania kodu, serwer powinien się uruchomić i przekazać mi dane wyjściowe. Podobne do strony Datacamp.

24 r statistics

4

Czy Losowy Las się pokrywa?

Czytałem już o Losowych Lasach, ale tak naprawdę nie mogę znaleźć ostatecznej odpowiedzi na temat problemu nadmiernego dopasowania. Według oryginalnej pracy Breimana nie powinny się one nadmiernie obciążać podczas zwiększania liczby drzew w lesie, ale wydaje się, że nie ma zgody w tej sprawie. To wprawia mnie w pewne zamieszanie. …

24 machine-learning random-forest

3

Najlepsze praktyki przechowywania modeli uczenia maszynowego w języku Python

Jakie są najlepsze praktyki zapisywania, przechowywania i udostępniania modeli uczenia maszynowego? W Pythonie przechowujemy binarną reprezentację modelu za pomocą marynaty lub joblib. Modele w moim przypadku mogą być ~ 100 milionów dużych. Joblib może również zapisać jeden model do wielu plików, chyba że ustawisz compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). Ale jeśli …

24 python databases binary

4

Znaczenie ukrytych cech?

Uczę się o rozkładaniu macierzy na systemy rekomendujące i widzę, że termin latent featureswystępuje zbyt często, ale nie jestem w stanie zrozumieć, co to znaczy. Wiem, co to jest funkcja, ale nie rozumiem pojęcia ukrytych funkcji. Czy możesz to wyjaśnić? A przynajmniej wskaż mi artykuł / miejsce, w którym mogę …

24 machine-learning data-mining recommender-system

4

Czy zawsze lepiej jest używać całego zestawu danych do szkolenia ostatecznego modelu?

Powszechną techniką po przeszkoleniu, sprawdzeniu poprawności i przetestowaniu preferowanego modelu uczenia maszynowego jest użycie pełnego zestawu danych, w tym podzestawu testowego, do wyszkolenia ostatecznego modelu w celu wdrożenia go, np. Produktu. Moje pytanie brzmi: czy zawsze tak jest najlepiej? Co jeśli wydajność faktycznie się pogorszy? Załóżmy na przykład, że model …

24 machine-learning dataset training accuracy

3

Jaka jest różnica między spadkiem gradientu a spadkiem gradientu stochastycznego?

Jaka jest różnica między spadkiem gradientu a spadkiem gradientu stochastycznego? Nie znam ich zbyt dobrze, czy możesz opisać różnicę krótkim przykładem?

24 machine-learning neural-network deep-learning gradient-descent

3

Czy modelowanie za pomocą losowych lasów wymaga weryfikacji krzyżowej?

O ile widziałem, opinie na ten temat różnią się. Najlepsza praktyka z pewnością podyktowałaby zastosowanie weryfikacji krzyżowej (szczególnie przy porównywaniu RF z innymi algorytmami w tym samym zbiorze danych). Z drugiej strony oryginalne źródło stwierdza, że błąd OOB obliczany podczas szkolenia modelu jest wystarczającym wskaźnikiem wydajności zestawu testowego. Nawet Trevor …

23 random-forest cross-validation

3

Pomysły na projekt Data Science [zamknięte]

Zamknięte . To pytanie jest oparte na opiniach . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby można było na nie odpowiedzieć faktami i cytatami, edytując ten post . Zamknięte 5 lat temu . Nie wiem, czy to właściwe miejsce, aby zadać to pytanie, ale moim zdaniem …

23 machine-learning bigdata dataset