Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny

4
Czy istnieje prosty sposób na równoległe uruchamianie pandas.DataFrame.isin?
Mam program do modelowania i oceniania, który intensywnie wykorzystuje DataFrame.isinfunkcję pand, przeszukując listy „podobnych” rejestrów Facebooka dla poszczególnych użytkowników dla każdej z kilku tysięcy konkretnych stron. Jest to najbardziej czasochłonna część programu, bardziej niż modelowanie lub ocenianie elementów, po prostu dlatego, że działa tylko na jednym rdzeniu, podczas gdy reszta …

3
Współczynnik Gini vs zanieczyszczenie Gini - drzewa decyzyjne
Problem dotyczy budowy drzew decyzyjnych. Według Wikipedii „ współczynnika Giniego ” nie należy mylić z „ zanieczyszczeniem Giniego ”. Jednak obie miary mogą być użyte podczas budowania drzewa decyzyjnego - mogą one wspierać nasze wybory przy dzieleniu zestawu elementów. 1) „Zanieczyszczenie Giniego” - jest to standardowa miara podziału drzewa decyzyjnego …

4
Word2Vec do rozpoznawania nazwanych jednostek
Chcę użyć implementacji word2vec Google do zbudowania systemu rozpoznawania nazwanych jednostek. Słyszałem, że rekurencyjne sieci neuronowe z wsteczną propagacją przez strukturę dobrze nadają się do zadań rozpoznawania nazwanych bytów, ale nie byłem w stanie znaleźć porządnej implementacji lub przyzwoitego samouczka dla tego typu modelu. Ponieważ pracuję z nietypowym korpusem, standardowe …


5
Obraz maszyny wirtualnej dla projektów związanych z nauką danych
Ponieważ dostępnych jest wiele narzędzi do zadań związanych z analizą danych, a instalacja wszystkiego i zbudowanie idealnego systemu jest uciążliwa. Czy istnieje obraz systemu Linux / Mac OS z zainstalowanymi i dostępnymi narzędziami do nauki danych w języku Python, R i innych wersjach open source? Idealny będzie system Ubuntu lub …
24 python  r  tools 

4
Scikit-learn: Jak SGDClassifier przewidział, a także regresję logistyczną
Metodą trenowania regresji logistycznej jest użycie stochastycznego spadku gradientu, do którego scikit-learn oferuje interfejs. Co chciałbym zrobić, to wziąć scikit-learn na SGDClassifier i mieć go zdobyć taki sam jak regresja logistyczna tutaj . Jednak muszę brakować niektórych ulepszeń uczenia maszynowego, ponieważ moje wyniki nie są równoważne. To jest mój obecny …


9
Jakaś konsola Online R?
Szukam konsoli online dla języka R. Podobnie jak w przypadku pisania kodu, serwer powinien się uruchomić i przekazać mi dane wyjściowe. Podobne do strony Datacamp.
24 r  statistics 

4
Czy Losowy Las się pokrywa?
Czytałem już o Losowych Lasach, ale tak naprawdę nie mogę znaleźć ostatecznej odpowiedzi na temat problemu nadmiernego dopasowania. Według oryginalnej pracy Breimana nie powinny się one nadmiernie obciążać podczas zwiększania liczby drzew w lesie, ale wydaje się, że nie ma zgody w tej sprawie. To wprawia mnie w pewne zamieszanie. …

3
Najlepsze praktyki przechowywania modeli uczenia maszynowego w języku Python
Jakie są najlepsze praktyki zapisywania, przechowywania i udostępniania modeli uczenia maszynowego? W Pythonie przechowujemy binarną reprezentację modelu za pomocą marynaty lub joblib. Modele w moim przypadku mogą być ~ 100 milionów dużych. Joblib może również zapisać jeden model do wielu plików, chyba że ustawisz compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). Ale jeśli …

4
Znaczenie ukrytych cech?
Uczę się o rozkładaniu macierzy na systemy rekomendujące i widzę, że termin latent featureswystępuje zbyt często, ale nie jestem w stanie zrozumieć, co to znaczy. Wiem, co to jest funkcja, ale nie rozumiem pojęcia ukrytych funkcji. Czy możesz to wyjaśnić? A przynajmniej wskaż mi artykuł / miejsce, w którym mogę …

4
Czy zawsze lepiej jest używać całego zestawu danych do szkolenia ostatecznego modelu?
Powszechną techniką po przeszkoleniu, sprawdzeniu poprawności i przetestowaniu preferowanego modelu uczenia maszynowego jest użycie pełnego zestawu danych, w tym podzestawu testowego, do wyszkolenia ostatecznego modelu w celu wdrożenia go, np. Produktu. Moje pytanie brzmi: czy zawsze tak jest najlepiej? Co jeśli wydajność faktycznie się pogorszy? Załóżmy na przykład, że model …


3
Czy modelowanie za pomocą losowych lasów wymaga weryfikacji krzyżowej?
O ile widziałem, opinie na ten temat różnią się. Najlepsza praktyka z pewnością podyktowałaby zastosowanie weryfikacji krzyżowej (szczególnie przy porównywaniu RF z innymi algorytmami w tym samym zbiorze danych). Z drugiej strony oryginalne źródło stwierdza, że ​​błąd OOB obliczany podczas szkolenia modelu jest wystarczającym wskaźnikiem wydajności zestawu testowego. Nawet Trevor …

3
Pomysły na projekt Data Science [zamknięte]
Zamknięte . To pytanie jest oparte na opiniach . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby można było na nie odpowiedzieć faktami i cytatami, edytując ten post . Zamknięte 5 lat temu . Nie wiem, czy to właściwe miejsce, aby zadać to pytanie, ale moim zdaniem …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.