Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Mam program do modelowania i oceniania, który intensywnie wykorzystuje DataFrame.isinfunkcję pand, przeszukując listy „podobnych” rejestrów Facebooka dla poszczególnych użytkowników dla każdej z kilku tysięcy konkretnych stron. Jest to najbardziej czasochłonna część programu, bardziej niż modelowanie lub ocenianie elementów, po prostu dlatego, że działa tylko na jednym rdzeniu, podczas gdy reszta …
Problem dotyczy budowy drzew decyzyjnych. Według Wikipedii „ współczynnika Giniego ” nie należy mylić z „ zanieczyszczeniem Giniego ”. Jednak obie miary mogą być użyte podczas budowania drzewa decyzyjnego - mogą one wspierać nasze wybory przy dzieleniu zestawu elementów. 1) „Zanieczyszczenie Giniego” - jest to standardowa miara podziału drzewa decyzyjnego …
Chcę użyć implementacji word2vec Google do zbudowania systemu rozpoznawania nazwanych jednostek. Słyszałem, że rekurencyjne sieci neuronowe z wsteczną propagacją przez strukturę dobrze nadają się do zadań rozpoznawania nazwanych bytów, ale nie byłem w stanie znaleźć porządnej implementacji lub przyzwoitego samouczka dla tego typu modelu. Ponieważ pracuję z nietypowym korpusem, standardowe …
Nie byłem pewien kilku pojęć: XGBoost przekształca słabych uczniów w silnych uczniów. Jaka jest zaleta robienia tego? Łączenie wielu słabych uczniów zamiast korzystania z jednego drzewa? Losowy las używa różnych próbek z drzewa do utworzenia drzewa. Jaka jest zaleta tej metody zamiast używania pojedynczego drzewa?
Ponieważ dostępnych jest wiele narzędzi do zadań związanych z analizą danych, a instalacja wszystkiego i zbudowanie idealnego systemu jest uciążliwa. Czy istnieje obraz systemu Linux / Mac OS z zainstalowanymi i dostępnymi narzędziami do nauki danych w języku Python, R i innych wersjach open source? Idealny będzie system Ubuntu lub …
Metodą trenowania regresji logistycznej jest użycie stochastycznego spadku gradientu, do którego scikit-learn oferuje interfejs. Co chciałbym zrobić, to wziąć scikit-learn na SGDClassifier i mieć go zdobyć taki sam jak regresja logistyczna tutaj . Jednak muszę brakować niektórych ulepszeń uczenia maszynowego, ponieważ moje wyniki nie są równoważne. To jest mój obecny …
Mam nadzieję, że możesz mi pomóc, ponieważ mam kilka pytań na ten temat. Jestem nowy w dziedzinie głębokiego uczenia się i chociaż przeprowadziłem kilka samouczków, nie mogę nawiązywać ani rozróżniać pojęć.
Szukam konsoli online dla języka R. Podobnie jak w przypadku pisania kodu, serwer powinien się uruchomić i przekazać mi dane wyjściowe. Podobne do strony Datacamp.
Czytałem już o Losowych Lasach, ale tak naprawdę nie mogę znaleźć ostatecznej odpowiedzi na temat problemu nadmiernego dopasowania. Według oryginalnej pracy Breimana nie powinny się one nadmiernie obciążać podczas zwiększania liczby drzew w lesie, ale wydaje się, że nie ma zgody w tej sprawie. To wprawia mnie w pewne zamieszanie. …
Jakie są najlepsze praktyki zapisywania, przechowywania i udostępniania modeli uczenia maszynowego? W Pythonie przechowujemy binarną reprezentację modelu za pomocą marynaty lub joblib. Modele w moim przypadku mogą być ~ 100 milionów dużych. Joblib może również zapisać jeden model do wielu plików, chyba że ustawisz compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). Ale jeśli …
Uczę się o rozkładaniu macierzy na systemy rekomendujące i widzę, że termin latent featureswystępuje zbyt często, ale nie jestem w stanie zrozumieć, co to znaczy. Wiem, co to jest funkcja, ale nie rozumiem pojęcia ukrytych funkcji. Czy możesz to wyjaśnić? A przynajmniej wskaż mi artykuł / miejsce, w którym mogę …
Powszechną techniką po przeszkoleniu, sprawdzeniu poprawności i przetestowaniu preferowanego modelu uczenia maszynowego jest użycie pełnego zestawu danych, w tym podzestawu testowego, do wyszkolenia ostatecznego modelu w celu wdrożenia go, np. Produktu. Moje pytanie brzmi: czy zawsze tak jest najlepiej? Co jeśli wydajność faktycznie się pogorszy? Załóżmy na przykład, że model …
Jaka jest różnica między spadkiem gradientu a spadkiem gradientu stochastycznego? Nie znam ich zbyt dobrze, czy możesz opisać różnicę krótkim przykładem?
O ile widziałem, opinie na ten temat różnią się. Najlepsza praktyka z pewnością podyktowałaby zastosowanie weryfikacji krzyżowej (szczególnie przy porównywaniu RF z innymi algorytmami w tym samym zbiorze danych). Z drugiej strony oryginalne źródło stwierdza, że błąd OOB obliczany podczas szkolenia modelu jest wystarczającym wskaźnikiem wydajności zestawu testowego. Nawet Trevor …
Zamknięte . To pytanie jest oparte na opiniach . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby można było na nie odpowiedzieć faktami i cytatami, edytując ten post . Zamknięte 5 lat temu . Nie wiem, czy to właściwe miejsce, aby zadać to pytanie, ale moim zdaniem …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.