Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Jestem R programistą języka. Należę również do grupy osób, które są uważane za naukowców danych, ale wywodzą się z dyscyplin naukowych innych niż CS. Działa to dobrze w mojej roli naukowca danych, jednak rozpoczynając karierę Ri mając podstawową znajomość innych języków skryptowych / internetowych, czułem się nieco nieodpowiedni w dwóch …
Próbuję zrozumieć kluczowe różnice między GBM a XGBOOST. Próbowałem google go, ale nie znalazłem dobrych odpowiedzi wyjaśniających różnice między dwoma algorytmami i dlaczego xgboost prawie zawsze działa lepiej niż GBM. Co sprawia, że XGBOOST jest tak szybki?
Niedawno na zajęciach uczenia maszynowego u profesora Oriola Pujola z UPC / Barcelona opisał najczęstsze algorytmy, zasady i koncepcje do wykorzystania w szerokim zakresie zadań związanych z uczeniem maszynowym. Tutaj dzielę się nimi z tobą i pytam: czy istnieją jakieś kompleksowe ramy dopasowujące zadania z podejściami lub metodami związanymi z …
Mam zamiar wytrenować dużą sieć LSTM z 2-3 milionami artykułów i walczę z błędami pamięci (używam AWS EC2 g2x2large). Dowiedziałem się, że jednym z rozwiązań jest zmniejszenie batch_size. Nie jestem jednak pewien, czy ten parametr dotyczy tylko problemów z wydajnością pamięci lub czy wpłynie to na moje wyniki. W rzeczywistości …
Początkujący naukowiec danych. Nic nie wiem o Hadoop, ale kiedy czytałem o Data Science i Big Data, dużo mówię o Hadoop. Czy absolutnie konieczne jest nauczenie się Hadoop bycia naukowcem danych?
Mam problem ze zrozumieniem różnicy między ekwiwariantem a tłumaczeniem i niezmiennikiem dla tłumaczenia . W książce Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville i Y. Bengio), można znaleźć w sieciach splotowych: [...] szczególna forma udostępniania parametrów powoduje, że warstwa ma właściwość o nazwie równoważności translacji [...] łączenie …
Uważałbym się za naukowca danych czeladnika. Jak większość (tak myślę), robiłem pierwsze wykresy i pierwsze agregacje w liceum i na studiach, używając Excela. Przechodząc przez studia, studia i ~ 7 lat doświadczenia zawodowego, szybko wybrałem narzędzia, które uważam za bardziej zaawansowane, takie jak SQL, R, Python, Hadoop, LaTeX itp. Przeprowadzamy …
Uruchomiłem model xgboost. Nie wiem dokładnie, jak interpretować wynik xgb.importance. Jakie jest znaczenie wzmocnienia, ochrony i częstotliwości i jak je interpretujemy? Co również oznaczają Split, RealCover i RealCover%? Mam tutaj dodatkowe parametry Czy są jakieś inne parametry, które mogą powiedzieć mi więcej o importach funkcji? Z dokumentacji R wynika, że …
Pracuję nad problemem ze zbyt wieloma funkcjami, a szkolenie moich modeli trwa zdecydowanie za długo. Zaimplementowałem algorytm wybierania do przodu, aby wybrać funkcje. Zastanawiałem się jednak, czy scikit-learn ma algorytm selekcji do przodu / regresji krokowej?
Mam ramkę danych pand z kilkoma wpisami i chcę obliczyć korelację między dochodami niektórych rodzajów sklepów. Istnieje wiele sklepów z danymi o dochodach, klasyfikacją obszaru działalności (teatr, sklepy odzieżowe, żywność ...) i innymi danymi. Próbowałem utworzyć nową ramkę danych i wstawić kolumnę z przychodami ze wszystkich rodzajów sklepów należących do …
Zwyczajowo użytkownicy różnych społeczności cytują zabawne rzeczy na temat swoich dziedzin. Dzielenie się zabawnymi informacjami o uczeniu maszynowym, głębokim uczeniu się, nauce danych i rzeczach, z którymi codziennie się zmagasz, może być zabawne!
Widziałem teraz dwa programy certyfikacji danych naukowych - John Hopkins dostępny w Coursera i Cloudera . Jestem pewien, że są tam inni. Zestaw klas Johna Hopkinsa koncentruje się na R jako zestawie narzędzi, ale obejmuje szereg tematów: Programowanie R. czyszczenie i uzyskiwanie danych Analiza danych Powtarzalne badania Wnioskowanie statystyczne Modele …
Czytałem gdzieś, że jeśli mamy funkcje, które są zbyt skorelowane, musimy je usunąć, ponieważ może to pogorszyć model. Oczywiste jest, że skorelowane funkcje oznaczają, że przynoszą te same informacje, więc logiczne jest usunięcie jednej z nich. Ale nie rozumiem, dlaczego może to pogorszyć model.
Załóżmy, że zbuduję NN do klasyfikacji. Ostatnia warstwa to gęsta warstwa z aktywacją softmax. Mam pięć różnych klas do sklasyfikowania. Załóżmy, że dla jednego przykładu szkolenia,true label są [1 0 0 0 0]przewidywania [0.1 0.5 0.1 0.1 0.2]. Jak obliczyć utratę entropii krzyżowej dla tego przykładu?
Ja nadal mylić o różnicę między Densei TimeDistributedDensena Keraschociaż istnieją już pewne podobne pytania zadawane tutaj i tutaj . Ludzie dużo dyskutują, ale nie uzgodniono wspólnie wniosków. I chociaż tutaj @fchollet stwierdził, że: TimeDistributedDensestosuje tę samą Dense(w pełni połączoną) operację do każdego pomiaru czasu tensora 3D. Nadal potrzebuję szczegółowej ilustracji, …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.