Algorytmy uczenia maszynowego budują model danych szkoleniowych. Termin „uczenie maszynowe” jest niejasno zdefiniowany; obejmuje to tak zwane uczenie statystyczne, uczenie wzmacniające, uczenie bez nadzoru itp. ZAWSZE DODAJ SZCZEGÓŁOWĄ TAGĘ.
Al Rahimi wygłosił ostatnio bardzo prowokujący wykład w NIPS 2017, porównując obecne uczenie maszynowe z alchemią. Jednym z jego twierdzeń jest to, że musimy wrócić do rozwoju teoretycznego, aby mieć proste twierdzenia potwierdzające fundamentalne wyniki. Kiedy to powiedział, zacząłem szukać głównych twierdzeń dotyczących ML, ale nie mogłem znaleźć dobrego odniesienia, …
Czy podczas korzystania z maszyny wektorów pomocniczych istnieją jakieś wytyczne dotyczące wyboru jądra liniowego vs. jądra nieliniowego, takiego jak RBF? Kiedyś słyszałem, że nieliniowe jądro nie działa dobrze, gdy liczba funkcji jest duża. Czy są jakieś odniesienia w tej sprawie?
To pytanie ropieło mi w głowie od ponad miesiąca. Numer Amstat News z lutego 2015 r. Zawiera artykuł autorstwa profesora Berkeleya Marka van der Laana, który zbeształ ludzi za używanie niedokładnych modeli. Twierdzi, że przy użyciu modeli statystyka jest więc sztuką, a nie nauką. Według niego, zawsze można użyć „dokładnego …
Próbuję zrozumieć część splotową sieci neuronowych splotowych. Patrząc na następujący rysunek: Nie mam problemów ze zrozumieniem pierwszej warstwy splotu, w której mamy 4 różne jądra (o wielkości ), które splatamy z obrazem wejściowym, aby uzyskać 4 mapy cech.k × kk×kk \times k To, czego nie rozumiem, to kolejna warstwa splotu, …
W tradycyjnej statystyce, budując model, sprawdzamy wielokoliniowość za pomocą metod takich jak szacunki współczynnika inflacji wariancji (VIF), ale w uczeniu maszynowym zamiast tego używamy regularyzacji do wyboru funkcji i nie wydaje się, aby sprawdzać, czy cechy są skorelowane w ogóle. Dlaczego to robimy?
Mam 64-znakowy skrót SHA256. Mam nadzieję wytrenować model, który może przewidzieć, czy tekst jawny użyty do wygenerowania skrótu zaczyna się od 1, czy nie. Niezależnie od tego, czy jest to „możliwe”, jaki algorytm byłby najlepszy? Moje początkowe przemyślenia: Wygeneruj dużą próbkę skrótów rozpoczynających się od 1 i dużą próbkę skrótów, …
Uczę się o uczeniu się przez wzmocnienie i staram się zrozumieć koncepcję nagrody dyskontowej. Zatem nagroda jest konieczna, aby powiedzieć systemowi, które pary stan-działanie są dobre, a które złe. Ale nie rozumiem, dlaczego zniżka jest konieczna. Dlaczego miałoby mieć znaczenie, czy dobry stan zostanie osiągnięty wkrótce, czy później? Rozumiem, że …
Czy ktoś może wyjaśnić, co robią jednostki maxout w sieci neuronowej? Jak działają i czym różnią się od konwencjonalnych jednostek? Próbowałem przeczytać artykuł „Maxout Network” z 2013 r. Goodfellow i in. (z grupy profesora Yoshua Bengio), ale nie do końca to rozumiem.
Rozumiem różnicę między uczeniem maszynowym / innymi statystycznymi technikami predykcyjnymi a rodzajem statystyk, które stosują naukowcy społeczni (np. Ekonomiści), że ekonomiści wydają się bardzo zainteresowani zrozumieniem efektu jednej lub kilku zmiennych - zarówno pod względem wielkość i wykrywanie, czy związek jest przyczynowy. W tym celu zajmujesz się metodami eksperymentalnymi i …
Załóżmy, że chcę nauczyć się klasyfikatora, który przewiduje, czy wiadomość e-mail jest spamem. Załóżmy, że tylko 1% wiadomości e-mail to spam. Najłatwiej jest nauczyć się trywialnego klasyfikatora, który mówi, że żaden z e-maili nie jest spamem. Ten klasyfikator dałby nam 99% dokładności, ale nie nauczyłby się niczego ciekawego i miałby …
Czy Pandy, Statsmodels i Scikit-learning uczą się różnych wdrożeń uczenia maszynowego / operacji statystycznych, czy też wzajemnie się uzupełniają? Który z nich ma najbardziej kompleksową funkcjonalność? Który jest aktywnie rozwijany i / lub wspierany? Muszę wdrożyć regresję logistyczną. Wszelkie sugestie, które z nich powinienem zastosować?
Korzystam z klasyfikowania w Weka dla określonego zestawu danych i zauważyłem, że jeśli próbuję przewidzieć wartość nominalną, dane wyjściowe wyraźnie pokazują prawidłowe i niepoprawne wartości. Jednak teraz uruchamiam go dla atrybutu liczbowego, a wynikiem jest: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error …
Obecnie przechodzę przez Losowe wyszukiwanie Bengio i Bergsta w celu optymalizacji hiperparametrów [1], w którym autorzy twierdzą, że losowe wyszukiwanie jest bardziej wydajne niż wyszukiwanie siatkowe w osiąganiu w przybliżeniu jednakowej wydajności. Moje pytanie brzmi: czy ludzie tutaj zgadzają się z tym twierdzeniem? W swojej pracy korzystałem z wyszukiwania siatki …
W szczególności zastanawiam się nad tym stwierdzeniem: Przyszłe główne wersje TensorFlow domyślnie umożliwią przepływ gradientów do danych wejściowych na etykietach. Który jest wyświetlany, gdy używam tf.nn.softmax_cross_entropy_with_logits. W tym samym komunikacie zachęca mnie do przyjrzenia się tf.nn.softmax_cross_entropy_with_logits_v2. Przejrzałem dokumentację, ale stwierdza tylko, że dla tf.nn.softmax_cross_entropy_with_logits_v2: Propagacja wstąpi na logi i etykiety. …
Czytam niektóre definicje przywołania i precyzji, choć zawsze za każdym razem w kontekście wyszukiwania informacji. Zastanawiałem się, czy ktoś mógłby wyjaśnić to nieco bardziej w kontekście klasyfikacji i może zilustrować kilka przykładów. Powiedzmy na przykład, że mam binarny klasyfikator, który daje mi precyzję 60% i przywołanie 95%, czy to dobry …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.