Algorytmy uczenia maszynowego budują model danych szkoleniowych. Termin „uczenie maszynowe” jest niejasno zdefiniowany; obejmuje to tak zwane uczenie statystyczne, uczenie wzmacniające, uczenie bez nadzoru itp. ZAWSZE DODAJ SZCZEGÓŁOWĄ TAGĘ.
Znalazłem rektyfikowaną jednostkę liniową (ReLU) chwaloną w kilku miejscach jako rozwiązanie problemu znikającego gradientu sieci neuronowych. Oznacza to, że jako funkcję aktywacji używa się max (0, x). Gdy aktywacja jest dodatnia, oczywiste jest, że jest ona lepsza niż, powiedzmy, funkcja aktywacji sigmoidalnej, ponieważ jej pochodna wynosi zawsze 1 zamiast arbitralnie …
Bawiłem się losowymi lasami w celu regresji i mam trudności z ustaleniem, co dokładnie oznaczają dwie miary ważności i jak należy je interpretować. importance()Funkcja daje dwie wartości dla każdej zmiennej: %IncMSEa IncNodePurity. Czy istnieją proste interpretacje tych 2 wartości? W IncNodePurityszczególności, czy jest to po prostu kwota wzrostu RSS po …
Próbuję przewidzieć wynik złożonego układu wykorzystującego sieci neuronowe (ANN). Wartości wyników (zależne) wynoszą od 0 do 10 000. Różne zmienne wejściowe mają różne zakresy. Wszystkie zmienne mają z grubsza normalne rozkłady. Rozważam różne opcje skalowania danych przed treningiem. Jedną z opcji jest skalowanie wejściowych (niezależnych) i wyjściowych (zależnych) zmiennych do …
Próbuję zrozumieć, jakie jest podobieństwo między Latent Dirichlet Allocation i word2vec do obliczania podobieństwa słów. Jak rozumiem, LDA odwzorowuje słowa na wektor prawdopodobieństwa ukrytych tematów, podczas gdy word2vec odwzorowuje je na wektor liczb rzeczywistych (związanych z rozkładem pojedynczej wartości punktowej wzajemnej informacji, patrz O. Levy, Y. Goldberg, „Neural Word Embedding” …
Otrzymuję 100% dokładność dla mojego drzewa decyzyjnego. Co ja robię źle? To jest mój kod: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = …
Zrozumiałem, że losowy las i skrajnie losowe drzewa różnią się tym, że podziały drzew w losowym lesie są deterministyczne, podczas gdy są losowe w przypadku ekstremalnie losowych drzew (dokładniej, następny podział jest najlepszym podziałem wśród losowych jednolitych podziałów w wybranych zmiennych dla bieżącego drzewa). Ale nie do końca rozumiem wpływ …
Szukam artykułu, który mógłby pomóc w wytyczeniu sposobu wyboru hiperparametrów głębokiej architektury, takich jak piętrowe auto-kodery lub sieci głęboko wierzące. Istnieje wiele hiperparametrów i jestem bardzo zdezorientowany, jak je wybrać. Również stosowanie weryfikacji krzyżowej nie jest opcją, ponieważ szkolenie naprawdę zajmuje dużo czasu!
Jaka jest różnica między nauką offline i online ? Czy to tylko kwestia uczenia się w całym zestawie danych (offline) czy uczenia się przyrostowo (jedna instancja na raz)? Jakie są przykłady algorytmów używanych w obu?
Nie mam tła z zakresu widzenia komputerowego, ale kiedy czytam artykuły i artykuły dotyczące przetwarzania obrazów i splotowych sieci neuronowych, ciągle spotykam się z tym terminem translation invariance, lub translation invariant. Czy czytam dużo, że zapewnia to konwolucja translation invariance? !! co to znaczy? Sam zawsze tłumaczyłem to sobie, jakby …
O ile wiem, przyjmując Stochastic Gradient Descent jako algorytm uczenia się, ktoś używa „epoki” dla pełnego zestawu danych i „partii” dla danych wykorzystywanych w jednym kroku aktualizacji, podczas gdy inny używa odpowiednio „partii” i „minibatchu”, oraz inni używają „epoki” i „minibatchu”. To powoduje wiele zamieszania podczas dyskusji. Jakie jest prawidłowe …
TL, DR: Wydaje się, że wbrew często powtarzanym zaleceniom, krzyżowa walidacja typu „jeden do jednego” (LOO-CV) - to znaczy,krotnie CV z(liczbą fałdów) równą(liczba obserwacji treningowych) - daje oszacowania błędu uogólnienia, które są najmniej zmienne dla dowolnego, a nie najbardziej zmienne, przy założeniu pewnegowarunku stabilności w modelu / algorytmie, zestawie danych …
Pracuję nad zbiorem danych z ponad 200 000 próbek i około 50 cechami na próbkę: 10 zmiennych ciągłych, a pozostałe ~ 40 to zmienne jakościowe (kraje, języki, dziedziny nauki itp.). Dla tych zmiennych kategorialnych masz na przykład 150 różnych krajów, 50 języków, 50 dziedzin naukowych itp. Jak dotąd moje podejście …
Zaczynam chcieć rozwijać własny zestaw umiejętności i zawsze fascynowało mnie uczenie maszynowe. Jednak sześć lat temu zamiast tego dążyć, postanowiłem podjąć całkowicie niezwiązany stopień z informatyką. Zajmuję się tworzeniem oprogramowania i aplikacji od około 8-10 lat, więc dobrze sobie z tym radzę, ale po prostu nie mogę przeniknąć matematyki do …
W tym semestrze mam kurs uczenia maszynowego, a profesor poprosił nas o znalezienie problemu w świecie rzeczywistym i rozwiązanie go jedną z metod uczenia maszynowego przedstawionych na zajęciach, takich jak: Drzewa decyzyjne Sztuczne sieci neuronowe Obsługa maszyn wektorowych Nauczanie oparte na instancjach ( kNN , LWL ) Bayesian Networks Uczenie …
Na stronie 223 we wstępie do nauki statystycznej autorzy podsumowują różnice między regresją grzbietu a lasso. Podają przykład (ryc. 6.9), kiedy „lasso ma tendencję do przewyższania regresji grzbietu pod względem stronniczości, wariancji i MSE”. Rozumiem, dlaczego lasso może być pożądane: skutkuje rzadkimi rozwiązaniami, ponieważ zmniejsza wiele współczynników do 0, co …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.