Studiuję skalowanie danych, aw szczególności metodę standaryzacji. Zrozumiałem matematykę, która się za tym kryje, ale nie jest dla mnie jasne, dlaczego ważne jest, aby nadać funkcjom zerową średnią i wariancję jednostkową. Możesz mi wytłumaczyć ?
Zrozumiałem, że analiza głównego elementu jest techniką zmniejszania wymiarów, tzn. Biorąc pod uwagę 10 elementów wejściowych, wytworzy mniejszą liczbę niezależnych elementów, które są ortogonalną i liniową transformacją elementów oryginalnych. Jest PCAsamo w sobie uważane za pomocą algorytmu uczenia się czy jest to krok dane wstępne przetwarzanie.
Mam zestawy danych, które zawierają, wśród wielu funkcji, współrzędne GPS (szerokość i długość geograficzna). Chciałbym użyć tych zestawów danych do zbadania problemów, takich jak: (1) obliczanie ETA w celu przejazdu między punktami początkowymi i końcowymi; oraz (2) oszacowanie liczby przestępstw dla określonego punktu. Chciałbym użyć modelu regresji liniowej. Czy mogę …
Czy jest możliwe zaimplementowanie wielu softmaxów w ostatniej warstwie w Keras? Tak więc suma węzłów 1-4 = 1; 5-8 = 1; itp. Czy powinienem wybrać inny projekt sieci?
Mam zestaw danych z 330 próbkami i 27 funkcjami dla każdej próbki, z problemem klasy binarnej dla regresji logistycznej. Zgodnie z „regułą, jeśli dziesięć” potrzebuję co najmniej 10 zdarzeń, aby każda funkcja mogła zostać uwzględniona. Chociaż mam niezrównoważony zestaw danych, z 20% klasy dodatniej i 80% klasy ujemnej. To daje …
Jestem początkującym w sieciach neuronowych i obecnie badam model word2vec. Trudno mi jednak zrozumieć, czym dokładnie jest matryca funkcji. Rozumiem, że pierwsza matryca to jeden gorący wektor kodowania dla danego słowa, ale co oznacza druga matryca? Mówiąc dokładniej, co oznacza każda z tych wartości (tj. 17, 24, 1 itd.)?
Pracuję nad aplikacją, która pomoże ludziom uczyć się angielskiego jako drugiego języka. Zweryfikowałem, że zdania pomagają w nauce języka, zapewniając dodatkowy kontekst. Zrobiłem to, przeprowadzając małe badanie w klasie 60 uczniów. Wydobrałem z Wikipedii ponad sto tysięcy zdań na różne angielskie słowa (w tym 800 słów Barronsa i 1000 najczęstszych …
Mam zestaw danych obejmujący zestaw klientów w różnych miastach Kalifornii, czas dzwonienia dla każdego klienta oraz status połączenia (Prawda, jeśli klient odbierze połączenie i False, jeśli klient nie odbierze). Muszę znaleźć odpowiedni czas na dzwonienie do przyszłych klientów, aby prawdopodobieństwo odebrania połączenia było wysokie. Jaka jest najlepsza strategia dla tego …
Biorąc pod uwagę trudne zadanie uczenia się (np. Wysoką wymiarowość, naturalną złożoność danych), głębokie sieci neuronowe stają się trudne do wyszkolenia. Aby złagodzić wiele problemów, można: Normalizuj dane && handpick jakości wybierz inny algorytm treningowy (np. RMSprop zamiast Gradient Descent) wybierz bardziej stromy gradient funkcji kosztu (np. Cross Entropy zamiast …
Bardzo często w polecającym mamy dane użytkownika, które mają etykietę np. „Kliknięcie”. Aby poznać model, potrzebuję danych dotyczących kliknięć i braku kliknięć. Najprostszym podejściem do generowania jest pobranie par produktów użytkownika, których nie ma w danych kliknięć. Może to jednak wprowadzać w błąd. Przykład: user1, product1 (click) user2, product2 (click) …
Powiedzmy, że przewidujemy sprzedaż sklepu, a moje dane szkoleniowe mają dwa zestawy funkcji: Jedna dotyczy sprzedaży w sklepie z datami (pole „Sklep” nie jest unikalne) Jedna dotyczy typów sklepów (pole „Sklep” jest tutaj unikalne) Zatem macierz wyglądałaby mniej więcej tak: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | …
Rozumiem, w jaki sposób ukryty model Markowa jest wykorzystywany w sekwencjach genomowych, takich jak znalezienie genu. Ale nie rozumiem, jak wymyślić konkretny model Markowa. Mam na myśli, ile stanów powinien mieć ten model? Ile możliwych przejść? Czy model powinien mieć pętlę? Skąd mieliby wiedzieć, że ich model jest optymalny? Czy …
Od jakiegoś czasu staram się zrozumieć uczenie się o wzmocnieniu, ale jakoś nie jestem w stanie wyobrazić sobie, jak napisać program do nauki o wzmocnieniu, aby rozwiązać problem związany ze światem sieci. Czy możesz zasugerować mi kilka podręczników, które pomogłyby mi zbudować jasną koncepcję uczenia się przez wzmocnienie?
Próbuję trenować sztuczną sieć neuronową z dwiema warstwami splotowymi (c1, c2) i dwiema warstwami ukrytymi (c1, c2). Używam standardowego podejścia do propagacji wstecznej. W przejściu wstecznym obliczam wartość błędu warstwy (delta) na podstawie błędu poprzedniej warstwy, wag poprzedniej warstwy i gradientu aktywacji w odniesieniu do funkcji aktywacji bieżącej warstwy. Mówiąc …
Usiłuję zbudować skrót cosinus wrażliwy na lokalizację, aby znaleźć potencjalne pary podobnych przedmiotów bez konieczności porównywania każdej możliwej pary. Mam to w zasadzie działające, ale większość par w moich danych wydaje się mieć podobieństwo cosinus w zakresie od -0,2 do +0,2, więc staram się pokroić w kostkę dość dokładnie i …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.