Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Niedawno przeczytałem w pełni sieci konwergentne dla segmentacji semantycznej autorstwa Jonathana Longa, Evana Shelhamera, Trevora Darrella. Nie rozumiem, co robią „warstwy dekonwolucyjne” / jak działają. Odpowiednia część to 3.3 Upsampling jest konwertowanym krokiem wstecz Innym sposobem łączenia gruboziarnistych wyjść z gęstymi pikselami jest interpolacja. Na przykład prosta interpolacja dwuliniowa oblicza …
Jednym z powszechnych problemów w nauce o danych jest zbieranie danych z różnych źródeł w jakoś oczyszczonym (częściowo ustrukturyzowanym) formacie i łączenie wskaźników z różnych źródeł w celu przeprowadzenia analizy wyższego poziomu. Patrząc na wysiłki innych ludzi, szczególnie na inne pytania na tej stronie, wydaje się, że wiele osób w …
Mój zestaw danych zawiera szereg atrybutów liczbowych i jeden kategoryczny. Powiedzieć NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, gdzie CategoricalAttrzajmuje jedną z trzech możliwych wartości: CategoricalAttrValue1, CategoricalAttrValue2lub CategoricalAttrValue3. Używam domyślnej implementacji algorytmu klastrowania k-średnich dla Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Działa tylko z danymi numerycznymi. Więc moje pytanie: czy poprawne jest podzielenie atrybutu kategorycznego …
Używam sieci neuronowych do rozwiązywania różnych problemów związanych z uczeniem maszynowym. Używam Pythona i Pybrain, ale ta biblioteka jest prawie wycofana. Czy istnieją inne dobre alternatywy w Pythonie?
Wiem, że w Keras istnieje możliwość class_weightsdopasowania słownika parametrów, ale nie znalazłem żadnego przykładu. Czy ktoś byłby tak miły, aby go zapewnić? Nawiasem mówiąc, w tym przypadku właściwą praktyką jest po prostu ważenie klasy mniejszości proporcjonalnie do jej niedostatecznej reprezentacji?
Odnosząc się do notatek z kursu Stanford na temat sieci neuronowych splotowych do rozpoznawania wzrokowego , akapit mówi: „Niestety jednostki ReLU mogą być kruche podczas treningu i mogą„ umrzeć ”. Na przykład duży gradient przepływający przez neuron ReLU może spowodować aktualizację wag w taki sposób, że neuron nigdy więcej się …
W MNIST For ML Beginners określają one jako entropię krzyżową Hy′(y):=−∑iy′ilog(yi)Hy′(y):=−∑iyi′log(yi)H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i) jest przewidywana wartość prawdopodobieństwa dla klasy í i y ' i jest prawdziwym prawdopodobieństwo dla tej klasy.yiyiy_iiiiy′iyi′y_i' Pytanie 1 Nie jest to problem, który (w dzienniku ( y í ) ) może …
Jestem początkujących do nauki danych i nie rozumiem różnicę między fiti fit_transformmetody w scikit-learn. Czy ktoś może po prostu wyjaśnić, dlaczego potrzebujemy transformacji danych? Co to znaczy dopasowywanie modelu do danych treningowych i przekształcanie w dane testowe? Czy oznacza to na przykład przekształcenie zmiennych kategorialnych w liczby w pociągu i …
Próbuję ustawienia klasyfikacji wieloklasowej z 3 klasami. Rozkład klas jest wypaczony, a większość danych należy do jednej z 3 klas. (etykiety klas to 1,2,3, przy 67,28% danych należących do klasy 1, 11,99% danych w klasie 2 i pozostałe w klasie 3) Uczę klasyfikatora wieloklasowego w tym zestawie danych i uzyskuję …
Właśnie zaczynam opracowywać aplikację do uczenia maszynowego do celów akademickich. Obecnie używam R i trenuję się w tym. Jednak w wielu miejscach widziałem ludzi używających Pythona . Z czego korzystają ludzie w środowisku akademickim i przemyśle i jakie jest zalecenie?
Od jakiegoś czasu buduję modele z danymi kategorialnymi, a kiedy w tej sytuacji zasadniczo używam funkcji LabelEncoder scikit-learn do transformacji tych danych przed zbudowaniem modelu. Rozumiem różnicę między OHE, LabelEncodera DictVectorizorjeśli chodzi o to, co robią z danymi, ale to, co nie jest dla mnie jasne jest, kiedy można wybrać …
Kluczowa różnica między GRU a LSTM polega na tym, że GRU ma dwie bramki (bramki resetowania i aktualizacji ), podczas gdy LSTM ma trzy bramki (mianowicie bramki wejścia , wyjścia i zapomnienia ). Dlaczego korzystamy z GRU, skoro mamy wyraźniejszą kontrolę nad siecią dzięki modelowi LSTM (ponieważ mamy trzy bramki)? …
Wiele osób używa terminu „ duże zbiory danych” w sposób raczej komercyjny , jako sposób wskazania, że duże zbiory danych są zaangażowane w obliczenia, a zatem potencjalne rozwiązania muszą mieć dobrą wydajność. Oczywiście duże zbiory danych zawsze zawierają powiązane terminy, takie jak skalowalność i wydajność, ale co dokładnie definiuje problem …
Obecnie pracuję nad implementacją Stochastic Gradient Descent, SGDdla sieci neuronowych wykorzystujących propagację wsteczną i choć rozumiem jej cel, mam kilka pytań na temat wyboru wartości szybkości uczenia się. Czy szybkość uczenia się jest związana z kształtem gradientu błędu, ponieważ dyktuje on tempo opadania? Jeśli tak, w jaki sposób wykorzystujesz te …
Podczas pisania pracy / prezentacji na temat sieci neuronowych zwykle wizualizuje się architekturę sieci. Jakie są dobre / proste sposoby automatycznej wizualizacji popularnych architektur?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.