Statystyki i duże zbiory danych machine-learning

2

Czy potrzebujemy spadku gradientu, aby znaleźć współczynniki modelu regresji liniowej?

Próbowałem nauczyć się uczenia maszynowego przy użyciu materiału Coursera . W tym wykładzie Andrew Ng wykorzystuje algorytm spadku gradientu do znalezienia współczynników modelu regresji liniowej, które zminimalizują funkcję błędu (funkcję kosztu). Czy do regresji liniowej potrzebujemy spadku gradientu? Wydaje się, że potrafię analitycznie rozróżnić funkcję błędu i ustawić ją na …

31 regression machine-learning linear-model gradient-descent

2

Względne znaczenie zestawu predyktorów w losowej klasyfikacji lasów w R.

Chciałbym określić względną ważność zbiorów zmiennych w stosunku do randomForestmodelu klasyfikacji w R. importanceFunkcja zapewnia MeanDecreaseGinimetrykę dla każdego predyktora - czy jest to tak proste, jak sumowanie tego dla każdego predyktora w zestawie? Na przykład: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ …

31 r machine-learning classification random-forest

2

format danych libsvm [zamknięte]

Korzystam z narzędzia libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) do klasyfikacji wektora wsparcia. Jestem jednak zdezorientowany co do formatu danych wejściowych. Z README: Format pliku danych szkoleniowych i testowych to: <label> <index1>:<value1> <index2>:<value2> ... . . . Każda linia zawiera instancję i kończy się znakiem „\ n”. Do klasyfikacji <label>jest liczbą całkowitą …

31 machine-learning svm python libsvm c++

3

Użyteczność inżynierii funkcji: Po co tworzyć nowe funkcje w oparciu o istniejące funkcje?

Często widzę, że ludzie tworzą nowe funkcje w oparciu o istniejące funkcje związane z problemem uczenia maszynowego. Na przykład tutaj: https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/ ludzie uważają, że wielkość rodziny osoby jest nową funkcją na temat liczby braci, sióstr i rodziców, które były cechami istniejącymi. Ale po co to? Nie rozumiem, dlaczego tworzenie nowych …

30 machine-learning feature-engineering

2

Uczenie nadzorowane, uczenie się bez nadzoru i uczenie się wzmacniające: podstawy przepływu pracy

Nadzorowana nauka 1) Ludzka tworzy klasyfikator oparty na wejściowych i wyjściowych danych 2) Ten klasyfikator jest szkolony przy użyciu zestawu danych szkoleniowych 3) Ten klasyfikator jest testowany z testowym zestawem danych 4) Wdrożenie, jeśli wynik jest zadowalający Do użycia, gdy: „Wiem, jak klasyfikować te dane, potrzebuję tylko ciebie (klasyfikatora), aby …

30 machine-learning unsupervised-learning supervised-learning reinforcement-learning

7

Wnioskowanie a szacowanie?

Jakie są różnice między „wnioskowaniem” a „szacowaniem” w kontekście uczenia maszynowego ? Jako początkujących, czuję, że możemy wywnioskować zmiennych losowych i oszacowanie parametrów modelu. Czy moje zrozumienie jest słuszne? Jeśli nie, jakie dokładnie są różnice i kiedy powinienem użyć którego? Który też jest synonimem „uczenia się”?

30 machine-learning inference terminology

2

Konwolucyjne sieci neuronowe: czy neurony centralne nie są nadmiernie reprezentowane na wyjściu?

[To pytanie zadawano również przy przepełnieniu stosu] Pytanie w skrócie Badam splotowe sieci neuronowe i uważam, że sieci te nie traktują każdego neuronu wejściowego (piksela / parametru) w sposób równoważny. Wyobraź sobie, że mamy głęboką sieć (wiele warstw), która stosuje splot na niektórych obrazach wejściowych. Neurony w „środku” obrazu mają …

30 machine-learning neural-networks convolution

8

Jakie przedmioty matematyczne zaproponowałbyś, aby przygotować się do eksploracji danych i uczenia maszynowego?

Staram się stworzyć samokierujący program matematyki, aby przygotować się do uczenia się eksploracji danych i uczenia maszynowego. Jest to motywowane przez rozpoczęcie klasy uczenia maszynowego Andrew Ng na Coursera i odczuwanie, że przed kontynuowaniem muszę poprawić swoje umiejętności matematyczne. Niedawno ukończyłem studia, więc moja algebra i statystyki (szczególnie z nauk …

30 machine-learning references data-mining

4

Techniki uczenia maszynowego do analizowania ciągów?

Mam wiele ciągów adresów: 1600 Pennsylvania Ave, Washington, DC 20500 USA Chcę parsować je na ich komponenty: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Ale oczywiście dane są brudne: pochodzą z wielu krajów w wielu językach, napisane na różne sposoby, zawierają błędy ortograficzne, brakuje fragmentów, …

30 machine-learning text-mining

3

Jak określić jakość klasyfikatora wieloklasowego

Dany zestaw danych z instancjami xixix_i razem z NNN klasami, w których każda instancja xixix_i należy dokładnie do jednej klasyyiyiy_i klasyfikator wieloklasowy Po treningu i testowaniu w zasadzie mam tabelę z prawdziwą klasą i przewidywaną klasą dla każdej instancji w zestawie testowym. Tak więc za każdym razem mam dopasowanie ( …

30 machine-learning classification multi-class

3

Jak dobrze R skaluje się do zadań klasyfikacji tekstu? [Zamknięte]

Próbuję przyspieszyć z R. W końcu chcę używać bibliotek R do klasyfikacji tekstu. Zastanawiałem się tylko, jakie są ludzkie doświadczenia w odniesieniu do skalowalności języka R, jeśli chodzi o klasyfikację tekstu. Prawdopodobnie napotkam dane o dużych wymiarach (~ 300 tys. Wymiarów). Patrzę na wykorzystanie SVM i Random Forest w szczególności …

30 r machine-learning svm text-mining random-forest

4

Optymalizacja pod kątem krzywych Precyzja-Przywołanie przy niewyważeniu klasy

Mam zadanie klasyfikacji, w którym mam wiele predyktorów (z których jeden jest najbardziej pouczający) i używam modelu MARS do budowy mojego klasyfikatora (jestem zainteresowany dowolnym prostym modelem, a używanie glms do celów ilustracyjnych byłoby też dobrze). Teraz mam ogromną nierównowagę klas w danych treningowych (około 2700 próbek ujemnych na każdą …

30 machine-learning roc precision-recall unbalanced-classes data-visualization

6

Jaka jest różnica między regresją logistyczną a perceptronem?

Przeglądam notatki z wykładu Andrew Ng na temat uczenia maszynowego. Notatki wprowadzają nas do regresji logistycznej, a następnie do perceptronu. Opisując Perceptron, notatki mówią, że po prostu zmieniamy definicję funkcji progowej używanej do regresji logistycznej. Po wykonaniu tej czynności możemy użyć modelu Perceptron do klasyfikacji. Moje pytanie brzmi - jeśli …

30 regression machine-learning self-study logistic perceptron

6

Różnica między siecią Bayesa, siecią neuronową, drzewem decyzyjnym i sieciami Petriego

Jaka jest różnica pomiędzy sieci neuronowych , sieci Bayesa , drzewa decyzyjnego i sieci Petriego , chociaż one są wszystkie modele graficzne i wizualnie przedstawiają przyczynowo-skutkowy.

30 machine-learning neural-networks bayesian-network fuzzy

5

Co oznacza głębokość interakcji w GBM?

Miałem pytanie dotyczące parametru głębokości interakcji w gbm w R. To może być pytanie nooba, za które przepraszam, ale w jaki sposób parametr, który moim zdaniem oznacza liczbę węzłów końcowych w drzewie, zasadniczo wskazuje X-way interakcja między predyktorami? Próbuję zrozumieć, jak to działa. Dodatkowo dostaję całkiem różne modele, jeśli mam …

30 r machine-learning boosting gbm

Pytania otagowane jako machine-learning