Statystyki i duże zbiory danych large-data

1

Jak obliczyć miarę dokładności na podstawie RMSE? Czy mój duży zestaw danych jest zwykle dystrybuowany?

Mam kilka zestawów danych rzędu tysięcy punktów. Wartości w każdym zestawie danych to X, Y, Z odnoszące się do współrzędnej w przestrzeni. Wartość Z reprezentuje różnicę wysokości w parze współrzędnych (x, y). Zazwyczaj w moim polu GIS błąd wysokości jest odniesiony w RMSE poprzez odjęcie punktu prawdziwości podłoża do punktu …

9 normal-distribution large-data

3

Jak szybko wybrać ważne zmienne z bardzo dużego zestawu danych?

Mam zestaw danych z około 2000 zmiennymi binarnymi / 200 000 wierszy i próbuję przewidzieć pojedynczą zmienną zależną binarnie. Moim głównym celem na tym etapie nie jest uzyskanie dokładności prognoz, ale raczej określenie, które z tych zmiennych są ważnymi predyktorami. Chciałbym zmniejszyć liczbę zmiennych w moim ostatecznym modelu do około …

9 machine-learning data-mining large-data

3

Klastry zajmujące mało miejsca

Większość algorytmów grupowania, jakie widziałem, zaczyna się od tworzenia odległości między poszczególnymi punktami, co staje się problematyczne w przypadku większych zestawów danych. Czy jest taki, który tego nie robi? Czy może jest to podejście częściowe / przybliżone / naprzemienne? Który algorytm / implementacja klastrowania zajmuje mniej niż O (n ^ …

9 clustering algorithms large-data

1

Czy mogę podpróbkować duży zestaw danych przy każdej iteracji MCMC?

Problem: Chcę wykonać próbkowanie Gibbsa, aby wywnioskować trochę z tyłu na podstawie dużego zestawu danych. Niestety mój model nie jest bardzo prosty, dlatego próbkowanie jest zbyt wolne. Rozważałbym podejścia wariacyjne lub równoległe, ale zanim przejdę tak daleko ... Pytanie: Chciałbym wiedzieć, czy mógłbym losowo próbować (z zastępstwem) z mojego zbioru …

8 sampling bootstrap mcmc large-data gibbs

Pytania otagowane jako large-data