„Duże dane” oznaczają sytuacje, w których liczba obserwacji (punktów danych) jest tak duża, że wymaga zmian w sposobie myślenia analityka danych lub przeprowadzania analizy. (Nie mylić z „wysoką wymiarowością”).
Mam kilka zestawów danych rzędu tysięcy punktów. Wartości w każdym zestawie danych to X, Y, Z odnoszące się do współrzędnej w przestrzeni. Wartość Z reprezentuje różnicę wysokości w parze współrzędnych (x, y). Zazwyczaj w moim polu GIS błąd wysokości jest odniesiony w RMSE poprzez odjęcie punktu prawdziwości podłoża do punktu …
Mam zestaw danych z około 2000 zmiennymi binarnymi / 200 000 wierszy i próbuję przewidzieć pojedynczą zmienną zależną binarnie. Moim głównym celem na tym etapie nie jest uzyskanie dokładności prognoz, ale raczej określenie, które z tych zmiennych są ważnymi predyktorami. Chciałbym zmniejszyć liczbę zmiennych w moim ostatecznym modelu do około …
Większość algorytmów grupowania, jakie widziałem, zaczyna się od tworzenia odległości między poszczególnymi punktami, co staje się problematyczne w przypadku większych zestawów danych. Czy jest taki, który tego nie robi? Czy może jest to podejście częściowe / przybliżone / naprzemienne? Który algorytm / implementacja klastrowania zajmuje mniej niż O (n ^ …
Problem: Chcę wykonać próbkowanie Gibbsa, aby wywnioskować trochę z tyłu na podstawie dużego zestawu danych. Niestety mój model nie jest bardzo prosty, dlatego próbkowanie jest zbyt wolne. Rozważałbym podejścia wariacyjne lub równoległe, ale zanim przejdę tak daleko ... Pytanie: Chciałbym wiedzieć, czy mógłbym losowo próbować (z zastępstwem) z mojego zbioru …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.