Pytania otagowane jako large-data

„Duże dane” oznaczają sytuacje, w których liczba obserwacji (punktów danych) jest tak duża, że ​​wymaga zmian w sposobie myślenia analityka danych lub przeprowadzania analizy. (Nie mylić z „wysoką wymiarowością”).

12
Jak przekształcić dane nieujemne, w tym zera?
Jeśli mam bardzo wypaczone pozytywne dane, często biorę dzienniki. Ale co mam zrobić z mocno wypaczonymi nieujemnymi danymi, które zawierają zera? Widziałem dwie zastosowane transformacje: log( x + 1 )log⁡(x+1)\log(x+1) który ma ciekawą funkcję, która 0 odwzorowuje na 0. log( x + c )log⁡(x+c)\log(x+c) gdzie c jest albo oszacowane, albo …



7
Wyzwania dla przemysłu i Kaggle. Czy zbieranie większej liczby obserwacji i dostęp do większej liczby zmiennych jest ważniejsze niż fantazyjne modelowanie?
Mam nadzieję, że tytuł jest oczywisty. W Kaggle większość zwycięzców używa układania w stosy z czasami setkami modeli podstawowych, aby wycisnąć kilka dodatkowych% MSE, dokładność ... Ogólnie rzecz biorąc, z twojego doświadczenia wynika, jak ważne jest wymyślne modelowanie, takie jak układanie w stosy, po prostu gromadzenie większej ilości danych i …


10
Jaki jest dobry algorytm do oszacowania mediany ogromnego zestawu danych do odczytu?
Szukam dobrego algorytmu (co oznacza minimalne obliczenia, minimalne wymagania dotyczące miejsca do przechowywania), aby oszacować medianę zestawu danych, który jest zbyt duży, aby go zapisać, tak aby każdą wartość można było odczytać tylko raz (chyba że jawnie zapiszesz tę wartość). Dane nie mają granic, które można założyć. Przybliżenia są w …

10
Czym dokładnie jest Big Data?
Kilkakrotnie zadawano mi pytanie: Co to jest Big-Data? Zarówno przez studentów, jak i moich krewnych, którzy podnoszą szum wokół statystyk i ML. Znalazłem ten CV . I czuję, że zgadzam się z jedyną tam odpowiedzią. Strona Wikipedii również ma na ten temat kilka uwag, ale nie jestem pewien, czy naprawdę …
44 large-data 



5
Darmowy zestaw danych do bardzo wysokiej klasyfikacji wymiarowej [zamknięty]
Jaki jest swobodnie dostępny zestaw danych do klasyfikacji z ponad 1000 cech (lub punktów próbkowania, jeśli zawiera krzywe)? Istnieje już wiki społeczności o wolnych zestawach danych: Lokalizowanie swobodnie dostępnych próbek danych Ale tutaj byłoby miło mieć bardziej szczegółową listę, z której można wygodniej korzystać , proponuję również następujące zasady: Jeden …

3
Regresja wielomianowa za pomocą scikit-learn
Próbuję użyć scikit-learn do regresji wielomianowej. Z tego, co czytam, regresja wielomianowa jest szczególnym przypadkiem regresji liniowej. Miałem nadzieję, że może jeden z uogólnionych modeli liniowych scikit może zostać sparametryzowany, aby pasował do wielomianów wyższego rzędu, ale nie widzę takiej możliwości. Udało mi się użyć Support Vector Regressor z wielordzeniowym …

9
Oprogramowanie do analizy statystyk i eksploracji danych do obsługi dużych zestawów danych
Obecnie muszę przeanalizować około 20 milionów rekordów i zbudować modele predykcyjne. Do tej pory wypróbowałem Statistica, SPSS, RapidMiner i R. Wśród nich Statistica wydaje się najbardziej odpowiedni do eksploracji danych, a interfejs użytkownika RapidMiner jest również bardzo przydatny, ale wydaje się, że Statistica, RapidMiner i SPSS są odpowiednie tylko dla …

1
Najnowocześniejsze uczenie się przez streaming
Ostatnio pracuję z dużymi zestawami danych i znalazłem wiele artykułów na temat metod przesyłania strumieniowego. By wymienić tylko kilka: Follow-the-Regularized-Leader and Mirror Descent: The Equivalence Theorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Streaming Learning: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos: Primal Estimated sub-GrAdient SOlver for SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf lub tutaj: czy …


3
Pierwszy krok dla dużych zbiorów danych (
Załóżmy, że analizujesz ogromny zestaw danych w wysokości miliardów obserwacji dziennie, gdzie każda obserwacja ma kilka tysięcy rzadkich i prawdopodobnie zbędnych zmiennych liczbowych i kategorialnych. Powiedzmy, że istnieje jeden problem regresji, jeden niezrównoważony problem klasyfikacji binarnej i jedno zadanie „dowiedzieć się, które predyktory są najważniejsze”. Myślałem o tym, jak podejść …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.