„Duże dane” oznaczają sytuacje, w których liczba obserwacji (punktów danych) jest tak duża, że wymaga zmian w sposobie myślenia analityka danych lub przeprowadzania analizy. (Nie mylić z „wysoką wymiarowością”).
Jeśli mam bardzo wypaczone pozytywne dane, często biorę dzienniki. Ale co mam zrobić z mocno wypaczonymi nieujemnymi danymi, które zawierają zera? Widziałem dwie zastosowane transformacje: log( x + 1 )log(x+1)\log(x+1) który ma ciekawą funkcję, która 0 odwzorowuje na 0. log( x + c )log(x+c)\log(x+c) gdzie c jest albo oszacowane, albo …
W ostatnim artykule z Amstat Nowiny , autorzy (Mark van der Laan i Sherri ROSE) stwierdził, że: „Wiemy, że dla dostatecznie dużych rozmiarach próbki, co study-włączając te, w których hipoteza zerowa nie efekt jest prawdziwe - będzie zadeklarować statystycznie istotny efekt. ”. Cóż, ja nie wiedziałem o tym. Czy to …
Wiele prac statystycznych wymaga doświadczenia z danymi na dużą skalę. Jakie są umiejętności statystyczne i obliczeniowe, które byłyby potrzebne do pracy z dużymi zestawami danych. Na przykład, co powiesz na budowanie modeli regresji z zestawem danych z 10 milionami próbek?
Mam nadzieję, że tytuł jest oczywisty. W Kaggle większość zwycięzców używa układania w stosy z czasami setkami modeli podstawowych, aby wycisnąć kilka dodatkowych% MSE, dokładność ... Ogólnie rzecz biorąc, z twojego doświadczenia wynika, jak ważne jest wymyślne modelowanie, takie jak układanie w stosy, po prostu gromadzenie większej ilości danych i …
Lub bardziej „czy to będzie”? Big Data sprawia, że statystyki i odpowiednia wiedza stają się tym ważniejsze, ale wydaje się, że nie uwzględniają teorii próbkowania. Widziałem ten szum wokół „Big Data” i nie mogę się dziwić, że „dlaczego” chciałbym wszystko analizować ? Czy nie było powodu, aby „teorię próbkowania” zaprojektować …
Szukam dobrego algorytmu (co oznacza minimalne obliczenia, minimalne wymagania dotyczące miejsca do przechowywania), aby oszacować medianę zestawu danych, który jest zbyt duży, aby go zapisać, tak aby każdą wartość można było odczytać tylko raz (chyba że jawnie zapiszesz tę wartość). Dane nie mają granic, które można założyć. Przybliżenia są w …
Kilkakrotnie zadawano mi pytanie: Co to jest Big-Data? Zarówno przez studentów, jak i moich krewnych, którzy podnoszą szum wokół statystyk i ML. Znalazłem ten CV . I czuję, że zgadzam się z jedyną tam odpowiedzią. Strona Wikipedii również ma na ten temat kilka uwag, ale nie jestem pewien, czy naprawdę …
„Big data” jest wszędzie w mediach. Wszyscy mówią, że „duże zbiory danych” są najważniejsze w 2012 r., Np. Sondaż KDNuggets na gorące tematy w 2012 r . Mam jednak głębokie obawy. W przypadku dużych zbiorów danych wydaje się, że wszyscy są szczęśliwi, gdy tylko coś wyciągną. Ale czy nie naruszamy …
Dzisiaj w Cross Validated Journal Club (dlaczego cię tam nie było?) @Mbq zapytał: Czy uważasz, że my (współcześni naukowcy danych) wiemy, co to znaczy? A jak to się ma do naszego zaufania do naszych wyników? @Michelle odpowiedziała, ponieważ niektórzy (w tym ja) zwykle: Coraz mniej pomocna jest mi koncepcja znaczenia …
Jaki jest swobodnie dostępny zestaw danych do klasyfikacji z ponad 1000 cech (lub punktów próbkowania, jeśli zawiera krzywe)? Istnieje już wiki społeczności o wolnych zestawach danych: Lokalizowanie swobodnie dostępnych próbek danych Ale tutaj byłoby miło mieć bardziej szczegółową listę, z której można wygodniej korzystać , proponuję również następujące zasady: Jeden …
Próbuję użyć scikit-learn do regresji wielomianowej. Z tego, co czytam, regresja wielomianowa jest szczególnym przypadkiem regresji liniowej. Miałem nadzieję, że może jeden z uogólnionych modeli liniowych scikit może zostać sparametryzowany, aby pasował do wielomianów wyższego rzędu, ale nie widzę takiej możliwości. Udało mi się użyć Support Vector Regressor z wielordzeniowym …
Obecnie muszę przeanalizować około 20 milionów rekordów i zbudować modele predykcyjne. Do tej pory wypróbowałem Statistica, SPSS, RapidMiner i R. Wśród nich Statistica wydaje się najbardziej odpowiedni do eksploracji danych, a interfejs użytkownika RapidMiner jest również bardzo przydatny, ale wydaje się, że Statistica, RapidMiner i SPSS są odpowiednie tylko dla …
Ostatnio pracuję z dużymi zestawami danych i znalazłem wiele artykułów na temat metod przesyłania strumieniowego. By wymienić tylko kilka: Follow-the-Regularized-Leader and Mirror Descent: The Equivalence Theorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Streaming Learning: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos: Primal Estimated sub-GrAdient SOlver for SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf lub tutaj: czy …
Mam dwie zmienne: nazwę leku (DN) i odpowiadające im zdarzenia niepożądane (AE), które stoją w relacji wiele do wielu. Istnieje 33.556 nazw leków i 9.516 zdarzeń niepożądanych. Wielkość próby wynosi około 5,8 miliona obserwacji. Chcę przestudiować i zrozumieć związek / relację między DN a AE. Zastanawiam się nad sposobem wizualizacji …
Załóżmy, że analizujesz ogromny zestaw danych w wysokości miliardów obserwacji dziennie, gdzie każda obserwacja ma kilka tysięcy rzadkich i prawdopodobnie zbędnych zmiennych liczbowych i kategorialnych. Powiedzmy, że istnieje jeden problem regresji, jeden niezrównoważony problem klasyfikacji binarnej i jedno zadanie „dowiedzieć się, które predyktory są najważniejsze”. Myślałem o tym, jak podejść …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.