Lub bardziej „czy to będzie”? Big Data sprawia, że statystyki i odpowiednia wiedza stają się tym ważniejsze, ale wydaje się, że nie uwzględniają teorii próbkowania.
Widziałem ten szum wokół „Big Data” i nie mogę się dziwić, że „dlaczego” chciałbym wszystko analizować ? Czy nie było powodu, aby „teorię próbkowania” zaprojektować / wdrożyć / wynaleźć / odkryć? Nie mam sensu analizować całej „populacji” zestawu danych. To, że możesz to zrobić, nie oznacza, że powinieneś (głupota to przywilej, ale nie powinieneś go nadużywać :)
Moje pytanie brzmi więc: czy analiza całego zestawu danych jest statystycznie istotna? Najlepsze, co możesz zrobić, to zminimalizować błąd, jeśli wykonałeś próbkowanie. Ale czy naprawdę warto kosztować minimalizację tego błędu? Czy „wartość informacji” naprawdę jest warta wysiłku, kosztów czasu itp., Które wiążą się z analizą dużych zbiorów danych na masowo równoległych komputerach?
Nawet jeśli przeanalizuje się całą populację, wynik byłby w najlepszym razie domniemaniem z większym prawdopodobieństwem posiadania racji. Prawdopodobnie nieco wyższy niż pobieranie próbek (czy byłoby o wiele więcej?) Czy wgląd uzyskany z analizy populacji w porównaniu z analizą próby różni się znacznie?
A może powinniśmy zaakceptować to jako „czasy się zmieniły”? Próbkowanie jako działanie może stać się mniej ważne, biorąc pod uwagę wystarczającą moc obliczeniową :)
Uwaga: nie próbuję rozpoczynać debaty, ale szukam odpowiedzi, aby zrozumieć, dlaczego duże zbiory danych robią to, co robią (tj. Analizują wszystko) i ignorują teorię próbkowania (czy nie?)