„Big data” jest wszędzie w mediach. Wszyscy mówią, że „duże zbiory danych” są najważniejsze w 2012 r., Np. Sondaż KDNuggets na gorące tematy w 2012 r . Mam jednak głębokie obawy. W przypadku dużych zbiorów danych wydaje się, że wszyscy są szczęśliwi, gdy tylko coś wyciągną. Ale czy nie naruszamy wszystkich klasycznych zasad statystycznych, takich jak testowanie hipotez i reprezentatywne pobieranie próbek?
Dopóki przewidujemy tylko ten sam zestaw danych, powinno to być w porządku. Więc jeśli używam danych z Twittera do przewidywania zachowań użytkowników Twittera, to prawdopodobnie jest w porządku. Jednak wykorzystanie danych z Twittera do przewidywania np. Wyborów całkowicie pomija fakt, że użytkownicy Twittera nie są reprezentatywną próbą dla całej populacji. Ponadto większość metod nie będzie w stanie odróżnić prawdziwego nastroju „oddolnego” od kampanii. A Twitter jest pełen kampanii. Analizując Twittera, szybko mierzysz tylko kampanie i boty. (Zobacz na przykład „Yahoo przewiduje amerykańskich zwycięzców politycznych”która jest pełna odpychania ankiet i „analiza nastrojów jest znacznie lepsza”. Przewidywali, że „Romney ma ponad 90-procentowe prawdopodobieństwo wygrania nominacji i wygranej w Karolinie Południowej” (miał 28%, podczas gdy Gingrich miał 40% w tej podstawowej).
Czy wiesz, że inne takie duże zbiory danych zawodzą ? Z grubsza pamiętam, że jeden naukowiec przewidział, że nie będziesz w stanie utrzymać więcej niż 150 przyjaźni. Dopiero co odkrył limit limitów w Friendster ...
Jeśli chodzi o dane z Twittera, a właściwie wszelkie „duże dane” zebrane z sieci, uważam, że często ludzie wprowadzają dodatkowe uprzedzenia w sposób, w jaki zbierają swoje dane. Niewielu będzie miało cały Twitter. Będą mieli pewien podzbiór, który przeliczyli, a to tylko kolejny błąd w ich zestawie danych.
Podział danych na zestaw testowy lub przeprowadzenie weryfikacji krzyżowej prawdopodobnie nie pomaga. Drugi zestaw będzie miał takie samo nastawienie. W przypadku dużych zbiorów danych muszę tak mocno „kompresować” moje informacje, że raczej raczej nie będę się nadawał.
Niedawno usłyszałem ten żart z naukowcem Big Data, który odkrył, że na świecie jest około 6 płci ... i mogę sobie to wyobrazić, że się zdarzy ... „Mężczyzna, Kobieta, Ork, Furry, Tak i Nie”.
Jakie więc metody musimy przywrócić pewną trafność statystyczną z powrotem do analizy, w szczególności, gdy próbujemy przewidzieć coś poza zbiorem danych „dużych zbiorów danych”?