Jak wyciągnąć prawidłowe wnioski z „dużych zbiorów danych”?


40

„Big data” jest wszędzie w mediach. Wszyscy mówią, że „duże zbiory danych” są najważniejsze w 2012 r., Np. Sondaż KDNuggets na gorące tematy w 2012 r . Mam jednak głębokie obawy. W przypadku dużych zbiorów danych wydaje się, że wszyscy są szczęśliwi, gdy tylko coś wyciągną. Ale czy nie naruszamy wszystkich klasycznych zasad statystycznych, takich jak testowanie hipotez i reprezentatywne pobieranie próbek?

Dopóki przewidujemy tylko ten sam zestaw danych, powinno to być w porządku. Więc jeśli używam danych z Twittera do przewidywania zachowań użytkowników Twittera, to prawdopodobnie jest w porządku. Jednak wykorzystanie danych z Twittera do przewidywania np. Wyborów całkowicie pomija fakt, że użytkownicy Twittera nie są reprezentatywną próbą dla całej populacji. Ponadto większość metod nie będzie w stanie odróżnić prawdziwego nastroju „oddolnego” od kampanii. A Twitter jest pełen kampanii. Analizując Twittera, szybko mierzysz tylko kampanie i boty. (Zobacz na przykład „Yahoo przewiduje amerykańskich zwycięzców politycznych”która jest pełna odpychania ankiet i „analiza nastrojów jest znacznie lepsza”. Przewidywali, że „Romney ma ponad 90-procentowe prawdopodobieństwo wygrania nominacji i wygranej w Karolinie Południowej” (miał 28%, podczas gdy Gingrich miał 40% w tej podstawowej).

Czy wiesz, że inne takie duże zbiory danych zawodzą ? Z grubsza pamiętam, że jeden naukowiec przewidział, że nie będziesz w stanie utrzymać więcej niż 150 przyjaźni. Dopiero co odkrył limit limitów w Friendster ...

Jeśli chodzi o dane z Twittera, a właściwie wszelkie „duże dane” zebrane z sieci, uważam, że często ludzie wprowadzają dodatkowe uprzedzenia w sposób, w jaki zbierają swoje dane. Niewielu będzie miało cały Twitter. Będą mieli pewien podzbiór, który przeliczyli, a to tylko kolejny błąd w ich zestawie danych.

Podział danych na zestaw testowy lub przeprowadzenie weryfikacji krzyżowej prawdopodobnie nie pomaga. Drugi zestaw będzie miał takie samo nastawienie. W przypadku dużych zbiorów danych muszę tak mocno „kompresować” moje informacje, że raczej raczej nie będę się nadawał.

Niedawno usłyszałem ten żart z naukowcem Big Data, który odkrył, że na świecie jest około 6 płci ... i mogę sobie to wyobrazić, że się zdarzy ... „Mężczyzna, Kobieta, Ork, Furry, Tak i Nie”.

Jakie więc metody musimy przywrócić pewną trafność statystyczną z powrotem do analizy, w szczególności, gdy próbujemy przewidzieć coś poza zbiorem danych „dużych zbiorów danych”?

Odpowiedzi:


31

Wasze obawy są uzasadnione i spostrzegawcze. Yahoo i prawdopodobnie kilka innych firm przeprowadzają losowe eksperymenty na użytkownikach i robią to dobrze. Ale dane obserwacyjne są utrudnione. Powszechnym błędnym przekonaniem jest, że problemy zmniejszają się wraz ze wzrostem wielkości próby. Dotyczy to wariancji, ale odchylenie pozostaje stałe wraz ze wzrostem liczby n. Kiedy odchylenie jest duże, bardzo mała prawdziwie losowa próbka lub randomizowane badanie może być cenniejsze niż 100 000 000 obserwacji.


8
Duże zbiory danych są prawdopodobnie jednym z obszarów, w których rozkład wariancji odchylenia nie jest pomocny - ważniejsza jest jakość danych i zarządzanie nimi. Wynika to z faktu, że nie możemy mieć nadziei, że znamy każdy punkt danych, a nawet przypadki szczególne - po prostu zbyt wiele
probabilityislogic

24

W eksperymentalnym projektowaniu i analizach istnieje wiele technik, które mogą pomóc w zmniejszeniu uprzedzeń, ale to znów sprowadza się do tego samego: trzeba wiedzieć, co się robi. Analiza dużych zbiorów danych ma ten sam problem, co każda inna analiza danych; cierpi na brak hipotez.

Jasnym przykładem jest regresja wielokrotna z krokowym wyborem zmiennych. Bardzo ładny, powiedzieć, ale z 100 zmiennych mierzonych prawa statystyczne dyktować, że niektóre z nich będą wykazują istotny związek gdy oceniano patrząc czy odpowiednich współczynników różni się znacząco od zera. Im więcej zmiennych w zbiorze danych, tym większa szansa na znalezienie dwóch, które wykazują pewne (bez znaczenia) relacje. Im większy zestaw danych, tym większa szansa na bezsensowne modele z powodu np. Niewielkiego, zakłócającego efektu. Jeśli przetestujesz wiele modeli (a nawet tylko 10 zmiennych, które mogą być wieloma modelami), bardzo prawdopodobne jest, że znajdziesz co najmniej jeden znaczący. Czy to coś znaczy? Nie.

Co zatem należy zrobić? Użyj swojego mózgu:

  • sformułuj hipotezę przed zebraniem danych i przetestuj tę hipotezę. To jedyny sposób, aby upewnić się, że statystyki rzeczywiście opowiadają historię.
  • Skorzystaj ze zmiennych towarzyszących, aby rozwarstwić próbkowanie przed wykonaniem niektórych testów. Głupi przykład: jeśli masz 1000 mężczyzn i 100 kobiet w zbiorze danych, losowo wybierz 50, jeśli chcesz porozmawiać o przeciętnej populacji. W rzeczywistości przydaje się duża ilość danych: masz więcej niż wystarczająco dużo, aby z nich próbować.
  • Dokładnie opisz populację testową, aby było jasne, dla której populacji formułowane są twoje wnioski.
  • Jeśli używasz swojego dużego zestawu danych do celów eksploracyjnych, przetestuj hipotezy, które wysunąłeś podczas tej eksploracji, na nowym i innym zestawie danych, a nie tylko podzbiorze zebranych danych. I przetestuj je ponownie, stosując wszystkie niezbędne środki ostrożności.

Wszystkie te rzeczy są oczywiste i dobrze znane. Heck, już w 1984 r. Rosenbaum i Rubin zilustrowali, w jaki sposób wykorzystywać wyniki skłonności do zmniejszania stronniczości w badaniach obserwacyjnych, i to właśnie są największe zbiory danych: dane obserwacyjne. W najnowszej pracy Fenga i wsp. Zaleca się również stosowanie dystansu Mahalanobisa. W rzeczywistości jeden z moich statystycznych bohaterów, Cochran, napisał recenzję na ten temat już w 1973 roku! A co z Rubinem, który wprowadził wielopłaszczyznowe dopasowanie próbkowania i korekcję regresji już w 1979 r. Stare publikacje są poważnie niedoceniane i zdecydowanie zbyt często ignorowane, z pewnością w dziedzinie takiej jak statystyki.

Wszystkie te techniki mają zalety i wady i należy zrozumieć, że zmniejszenie uprzedzeń to nie to samo, co wyeliminowanie uprzedzeń. Ale jeśli masz świadomość:

  • co chcesz przetestować, i
  • jak to robisz

Big data nie jest usprawiedliwieniem dla fałszywych wyników.


Edytowane po (poprawnej) uwadze @DW, która zwróciła uwagę, że użyłem terminu „nadmierne dopasowanie” w niewłaściwym kontekście.


12
„im większy zestaw danych, tym większa szansa na bezsensowne przeregulowanie” - w rzeczywistości jest to odwrotnie. Im większy zestaw możliwych modeli, tym większa szansa na przeregulowanie (wszystkie pozostałe są równe). Im większy zestaw danych, tym mniejsza szansa na przeregulowanie (wszystkie pozostałe są równe).
DW

@DW Jak to się dzieje? W rzeczywistości, jeśli istnieje absolutna niezależność w symulacji, istnieje duża szansa na znaczący model z małymi i dużymi zestawami danych (pokazuje to prosta symulacja). Niestety, jeszcze nie spotkałem zbioru danych, w którym niezależność jest idealna. W momencie, gdy masz np. Bardzo mały, zakłócający efekt, duże zbiory danych z większym prawdopodobieństwem dadzą bezsensowne znaczące wyniki niż małe zestawy danych.
Joris Meys,

Dobra odpowiedź - twój komentarz na temat znalezienia znaczących efektów stanowi dobre uzasadnienie dla metod skurczu w porównaniu z metodami wyboru modelu na wejściu lub wyjściu.
prawdopodobieństwo prawdopodobieństwo

10
@DW wypowiada się na temat nadmiernego dopasowania i wydaje się słuszny - zwłaszcza, że ​​im większy zestaw danych, tym większa szansa na upokarzające wzajemne sprawdzanie poprawności podzbiorów danych. Joris Meys wypowiada się na temat znaczenia statystycznego. To też prawda. Ale w dużych zestawach danych znaczenie statystyczne jest sporne - liczy się wielkość efektu, ponieważ prawie wszystko jest „statystycznie znaczące”.
zbicyclist

1
@zbicyclist Bardzo poprawna obserwacja. Przyznaję, że źle zinterpretowałem DW i użyłem terminu „overfit” w niewłaściwym kontekście. Poprawiono mnie.
Joris Meys,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.