Czym dokładnie jest Big Data?


44

Kilkakrotnie zadawano mi pytanie:

Co to jest Big-Data?

Zarówno przez studentów, jak i moich krewnych, którzy podnoszą szum wokół statystyk i ML.

Znalazłem ten CV . I czuję, że zgadzam się z jedyną tam odpowiedzią.

Strona Wikipedii również ma na ten temat kilka uwag, ale nie jestem pewien, czy naprawdę się ze wszystkim zgadzam.

EDYCJA: ( Wydaje mi się, że stronie Wikipedii brakuje wyjaśnienia metod rozwiązania tego problemu i paradygmatu, o którym wspomniałem poniżej) .

Niedawno uczestniczyłem w wykładzie Emmanuela Candèsa , gdzie przedstawił paradygmat Big-Data jako

Najpierw dane Zadaj pytanie później

Jest to główna różnica w stosunku do badań opartych na hipotezach, w których najpierw formułuje się hipotezę, a następnie zbiera dane, aby coś o niej powiedzieć.

Dużo zajmował się kwestią kwantyfikacji wiarygodności hipotez generowanych przez szpiegowanie danych. Najważniejsze, co wyciągnąłem z jego wykładu, to fakt, że naprawdę musimy zacząć kontrolować FDR, a on przedstawił metodę knockoff , aby to zrobić.

Myślę, że CV powinno mieć pytanie o to, co to jest Big Data i jaka jest twoja definicja na jej temat. Wydaje mi się, że istnieje tak wiele różnych „definicji” , że tak naprawdę trudno jest pojąć, co to jest, lub wytłumaczyć to innym, jeśli nie ma ogólnego konsensusu co do tego, z czego się składa.

Wydaje mi się, że „definicja / paradygmat / opis” zapewniony przez Candès jest najbliższą rzeczą, na którą się zgadzam, jakie są twoje myśli?

EDYCJA 2: Uważam, że odpowiedź powinna zawierać coś więcej niż tylko wyjaśnienie samych danych. Powinno to być połączenie danych / metod / paradygmatu.

EDIT3: Wydaje mi się, że ten wywiad z Michaelem Jordanem również może coś dodać do stołu.

EDYCJA 4: Zdecydowałem się wybrać poprawną odpowiedź, która uzyskała najwyższy głos. Chociaż uważam, że wszystkie odpowiedzi dodają coś do dyskusji i osobiście uważam, że jest to raczej kwestia paradygmatu, w jaki sposób generujemy hipotezy i pracujemy z danymi. Mam nadzieję, że to pytanie posłuży jako zbiór referencji dla tych, którzy szukają tego, czym jest Big-Data. Mam nadzieję, że strona Wikipedii zostanie zmieniona w celu dalszego podkreślenia problemu wielokrotnego porównywania i kontroli FDR.


55
„Duże zbiory danych są jak seks nastolatków: wszyscy o tym mówią, nikt tak naprawdę nie wie, jak to zrobić, wszyscy myślą, że wszyscy to robią, więc wszyscy twierdzą, że to robią”. Simon Matthews
Alexander Lutsenko

4
ten cytat nie jest już ważny. Ludzie robią ostatnio wiele niezwykłych dzieł. Jeśli spojrzysz na konkursy na Kaggle, firmy poprawiają swój biznes i zarabiają dużo pieniędzy, wydając dużo pieniędzy. Inne przykłady zastosowań Big Data można znaleźć tutaj: linkedin.com/pulse/...
Metariat

5
@XuanQuangDO, zgadzam się. Nie bierz tego cytatu na poważnie.
Alexander Lutsenko

6
@XuanQuangDO: no cóż, jestem pewien, że niektórzy nastolatkowie uprawiają niezwykły seks, ale to nie zmienia faktu, że jest tam również wiele niekompetentnych lub błędnych głupot, które ludzie będą bezwzględnie kpić ;-)
Steve Jessop

Odpowiedzi:


54

Miałem przyjemność uczestniczyć w wykładzie dr Hadleya Wickhama o sławie RStudio. Tak to zdefiniował

  • Big Data: Nie można zmieścić w pamięci na jednym komputerze:> 1 TB
  • Średnie dane: mieści się w pamięci serwera: 10 GB - 1 TB
  • Małe dane: mieści się w pamięci laptopa: <10 GB

Hadley uważa również, że większość danych można przynajmniej sprowadzić do problemów, które można rozwiązać, i że bardzo niewielka ilość to tak naprawdę duże zbiory danych. Nazywa to „Big Data Mirage”.

  • 90% Można zredukować do problemu małych / średnich danych z podzestawem / próbkowaniem / podsumowaniem
  • 9% Można zredukować do bardzo dużej liczby problemów z małymi danymi
  • 1% jest nieredukowalnie duży

Slajdy można znaleźć tutaj .


2
@ GuðmundurEinarsson, właśnie go edytowałem, dzięki za sugestię.
Chris C

5
Chociaż nie sądzę, aby istniały wyraźne granice, uważam, że ten post jest bardzo wnikliwy. Kiedy pracowałem w firmie SW, spotkałem się z kilkoma klientami poszukującymi „ rozwiązań Big Data ”; w rzeczywistości brakowało 16 GB pamięci SODIMM.
usεr11852 mówi: Przywróć Monic

2
W dzisiejszych czasach dyski SSD o pojemności 1 TB nieulotna pamięć nie jest zbyt daleka od szybkiej pamięci niestabilnej. Wydaje mi się, że spodziewałbym się, że duże dane będą większe niż 1 TB, może co najmniej 50 TB lub coś takiego.
Mehrdad

3
Z całym szacunkiem dla ciebie i Hadleya, dane licytacyjne to nie tylko wielkość. Zwykle dane o stawkach są definiowane przez 3 V , a ostatnio model 4 V (zaproponowany przez Gartnera) - patrz odpowiedź Dawny33 poniżej. Jednak niektórzy eksperci (w tym Gartner) rozważają jeszcze jednego i argumentują za najważniejszym wymiarem V, w którym V oznacza wartość biznesową . Na przykład zapoznaj się z tym postem i tym postem .
Aleksandr Blekh,

2
@AleksandrBlekh Twój komentarz zawiera zarówno szczegółową dyskusję na temat kontrowersji wokół kryteriów „Big Data” wśród ekspertów, jak i odniesienia do twoich twierdzeń na ten temat. Myślę, że powinieneś rozważyć przekształcenie go w odpowiedź.
Silverfish,

19

Zestaw danych / strumień nazywa się Big Data, jeśli spełnia wszystkie cztery V.

  • Tom
  • Prędkość
  • Prawdziwość
  • Różnorodność

O ile zbiór danych nie zostanie określony jako Big Data, dopóki nie zostanie spełniony.

Podobna moja odpowiedź w celach informacyjnych.


Powiedziawszy to, jako naukowiec danych; Uważam, że środowisko Map-Reduce jest naprawdę fajne. Dzielenie danych, mapowanie, a następnie wyniki kroku mapowania są redukowane do jednego wyniku. Uważam, że te ramy są naprawdę fascynujące i jak skorzystały na świecie danych.

Oto niektóre sposoby radzenia sobie z problemem danych podczas codziennej pracy:

  1. Kolumnowe bazy danych: To dobrodziejstwo dla naukowców zajmujących się danymi. Używam Aws Red Shift jako mojego magazynu danych kolumnowych. Pomaga w wykonywaniu złożonych zapytań SQL i łączy się z mniejszym bólem. Uważam to za bardzo dobre, zwłaszcza gdy mój zespół ds. Rozwoju zadaje naprawdę złożone pytania i nie muszę mówić: „Tak, wysłałem zapytanie; dostalibyśmy go w ciągu jednego dnia!”
  2. Spark i mapa Reduce Framework: powody zostały wyjaśnione powyżej.

I tak przeprowadzany jest eksperyment danych:

  • Problem do rozwiązania jest zidentyfikowany
  • Możliwe źródła danych są teraz wymienione.
  • Rurociągi są zaprojektowane do pobierania danych do Redshift z lokalnych baz danych. Tak, Spark tu przychodzi. To naprawdę przydaje się podczas przenoszenia danych DB -> S3 -> Redshift.
  • Następnie zapytania i analizy SQL są wykonywane na danych w Redshift.

Tak, istnieją algorytmy Big Data, takie jak hyperloglog itp .; ale nie znalazłem potrzeby ich używania.

Więc tak. Dane są gromadzone najpierw przed wygenerowaniem hipotezy.


5
Zgadzam się z tymi rzeczami, ale myślę, że pojęcie Big Data obejmuje coś więcej niż same dane. Są to również zastosowane metody i paradygmat gromadzenia danych przed wygenerowaniem hipotez na ich temat.
Gumeo,

1
@ GuðmundurEinarsson Spieszyłem się, więc chciałem udzielić najlepszej odpowiedzi w krótkim czasie. Tak więc edytowałem i rozszerzyłem go o przepływ pracy i zrozumienie z moich codziennych doświadczeń z dużymi danymi w branży.
Dawny33,

1
Cztery Vs są tu odwrócone jako definiujące duże zbiory danych, a nie jako ważne godne uwagi właściwości dużych zbiorów danych. Można wykonać wiele przykładów dużych zbiorów danych bez kilku z nich 4, a niektóre są nawet wymienione w infografice IBM.
John,

@John Tak, litery V naprawdę bardzo się zmieniają. Istnieje również argument za nową V ( wartością )
Dawny33,

1
Nie mówię, że się zmieniają, mówię, że niepoprawnie odwracasz opis niektórych właściwości do definicji. To tak, jakby ktoś opisywał mu ważne rzeczy dotyczące psa jako lojalność, śmiech i lizanie, a ktoś inny przychodził i mówił, że taka jest definicja psa. To powiedziawszy, myślę, że byłeś bardziej na dobrej drodze, rozważając odwrócenie kierunku analizy, ale po prostu trzeba to w jakiś sposób przywiązać do wielkości danych. Myślę, że istnieje wiele dobrych sposobów na zrobienie tego i byłoby wspaniale, gdybyś je opracował.
John,

14

Myślę, że jedyną przydatną definicją dużych zbiorów danych są dane, które katalogują wszystkie informacje o danym zjawisku. Rozumiem przez to, że zamiast pobierać próbki z pewnej populacji i gromadzić pewne pomiary na tych jednostkach, duże zbiory danych gromadzą pomiary dla całej interesującej populacji. Załóżmy, że interesują Cię klienci Amazon.com. Amazon.com może gromadzić informacje o wszystkich zakupach swoich klientów, a nie tylko śledzić niektórych użytkowników lub tylko niektóre transakcje.

Moim zdaniem definicje, które zależą od wielkości pamięci samych danych, mają nieco ograniczoną użyteczność. Według tej miary, biorąc pod uwagę wystarczająco duży komputer, żadne dane nie są tak naprawdę dużymi danymi. Na skraju nieskończenie dużego komputera argument ten może wydawać się redukcyjny, ale rozważmy przypadek porównania mojego laptopa klasy konsumenckiej z serwerami Google. Najwyraźniej miałbym ogromne problemy logistyczne podczas próby przesiewania terabajta danych, ale Google ma zasoby, aby dość łatwo poradzić sobie z tym zadaniem. Co ważniejsze, rozmiar komputera nie jest nieodłączną właściwością danych , więc zdefiniowanie danych wyłącznie w odniesieniu do dowolnej dostępnej technologii przypomina rodzaj pomiaru odległości pod względem długości ramion.

Ten argument to nie tylko formalizm. Potrzeba skomplikowanych schematów paralelizacji i platform obliczeniowych rozproszonych znika, gdy masz wystarczającą moc obliczeniową. Więc jeśli przyjmiemy definicję, że Big Data jest zbyt duży, aby zmieścić się w pamięci RAM (lub awarii Excel, lub cokolwiek), a następnie po tym jak uaktualnić nasze maszyny, Big Data przestaje istnieć. To wydaje się głupie.

Ale spójrzmy na niektóre dane na temat dużych zbiorów danych, i nazwiemy to „Big Metadata”. W tym blogu zauważono ważny trend: dostępna pamięć RAM rośnie szybciej niż rozmiary danych i prowokacyjnie twierdzi, że „duża pamięć RAM zjada duże dane” - to znaczy, przy wystarczającej infrastrukturze nie masz już problemu z dużymi danymi, po prostu masz dane i wrócisz do dziedziny konwencjonalnych metod analizy.

Co więcej, różne metody reprezentacji będą miały różne rozmiary, więc nie jest do końca jasne, co to znaczy zdefiniować „duże dane” w odniesieniu do jego wielkości w pamięci. Jeśli dane są skonstruowane w taki sposób, że przechowywanych jest wiele zbędnych informacji (to znaczy wybierasz nieefektywne kodowanie), możesz łatwo przekroczyć próg tego, co komputer może z łatwością obsłużyć. Ale dlaczego chcesz, aby definicja miała tę właściwość? Moim zdaniem to, czy zbiór danych jest „big data”, nie powinno zależeć od tego, czy dokonałeś efektywnych wyborów w projektowaniu badań.

Z punktu widzenia praktyka, duże zbiory danych, które definiuję, niesie ze sobą również wymagania obliczeniowe, ale wymagania te są specyficzne dla aplikacji. Przemyślenie projektu bazy danych (oprogramowania, sprzętu, organizacji) dla obserwacji jest zupełnie inne niż dla10 7104107obserwacje i to jest w porządku. Oznacza to również, że duże zbiory danych, jak to definiuję, mogą nie wymagać specjalistycznej technologii wykraczającej poza to, co opracowaliśmy w klasycznej statystyce: próbki i przedziały ufności są nadal doskonale przydatnymi i ważnymi narzędziami wnioskowania, kiedy trzeba ekstrapolować. Modele liniowe mogą zapewnić całkowicie akceptowalne odpowiedzi na niektóre pytania. Ale duże zbiory danych, które zdefiniowałem, mogą wymagać nowatorskiej technologii. Być może musisz sklasyfikować nowe dane w sytuacji, gdy masz więcej predyktorów niż danych treningowych lub gdy Twoje predyktory rosną wraz z rozmiarem danych. Te problemy będą wymagały nowszej technologii.


Nawiasem mówiąc, myślę, że to pytanie jest ważne, ponieważ domyślnie dotyczy tego, dlaczego definicje są ważne - to znaczy dla kogo definiujesz temat. Dyskusja na temat dodawania dla pierwszoklasistów nie zaczyna się od teorii mnogości, zaczyna się od zliczenia obiektów fizycznych. Z mojego doświadczenia wynika, że ​​większość użycia terminu „duże zbiory danych” występuje w popularnej prasie lub w komunikacji między ludźmi, którzy nie są specjalistami w dziedzinie statystyki lub uczenia maszynowego (na przykład materiały marketingowe wymagające profesjonalnej analizy) i używa się go do wyrażają ideę, że współczesne praktyki komputerowe oznaczają, że istnieje mnóstwo dostępnych informacji, które można wykorzystać. Dzieje się tak prawie zawsze w kontekście danych ujawniających informacje o konsumentach, które, jeśli nie prywatne, nie są od razu oczywiste.

Tak więc konotacja i analiza dotyczące powszechnego użycia „dużych zbiorów danych” niesie ze sobą również pomysł, że dane mogą ujawniać niejasne, ukryte, a nawet prywatne szczegóły życia danej osoby, pod warunkiem zastosowania wystarczającej metody wnioskowania. Kiedy media informują o dużych zbiorach danych, to właśnie do tego dąży pogorszenie anonimowości - określenie, na czym polega „duże zbiory danych”, wydaje się nieco błędne w tym świetle, ponieważ popularna prasa i niespecjaliści nie przejmują się zaletami losowości lasy i obsługujące maszyny wektorowe i tak dalej, nie mają też świadomości wyzwań związanych z analizą danych w różnych skalach. I to jest w porządku.Z ich punktu widzenia troska koncentruje się na społecznych, politycznych i prawnych konsekwencjach ery informacji. Dokładna definicja mediów lub niespecjalistów nie jest tak naprawdę przydatna, ponieważ ich rozumienie również nie jest precyzyjne. (Nie myśl, że jestem zadowolony z siebie - po prostu obserwuję, że nie każdy może być ekspertem we wszystkim.)


7
To. „Z mojego doświadczenia wynika, że ​​większość użycia terminu„ duże zbiory danych ”występuje w popularnej prasie lub w komunikacji między ludźmi, którzy nie są specjalistami w dziedzinie statystyki lub uczenia maszynowego (na przykład materiały marketingowe wymagające profesjonalnej analizy)”
Momo

2
Myślę, że uderzyłeś paznokciem w głowę ostatnim akapitem. Myślę, że istnieje bardzo wyraźna luka między popularnym rozumieniem prasy a tym, co ludzie w statystyce / ML / Data science myślą o terminie big data. Po prostu czuję, że musi istnieć wyraźniejszy konsensus co do tego, co to właściwie jest. Jednym z powodów tego jest posiadanie takiego odniesienia, aby ludzie nie mogli manipulować tym terminem lub niewłaściwie go używać, gdy oczywiście nie ma zastosowania.
Gumeo

1
Myślę, że zaczynam się z tobą coraz bardziej zgadzać. Nadal uważam, że CV potrzebuje pytania referencyjnego, w którym osoby zainteresowane tematem wnoszą dwa centy na ten temat. Szukałem tutaj pytań i czułem, że brakuje tej dyskusji.
Gumeo

1
Myślę, że jest to cenna rozmowa i cieszę się, że zadałeś pytanie! I cieszę się, że moje komentarze były pomocne.
Przywróć Monikę

1
Uwielbiam tę odpowiedź z wielu powodów. Po pierwsze, uważam, że bardzo ważne jest podkreślenie, że „duże zbiory danych” mają niewiele wspólnego z algorytmami stosowanymi do ich analizy. Większość z nich ma 20-30 lat (losowy las, regresja liniowa itd.) I działają dobrze. Niektórzy ludzie w branży uważają, że „duże zbiory danych” łączą się z nowymi, wymyślnymi algorytmami, ponieważ prawdopodobnie nawet nie wiedzieli, że uczenie maszynowe istnieje od wielu lat. Po drugie, „duże zbiory danych” nie dotyczą wielkości. Jeśli masz serwer z 128 GB pamięci RAM i możesz zmieścić wszystko w pamięci, to po prostu świetne. (ciąg dalszy)
skd

7

wprowadź opis zdjęcia tutaj

Przeglądając ogromną literaturę na temat dużych zbiorów danych, zebrałem do 14 terminów „V”, w tym 13 wzdłuż około 11 wymiarów:

  • Ważność,
  • Wartość,
  • Zmienność / wariancja,
  • Różnorodność,
  • Prędkość,
  • Veracity / Veraciousness,
  • Zdolność do życia,
  • Wirtualność,
  • Wyobrażanie sobie,
  • Zmienność,
  • Tom.

14 kadencja to Vacuity. Według najnowszego prowokującego postu Big Data nie istnieje . Jego główne punkty to:

  • „Big Data” nie jest duże
  • Większość „dużych zbiorów danych” nie jest w rzeczywistości przydatna
  • [Powinniśmy być] jak najlepiej wykorzystać małe dane

Właściwa definicja Big Data ewoluowałaby wraz ze sprzętem, oprogramowaniem, potrzebami i wiedzą i prawdopodobnie nie powinna zależeć od ustalonego rozmiaru. Stąd możliwe do zdefiniowania pojęcie dużych zbiorów danych: kolejna granica innowacji, konkurencji i wydajności , czerwiec 2011 r .:

„Duże zbiory danych” odnoszą się do zbiorów danych, których rozmiar przekracza możliwości typowych narzędzi programistycznych baz danych do przechwytywania, przechowywania, zarządzania i analizowania.


1
Artykuł, na który wskazuje „pustka”, wydaje się okropnie słaby. Istnieje implikacja, że ​​30 GB danych / dzień nie jest duże (i że rozmiar jest jedynym składnikiem definicji). Co więcej, argumentuje się, że ponieważ firmy twierdzą, że ich dane są znacznie większe niż w rzeczywistości, oznacza to, że nie są duże. Nigdzie nie ma definicji dużego. I wszystkie przykłady użyte do zasugerowania „niezbyt duże” mają wiele V wymienionych tutaj.
John,

„Pustka” nie dotyczy tylko wielkości. Rzeczywiście, w ostatecznej wersji jedno-liniowej definicja dużego ma ewoluować wraz z obecnym stanem praktyki. To, co było duże w przeszłości, można uznać za małe kilka lat później. Użyłem tego terminu w przypadku, gdy „big data” jest używane jako magiczna mantra z niewielką ilością substancji, jak pokazano na powyższej kreskówce.
Laurent Duval,

1
Jak prawdopodobne jest, że wszystkie 14 kryteriów rozpocznie się od litery V? Wszyscy jesteśmy tutaj nastawieni na statystyki, no dalej!
Aksakal

Zasadniczo zgadzam się, to tylko po to, aby pokazać, że termin taki jak Big Data jest bardziej związany z marketingiem niż ze statystyką. Chciałem jednak udostępnić moją „kolekcję” warunków, które przeczytałem. Zaczęło się od 3 V, potem 5 V, a czasem 7 itd. Termin ten może niejasno pomóc dostrzec cechy danych, które
posiadasz

4

Ludzie wydają się skupiać na dużym kwalifikatorze w Big Data. Jednak rozmiar jest tylko jednym z elementów tego terminu (domeny). Nie wystarczy, że Twój zestaw danych był duży, aby nazwać twój problem (domenę) dużymi danymi, potrzebujesz również zrozumienia i analizy, a nawet przetworzenia. Niektórzy nazywają tę funkcję nieuporządkowaną , ale nie jest to tylko struktura, ale także niejasny związek między różnymi częściami i elementami danych.

Rozważmy zestawy danych, w których fizycy wysokich energii pracują w miejscach takich jak CERN . Pracowali z danymi dotyczącymi wielkości petabajtów od lat, zanim powstał termin Big Data . Ale nawet teraz nie nazywają tych dużych zbiorów danych o ile mi wiadomo. Dlaczego? Ponieważ dane są raczej regularne, wiedzą, co z nimi zrobić. Mogą nie być w stanie wyjaśnić jeszcze każdej obserwacji, więc pracują nad nowymi modelami itp.

Teraz nazywamy Big Data problemami dotyczącymi zbiorów danych o rozmiarach, które można wygenerować w ciągu kilku sekund z LHC w CERN. Powodem jest to, że te zestawy danych zwykle zawierają elementy danych pochodzące z wielu źródeł o różnych formatach, niejasne relacje między danymi i niepewna wartość dla firmy. Może to być zaledwie 1 TB, ale tak trudno jest przetworzyć wszystkie pliki audio, wideo, teksty, mowę itp. Tak więc, pod względem złożoności i wymaganych zasobów, to przewyższa petabajty danych CERN. Nie wiemy nawet, czy w naszych zestawach danych znajdują się dostrzegalne przydatne informacje.

Dlatego rozwiązywanie problemów z Big Data polega na analizie, ekstrakcji elementów danych o nieznanej wartości, a następnie łączeniu ich ze sobą. „Analiza” obrazu może sama w sobie stanowić duży problem. Powiedzmy, że szukasz materiału z monitoringu z ulic miasta, próbującego sprawdzić, czy ludzie się denerwują i czy ma to wpływ na wypadki drogowe z udziałem pieszych. Jest mnóstwo filmów, można znaleźć twarze, spróbować ocenić ich nastroje za pomocą wyrażeń, a następnie połączyć je z liczbą zestawów danych o wypadkach, raportami policyjnymi itp., A jednocześnie kontrolować pogodę (zapobieganie wypadkom, temperatura) i korki uliczne. Potrzebujesz narzędzi pamięci i narzędzi analitycznych, które obsługują te duże zestawy danych różnego rodzaju i mogą skutecznie łączyć dane ze sobą.

Big Data to złożony problem analityczny, w którym złożoność wynika zarówno z samej wielkości, jak i złożoności struktury i kodowania informacji w nim zawartych.


Dobry wkład. Kontrast między problemem LHC a danymi CCTV jest często pomijany przez ludzi.
Gumeo,

3

Myślę, że powodem, dla którego ludzie są zdezorientowani co do tego, czym jest Big Data, jest to, że nie widzą jej zalet. Wartość Big Data (technika) zależy nie tylko od ilości danych, które można zebrać, ale także od Modelowania predykcyjnego, które ostatecznie jest ważniejsze:

  1. Modelowanie predykcyjne zmieniło całkowicie sposób, w jaki wykonujemy statystyki i prognozy, daje nam lepszy wgląd w nasze dane, ponieważ nowe modele, nowe techniki mogą lepiej wykrywać trendy, szumy danych, mogą przechwytywać „wielowymiarową” bazę danych. Im więcej wymiarów mamy w naszej bazie danych, tym większa szansa na stworzenie dobrego modelu. Modelowanie predykcyjne jest sercem wartości Big Data.
  2. Big Data (pod względem wielkości danych) jest krokiem wstępnym i służy do modelowania predykcyjnego poprzez: wzbogacenie bazy danych w odniesieniu do: 1. liczby predyktorów (więcej zmiennych), 2. liczby obserwacji.

Więcej predyktorów, ponieważ jesteśmy teraz w stanie przechwycić dane, które wcześniej nie były możliwe (z powodu ograniczonej mocy sprzętowej, ograniczonej zdolności do pracy na nieustrukturyzowanych danych). Więcej predyktorów oznacza większe szanse na posiadanie znaczących predyktorów, tj. Lepszy model, lepsze przewidywanie, lepsza decyzja dla firmy.

Więcej obserwacji nie tylko czyni model bardziej wytrzymałym w czasie, ale także pomaga modelowi uczyć się / wykrywać wszystkie możliwe wzorce, które można przedstawić / wygenerować w rzeczywistości.


3

Trudna rzecz w Big Data vs. jej antonim (przypuszczalnie Small Data?) Polega na tym, że jest to kontinuum. Ludzie dużych zbiorów danych przeszli na jedną stronę spektrum, ludzie małych danych przeszli na drugą stronę, ale na piasku nie ma wyraźnej linii, na którą wszyscy mogliby się zgodzić.

Spojrzałbym na różnice w zachowaniu między nimi. W sytuacjach z małymi danymi masz „mały” zestaw danych i starasz się wycisnąć jak najwięcej informacji z każdego naszego punktu danych. Zdobądź więcej danych, możesz uzyskać więcej wyników. Jednak uzyskanie większej ilości danych może być kosztowne. Dane, które gromadzi, są często ograniczone do modeli matematycznych, takich jak przeprowadzanie częściowego silnia testów w celu sprawdzenia interesujących zachowań.

W sytuacjach z dużymi zbiorami danych masz „duży” zestaw danych, ale Twój zestaw danych zwykle nie jest tak ograniczony. Zazwyczaj nie przekonuje się klientów do zakupu łacińskiego kwadratu mebli, aby ułatwić analizę. Zamiast tego masz tendencje do gromadzenia danych o słabej strukturze. Aby rozwiązać te problemy, celem nie jest „wybieranie najlepszych danych i wyciskanie z nich wszystkiego, co można”, tak jak można naiwnie próbować, jeśli ktoś jest przyzwyczajony do małych danych. Cel wydaje się być bardziej podobny do tego, że „jeśli możesz po prostu wyciągnąć mały smidgen z każdego pojedynczego punktu danych, suma będzie ogromna i dogłębna”.

Pomiędzy nimi znajdują się średnie zbiory danych o dobrej strukturze. To są „naprawdę trudne problemy”, więc teraz mamy tendencję do organizowania się w dwa obozy: jeden z małymi danymi wyciskającymi z niego każdy ostatni fragment, a drugi z dużymi danymi starającymi się pozwolić, aby każdy punkt danych świecił własnym dobrze. Idąc dalej, spodziewam się, że więcej procesów dla małych danych będzie próbowało dostosować się do większych zestawów danych, a więcej procesów dla dużych danych będzie próbowało się przystosować do wykorzystania bardziej uporządkowanych danych.


Twoja charakterystyka małych danych przypomina bardzo książkę Bema na temat analizy. Proszę przejrzeć krytykę tego, ponieważ jest to niewłaściwy sposób traktowania małych zestawów danych innych niż do prywatnej eksploracji, na których można oprzeć przyszłe zbieranie danych.
John,

@John, może będę musiał na nie spojrzeć. Czy krytyka jest wystarczająca, że ​​nie mogę nawet wykorzystać charakterystyki jako punktu do opisu kontinuum?
Cort Ammon,

Naprawdę za długo tu wchodzę, ale podstawową wiadomością jest to, że nie wyciskasz wszystkiego, co możesz z każdego punktu danych małymi danymi. Być może Google Gelman i Forking Paths; lub eksperymentalnych stopni swobody. Trzeba inaczej myśleć o analizie małych i dużych zbiorów danych, a nie tylko o punktach kontinuum.
John,

3

Powiedziałbym, że istnieją trzy elementy niezbędne do zdefiniowania dużych zbiorów danych: kierunek analizy, rozmiar danych w odniesieniu do populacji i rozmiar danych w odniesieniu do problemów obliczeniowych.

Samo pytanie zakłada, że ​​hipotezy powstają po danych. Nie używam słowa „zebrane”, ponieważ myślę, że słowo „zebrane” oznacza dla określonego celu, a dane często nie istnieją w tym czasie. Gromadzenie często odbywa się w przypadku dużych zbiorów danych poprzez połączenie istniejących danych w celu obsługi pytania.

Drugą ważną częścią jest to, że nie są to tylko dane, dla których właściwa jest analiza post hoc, którą można nazwać analizą eksploracyjną z mniejszymi zestawami danych. Musi mieć wystarczającą wielkość, aby uważać, że zebrane z niego szacunki są wystarczająco bliskie szacunkom populacji, że wiele mniejszych problemów z próbkami można zignorować. Z tego powodu jestem trochę zaniepokojony faktem, że w tej chwili istnieje nacisk na wiele korekt porównawczych. Jeśli miałeś całą populację lub przybliżenie, które masz uzasadniony powód, by uważać za słuszne, takie poprawki powinny być dyskusyjne. Chociaż zdaję sobie sprawę, że zdarza się, że czasami pojawiają się problemy, które naprawdę zmieniają „duże dane” w małą próbkę (np. Duże regresje logistyczne), sprowadza się to do zrozumienia, czym jest duża próbka dla konkretnego pytania. Wiele z wielu pytań porównawczych należy zamiast tego zamienić na pytania o wielkości efektu. I oczywiście cały pomysł, w którym użyłbyś testów z wartością alfa = 0,05, jak wielu nadal robi z dużymi danymi, jest po prostu absurdalny.

I w końcu małe populacje się nie kwalifikują. W niektórych przypadkach populacja jest niewielka i można zebrać wszystkie dane wymagane do jej bardzo łatwego zbadania i umożliwić spełnienie dwóch pierwszych kryteriów. Dane muszą mieć wystarczającą wielkość, aby stały się problemem obliczeniowym. Jako taki, pod pewnymi względami musimy przyznać, że „duże zbiory danych” mogą być przejściowym szumem i być może zjawiskiem nieustannie poszukującym ścisłej definicji. Niektóre rzeczy, które sprawiają, że „duże zbiory danych” stają się teraz duże, znikną za kilka lat, a definicje takie jak Hadley, oparte na pojemności komputera, będą wydawać się dziwne. Ale na innym poziomie problemami obliczeniowymi są pytania, które nie dotyczą pojemności komputera lub być może pojemności komputera, której nigdy nie można rozwiązać. Myślę, że w tym sensie problemy ze zdefiniowaniem „

Można zauważyć, że nie podałem przykładów ani twardych definicji tego, czym jest trudny problem obliczeniowy dla tej domeny (istnieje mnóstwo przykładów ogólnie w comp sci i kilka odpowiednich, do których nie wejdę). Nie chcę ich robić, ponieważ uważam, że będzie to musiało być nieco otwarte. Z biegiem czasu zebrane prace wielu osób spotykają się, aby ułatwić takie rzeczy, częściej w tym momencie poprzez tworzenie oprogramowania niż sprzętu. Być może pole będzie musiało dojrzeć pełniej, aby ten ostatni wymóg był bardziej solidnie ograniczony, ale krawędzie zawsze będą rozmyte.


Dzięki za wkład! Myślę, że zapewniasz cenne informacje dla tego wątku. Myślę, że wielkość danych w populacji została tutaj nieco przeoczona.
Gumeo,

1

Wikipedia podaje dość jasną definicję

Duże zbiory danych to szeroki termin określający zbiory danych tak duże lub złożone, że tradycyjne aplikacje do przetwarzania danych są nieodpowiednie. (źródło https://en.wikipedia.org/wiki/Big_data )

inna prosta definicja, którą znam

Dane, które nie pasują do pamięci komputera.

Niestety nie pamiętam odniesienia do tego. Cała reszta wynika z tych definicji - musisz jakoś poradzić sobie z dużą ilością danych.


0

Dodałbym, że Big Data to odniesienie do pracy nad dużym zbiorem danych (miliony i / lub miliardy wierszy) lub próby znalezienia informacji / wzorców na temat szerokich zasobów danych, które można teraz gromadzić wszędzie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.