Jak słusznie zauważasz, w dzisiejszych czasach „duże zbiory danych” to coś, co każdy chce powiedzieć, że je posiada, co pociąga za sobą pewną swobodę w definiowaniu tego terminu przez ludzi. Ogólnie rzecz biorąc, powiedziałbym, że z pewnością masz do czynienia z dużymi zbiorami danych, jeśli skala jest taka, że nie jest już możliwe zarządzanie bardziej tradycyjnymi technologiami, takimi jak RDBMS, przynajmniej bez uzupełniania ich technologiami dużych zbiorów danych, takimi jak Hadoop.
Jak duże muszą być twoje dane, aby tak się stało, można dyskutować. Oto (nieco prowokujący) post na blogu, który twierdzi, że tak naprawdę nie jest tak w przypadku mniej niż 5 TB danych. (Żeby było jasne, nie twierdzi, że „mniej niż 5 TB to nie duże dane”, ale po prostu „Mniej niż 5 TB nie jest wystarczająco duże, abyś potrzebował Hadoop”.)
Ale nawet w przypadku mniejszych zestawów danych technologie dużych zbiorów danych, takie jak Hadoop, mogą mieć inne zalety, w tym dobre dopasowanie do operacji wsadowych, dobrą zabawę z nieustrukturyzowanymi danymi (a także danymi, których struktura nie jest wcześniej znana lub może ulec zmianie), skalowalność pozioma ( skalowanie poprzez dodanie większej liczby węzłów zamiast rozbudowywania istniejących serwerów) i (jako jeden z komentujących powyższe uwagi do postów) możliwość zintegrowania przetwarzania danych z zewnętrznymi zestawami danych (pomyśl o zmniejszeniu mapy tam, gdzie mapujący wykonuje połączenie z innym serwerem). Inne technologie związane z dużymi zbiorami danych, takie jak bazy danych NoSql, kładą nacisk na szybką wydajność i stałą dostępność przy obsłudze dużych zestawów danych, a także zdolność do obsługi częściowo nieustrukturyzowanych danych i skalowania w poziomie.
Oczywiście tradycyjne RDBMS mają swoje zalety, w tym gwarancje ACID (atomowość, spójność, izolacja, trwałość) i lepszą wydajność dla niektórych operacji, a także są bardziej znormalizowane, bardziej dojrzałe i (dla wielu użytkowników) bardziej znane. Dlatego nawet w przypadku niekwestionowanych „dużych” danych sensowne może być załadowanie przynajmniej części danych do tradycyjnej bazy danych SQL i użycie ich w połączeniu z technologiami dużych zbiorów danych.
Bardziej hojną definicją byłoby posiadanie dużych zbiorów danych, o ile jest wystarczająco duże, aby technologie dużych zbiorów danych stanowiły dla ciebie pewną wartość dodaną. Ale jak widać, może to zależeć nie tylko od wielkości danych, ale także od tego, jak chcesz z nimi pracować i jakie masz wymagania w zakresie elastyczności, spójności i wydajności. Jak używasz danych jest bardziej istotne pytanie, niż to, co używasz go do (np data mining). To powiedziawszy, zastosowania takie jak eksploracja danych i uczenie maszynowe są bardziej prawdopodobne, aby uzyskać przydatne wyniki, jeśli masz wystarczająco duży zestaw danych do pracy.