Eksploracja danych jest klasyfikowana jako opisowa lub predykcyjna. Opisowe wyszukiwanie danych polega na wyszukiwaniu ogromnych zestawów danych i odkrywaniu lokalizacji nieoczekiwanych struktur lub relacji, wzorców, trendów, klastrów i wartości odstających w danych. Z drugiej strony Predictive polega na budowaniu modeli i procedur regresji, klasyfikacji, rozpoznawania wzorców lub na uczeniu maszynowym oraz ocenie dokładności predykcyjnej tych modeli i procedur w przypadku zastosowania do świeżych danych.
Mechanizm wykorzystywany do wyszukiwania wzorów lub struktur w danych wielowymiarowych może być ręczny lub automatyczny; wyszukiwanie może wymagać interaktywnego odpytywania systemu zarządzania bazą danych lub może wymagać użycia oprogramowania do wizualizacji w celu wykrycia anomalii w danych. W terminologii uczenia maszynowego eksploracja danych opisowych nazywana jest uczeniem się bez nadzoru, natomiast eksploracja danych predykcyjnych nazywana jest uczeniem nadzorowanym.
Większość metod wykorzystywanych w eksploracji danych jest związana z metodami opracowanymi w statystyce i uczeniu maszynowym. Najważniejsze z tych metod to ogólne tematy regresji, klasyfikacji, grupowania i wizualizacji. Ze względu na ogromne rozmiary zbiorów danych wiele zastosowań eksploracji danych koncentruje się na technikach zmniejszania wymiarów (np. Selekcja zmiennych) i sytuacjach, w których podejrzewa się, że dane wielowymiarowe leżą na hiperplanach o niższych wymiarach. Ostatnio zwrócono uwagę na metody identyfikacji danych wielowymiarowych leżących na nieliniowych powierzchniach lub rozmaitościach.
W eksploracji danych zdarzają się również sytuacje, w których wnioskowanie statystyczne - w klasycznym znaczeniu - albo nie ma znaczenia, albo ma wątpliwą ważność: ta pierwsza ma miejsce, gdy cała populacja szuka odpowiedzi, a druga ma miejsce, gdy zbiór danych jest Próba „wygody” zamiast losowej próby pobranej z dużej populacji. Gdy dane są gromadzone w czasie (np. Transakcje detaliczne, transakcje na giełdzie, dane pacjentów, dane pogodowe), pobieranie próbek również może nie mieć sensu; uporządkowanie czasowe obserwacji ma kluczowe znaczenie dla zrozumienia zjawiska generującego dane, a traktowanie obserwacji jako niezależnych, gdy mogą być silnie skorelowane, zapewni tendencyjne wyniki.
Głównymi składnikami eksploracji danych są - oprócz teorii i metod statystycznych - obliczenia i wydajność obliczeniowa, automatyczne przetwarzanie danych, techniki dynamicznej i interaktywnej wizualizacji danych oraz opracowanie algorytmu.
Jednym z najważniejszych problemów w eksploracji danych jest obliczeniowy problem skalowalności . Opracowane algorytmy obliczania standardowych eksploracyjnych i potwierdzających metod statystycznych zostały zaprojektowane tak, aby były szybkie i wydajne obliczeniowo w przypadku zastosowania ich do małych i średnich zbiorów danych; jednak wykazano, że większość tych algorytmów nie jest w stanie sprostać wyzwaniu związanemu z obsługą ogromnych zestawów danych. W miarę wzrostu zbiorów danych wiele istniejących algorytmów wykazuje tendencję do gwałtownego spowalniania (a nawet zatrzymywania się).