Ankieta dotycząca narzędzi do eksploracji danych


15

Chociaż zostałem przeszkolony jako inżynier, odkryłem, że coraz bardziej interesuję się eksploracją danych. W tej chwili próbuję dokładniej zbadać tę dziedzinę. W szczególności chciałbym zrozumieć różne kategorie narzędzi programowych, które istnieją i które narzędzia są godne uwagi w każdej kategorii i dlaczego. (Zauważ, że nie powiedziałem „najlepszych” narzędzi, tylko te godne uwagi, abyśmy nie rozpoczęli wojny z płomieniami.) Szczególnie zwróć uwagę na narzędzia o otwartym kodzie źródłowym i swobodnie dostępne - chociaż nie rozumiem tego, że to oznacza Interesuje mnie tylko oprogramowanie open source i bezpłatne.


1
Radzę, aby była to wiki społeczności.
Tal Galili

brzmi jak pytanie o pracę domową
Neil McGuigan

@Tal Oczywiście, teraz przekonwertowane.

@el szefie - To bardzo ogólne i ogólne pytanie ... ale obawiam się, że nie jest to zadanie domowe.
John Berryman

Odpowiedzi:


7

To prawdopodobnie najbardziej wyczerpująca lista, którą znajdziesz: mloss.org


Koncentruje się jednak na uczeniu maszynowym, które można postrzegać jako pokrewną dziedzinę eksploracji danych, podobnie jak sztuczna inteligencja. Chociaż często jest używany jako synonim, ponieważ „przewidywanie” jest jednym z kluczowych wyzwań w eksploracji danych. Ale eksploracja danych to coś więcej niż „uczenie się”.
Ma ZAKOŃCZENIE - Anony-Mousse

7

Spójrz na

  • Weka (java, silny w klasyfikacji)
  • Pomarańczowy (skrypty python, głównie klasyfikacja)
  • GNU R (język R, nieco zorientowany na tabelę wektorową, zobacz widok zadań Uczenie maszynowe i interfejs użytkownika Rattle )
  • ELKI (Java, silny w wykrywaniu klastrów i wartości odstających, obsługa struktury indeksów dla przyspieszeń, lista algorytmów )
  • Mahout (Java, należy do Hadoop, jeśli masz klaster i ogromne zestawy danych)

oraz repozytorium uczenia maszynowego UCI dla zestawów danych.


1
możesz dodać Red-R do listy (rodzaj klonu Orange w R): red-r.org
Amro

Pobrałem R i teraz się nim bawię.
John Berryman

@Amro Thanks! Jednak nie jest dostępny na platformie Mac, chyba że się mylę?
chl

Nie jestem użytkownikiem Maca, ale myślę, że kompilacja Linuksa mogłaby dla ciebie działać (musisz ręcznie zainstalować wszystkie zależności Pythona): red-r.org/forum/topic.php?id=22#post-76
Amro

@Amro spróbuję; w przeszłości testowałem RAnalyticFlow ( j.mp/bYF8xs ), ale nie byłem przekonany: jestem w zasadzie użytkownikiem CLI :-)
chl


3

Zobacz KNIME .

Bardzo łatwa do nauczenia. Z dużą ilością miejsca na dalsze postępy. Ładnie integruje się z Weka i R.




2

Istnieje ELKI , projekt uniwersytecki typu open source, nieco podobny do WEKA, ale znacznie silniejszy, jeśli chodzi o tworzenie klastrów i wykrywanie wartości odstających. WEKA nie jest tak naprawdę eksploracją danych, ale oprogramowaniem do uczenia maszynowego.


1

Jest ten Red-R, który ma ładny GUI i wizualny interfejs programowania. Wykorzystuje R do przetwarzania różnych analiz danych.



0

SQL Server Data Mining (SSDM) nie był aktualizowany od dawna, ale nadal jest dość konkurencyjny, jeśli wydobywasz duże relacyjne bazy danych i kostki. Powoli, ale systematycznie prześlizguję się przez testy tak wielu narzędzi górniczych, jak to tylko możliwe, a interfejs Windows Servera do SQL Servera jest najbardziej produktywny i stabilny do tej pory (szczególnie jeśli chodzi o bazy danych dla przedsiębiorstw, z których niektóre zaskakująco niechlujne interfejsy) pomimo swojego wieku. Wolałbym nowoczesny interfejs Windows Presentation Foundation (WPF), ale jest to najlepsza rzecz.

Napisałem na nim całą serię szczegółowych amatorskich samouczków zatytułowanych Chwiejne schody do eksploracji danych SQL Server , kiedy próbowałem zdobyć podstawowe umiejętności wydobywcze. Pomimo mojego niedoświadczenia są one nadal przydatne, pomagając z wyprzedzeniem zidentyfikować niektóre „gotchas”.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.