Darmowy zestaw danych do bardzo wysokiej klasyfikacji wymiarowej [zamknięty]


35

Jaki jest swobodnie dostępny zestaw danych do klasyfikacji z ponad 1000 cech (lub punktów próbkowania, jeśli zawiera krzywe)?

Istnieje już wiki społeczności o wolnych zestawach danych: Lokalizowanie swobodnie dostępnych próbek danych

Ale tutaj byłoby miło mieć bardziej szczegółową listę, z której można wygodniej korzystać , proponuję również następujące zasady:

  1. Jeden post na zestaw danych
  2. Brak linku do zestawu danych
  3. każdy zestaw danych musi być powiązany

    • nazwisko (aby dowiedzieć się, o co chodzi) i link do zbioru danych (zbiory danych R można nazwać z nazwą pakietu)

    • liczba funkcji (powiedzmy, że to p ) rozmiar zbioru danych (powiedzmy, że to n ) i liczba etykiet / klasy (powiedzmy, że to k )

    • typowy poziom błędu z twojego doświadczenia (podaj użyty algorytm w słowach) lub z literatury (w tym ostatnim przypadku połącz papier)


+1, ale te z NIPS2003 mają tylko etykiety na pociągi - w dokumencie NIPS2003 wyraźnie napisano: „Etykiety walidacji i zestawów testowych są wstrzymane”.
denis

Dzięki. Komentarz na temat NIPS dotyczy odpowiedzi z @mbq.
robin girard

Czy ktoś tu ma wysokowymiarowy zestaw danych z więcej niż dwiema etykietami klasy?
hlin117

Odpowiedzi:


3

Dorothea
n = 1950
p = 100000 (0,1 M, połowa to sztucznie dodany szum)
k = 2 (~ 10x niezrównoważony)
Z NIPS2003 .


Czy możesz wyjaśnić, jak to jest 100000 funkcji? Patrzę na dane treningowe i każda linia ma może 2500 liczb całkowitych na linię.
JeremyKun

Jest to rzadka tablica, liczba całkowita N oznacza, że ​​wartość atrybutu N wynosi 1.


3

Dexter
n = 2600
p = 20000 (10k + 53 to sztuczny hałas)
k = 2 (zrównoważony)
Z NIPS2003 .


Nie rozumiem ... jeden zestaw na osobę?

@robin & @mbq Sugeruję utrzymanie jednego zestawu danych na post. Dzięki temu ludzie mogą głosować, który z sugerowanych tam również sugeruje / popiera
Peter Smit

@Peter, OK, podążam za twoim pomysłem, odpowiednio zmieniłem pytanie.
robin girard


2

Prostata (tablica ekspresji genów)

  • k = 2
  • n = 48 + 52
  • p = 6033

Dostępne poprzez (między innymi) pakietu R SPL nazwę zestawu danych: prostatę

współczynnik błędu = 3/102 (patrz tutaj ) również myślę, że są papiery, które wykazują współczynnik błędu 1/102. Powiedziałbym, że to łatwy przypadek testowy.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.