Istnieje kilka klasycznych zestawów danych do zadań klasyfikacji / regresji uczenia maszynowego. Najpopularniejsze to:
Ale czy ktoś zna podobne zbiory danych do analizy sieci / teorii grafów? Bardziej konkretnie - szukam złotych zestawów danych do porównywania / oceny / uczenia się:
- środki centralności;
- algorytmy klastrowania sieci.
Nie potrzebuję ogromnej listy publicznie dostępnych sieci / wykresów, ale kilka naprawdę niezbędnych zestawów danych.
EDYTOWAĆ:
Dokładne funkcje „złotego standardowego zestawu danych” są dość trudne, ale oto kilka przemyśleń. Myślę, że prawdziwy klasyczny zestaw danych powinien spełniać następujące kryteria:
- Wiele odniesień w artykułach i podręcznikach;
- Włączenie do znanych pakietów oprogramowania do analizy sieci;
- Wystarczający czas istnienia;
- Wykorzystanie na wielu kursach do analizy grafów.
Jeśli chodzi o obszar moich zainteresowań, potrzebuję również etykietowanych klas dla wierzchołków i / lub wstępnie obliczonych (lub predefiniowanych) „wyników autorytetów” (tj. Oszacowań centralności). Po zadaniu tego pytania kontynuowałem wyszukiwanie, a oto kilka odpowiednich przykładów:
- Zachary's Karate Club : wprowadzony w 1977 roku, cytowany ponad 1,5 tys. Razy (według Google Scholar), wierzchołki mają atrybut Frakcja (która może być używana do grupowania).
- Erdos Collaboration Network : niestety nie znalazłem tej sieci w postaci pliku danych, ale jest ona dość znana, a jeśli ktoś wzbogaci sieć o dane specjalizacji matematyków, można ją również wykorzystać do testowania algorytmów klastrowania.