Czy jesteś magistrem informatyki? Statystyka?
Czy „nauka o danych” będzie w centrum twojej tezy? A może poboczny temat?
Zakładam, że jesteś w statystyce i że chcesz skoncentrować swoją tezę na problemie „nauki danych”. Jeśli tak, to pójdę wbrew zasadom i sugeruję, że nie powinieneś zaczynać od zestawu danych lub metody ML. Zamiast tego powinieneś poszukać interesującego problemu badawczego, który jest słabo poznany lub w którym metody ML nie zostały jeszcze sprawdzone lub gdzie istnieje wiele konkurencyjnych metod ML, ale żadna nie wydaje się lepsza od innych.
Rozważ to źródło danych: Zbiór danych dużej sieci Stanforda . Podczas mogli wybrać jeden z tych zestawów danych, uzupełnić oświadczenie problem, a następnie uruchomić jakąś listę metod ml, że podejście naprawdę nie powiedzieć bardzo dużo o tym, co dane nauka jest o, i moim zdaniem nie robi prowadzić do bardzo dobrej pracy magisterskiej.
Zamiast tego możesz to zrobić: poszukaj wszystkich prac naukowych, które wykorzystują ML w określonej kategorii - np. Sieci współpracy (aka współautorstwo). Czytając każdy artykuł, spróbuj dowiedzieć się, co udało mu się osiągnąć za pomocą każdej metody ML i czego nie byli w stanie rozwiązać. Zwłaszcza szukaj ich sugestii dotyczących „przyszłych badań”.
Może wszyscy używają tej samej metody, ale nigdy nie próbowali konkurujących metod ML. A może nie weryfikują odpowiednio swoich wyników, a może zbiory danych są małe, a może ich pytania badawcze i hipotezy były uproszczone lub ograniczone.
Najważniejsze: spróbuj dowiedzieć się, dokąd zmierza ta linia badań. Dlaczego w ogóle to robią? Co w tym jest znaczącego? Gdzie i dlaczego napotykają trudności?