Od dłuższego czasu pracuję nad uczeniem maszynowym i bioinformatyką, a dziś rozmawiałem z kolegą na temat głównych ogólnych kwestii eksploracji danych.
Mój kolega (który jest ekspertem w dziedzinie uczenia maszynowego) powiedział, że jego zdaniem najważniejszym praktycznym aspektem uczenia maszynowego jest, jak zrozumieć, czy zebrałeś wystarczającą ilość danych, aby wyszkolić swój model uczenia maszynowego .
To stwierdzenie mnie zaskoczyło, ponieważ nigdy nie przywiązywałem tak dużej wagi do tego aspektu ...
Potem szukałem więcej informacji w Internecie i znalazłem ten post na FastML.com zgłaszając jako ogólną zasadę, że potrzebujesz około 10 razy więcej instancji danych niż jest dostępnych funkcji .
Dwa pytania:
1 - Czy ten problem jest szczególnie istotny w uczeniu maszynowym?
2 - Czy reguła 10 razy działa? Czy istnieją inne odpowiednie źródła dla tego tematu?