Technika przetwarzania sygnału, Mel Cepstrum , jest często używana do wydobywania informacji z utworu muzycznego w celu wykorzystania go w zadaniu uczenia maszynowego. Ta metoda daje krótkoterminowe spektrum mocy, a współczynniki są wykorzystywane jako dane wejściowe.
Przy projektowaniu systemów wyszukiwania muzyki takie współczynniki są uważane za charakterystyczne dla danego utworu (oczywiście niekoniecznie wyjątkowe, ale wyróżniające). Czy są jakieś cechy, które lepiej pasowałyby do uczenia się w sieci? Czy zmienne w czasie cechy, takie jak progresja basu utworu zastosowanego w czymś w rodzaju sieci Elmana, działałyby bardziej skutecznie?
Które cechy stanowiłyby wystarczająco obszerny zestaw, na podstawie którego można by dokonać klasyfikacji?