Powodem, dla którego widzisz transformację Fouriera zastosowaną dwa razy w procesie ekstrakcji cech, jest to, że cechy są oparte na koncepcji zwanej cepstrum. Cepstrum jest grą w spektrum słów - zasadniczo chodzi o przekształcenie sygnału do dziedziny częstotliwości za pomocą transformaty Fouriera, a następnie wykonanie kolejnej transformacji tak, jakby widmo częstotliwości było sygnałem.
Podczas gdy widmo częstotliwości opisuje amplitudę i fazę każdego pasma częstotliwości, cepstrum charakteryzuje różnice między pasmami częstotliwości. Odkryto, że cechy pochodzące z cepstrum lepiej opisują mowę niż cechy zaczerpnięte bezpośrednio ze spektrum częstotliwości.
Istnieje kilka nieco różnych definicji. Pierwotnie transformacja cepstrum została zdefiniowana jako transformata Fouriera -> logarytm złożony -> transformata Fouriera [1]. Inną definicją jest transformata Fouriera -> logarytm złożony -> odwrotna transformata Fouriera [2]. Motywacją dla tej drugiej definicji jest jej zdolność do oddzielania skręconych sygnałów (mowa ludzka jest często modelowana jako splot wzbudzenia i układu głosowego).
Popularnym wyborem, który okazał się skuteczny w systemach rozpoznawania mowy, jest zastosowanie nieliniowego banku filtrów w dziedzinie częstotliwości (binowanie mel, o którym mówisz) [3]. Konkretny algorytm jest zdefiniowany jako transformata Fouriera -> kwadrat wielkości -> bank filtrów Mel -> logarytm rzeczywisty -> dyskretna transformacja kosinusowa.
Tutaj DCT można wybrać jako drugą transformację, ponieważ dla danych wejściowych o wartości rzeczywistej rzeczywista część DFT jest rodzajem DCT. Powodem, dla którego preferowane jest DCT, jest to, że wyjście jest w przybliżeniu skorelowane. Cechy związane z dekoracją można skutecznie modelować jako rozkład Gaussa z ukośną macierzą kowariancji.
[1] Bogert, B., Healy, M., i Tukey, J. (1963). Kwerenda Alanyzy szeregów czasowych dla ech: cepstrum, pseudoautokowariancja, krzyżowanie cepstrum i pękanie saphe. W Proceedings of Symposium on Time Series Analysis, str. 209–243.
[2] Oppenheim, A., i Schafer, R. (1968). Homomorficzna analiza mowy. W IEEE Transactions on Audio and Electroacoustics 16, s. 1. 221–226.
[3] Davis, S. i Mermelstein, P. (1980). Porównanie reprezentacji parametrycznych dla rozpoznawania słów monosyllabicznych w zdaniach o ciągłym wypowiadaniu się. W IEEE Transactions on Acoustics, Speech and Signal Processing 28, s. 1. 357-366.