Study/SpeechRecognition2010.07.29 17:25

Mel 주파수 캡스트럼 (MFCC)

Mel-frequency cepstral coefficient

이 놀은 음성신호처리 분야에서 음성의 특성을 표현하기 위해 주로 사용되는 Mel-frequency cepstral coefficient (MFCC)에 대해 설명하고 있습니다.



시작하기 전에: 이 놀의 내용은 영문 wikipedia의 MFCC관련 내용을 기반으로 작성되었습니다.

개요

음성신호처리 분야에서 Mel-frequency cepstrum (MFC)은 단구간 신호의 파워스펙트럼을 표현하는 방법 중 하나로, 비선형적인 Mel스케일의 주파수 도메인에서 로그파워스펙트럼에 코사인변환 (cosine transform)을 취함으로써 얻을 수 있다. Mel-frequency cepstral coefficients (MFCCs)는 여러 MFC들을 모아 놓은 계수들을 의미한다.

MFCC와 일반적인 캡스트럼의 차이는 일반적인 캡스트럼의 경우 주파수 밴드가 균등하게 나누어져 있는 반면 MFCC의 경우 주파수 밴드가 Mel-scale에서 균등하게 나누어진다는 것이다. Mel-scale로의 주파수 워핑은 소리를 더욱 잘 표현할 수 있는 장점이 있다(참고문헌필요).  따라서 오디오압축 등에서 사용된다.

MFCCs는 일반적으로 다음의 과정을 통해 구할 수 있다[1]:
  1. 단구간 음성에 Fourier Transform을 취한다.
  2. 위 값들에서 Mel-scale의 필터뱅크를 이용해 파워스펙트럼을 구한다.
  3. 각 Mel-scale의 파워에 로그를 취한다.
  4. 위 값에 discrete cosine transform 을 취한다.
  5. MFCCs 값이 나온다.
위 과정은 여러 가지 계산 방법 중에 하나로, 다른 방법으로도 계산할 수 있다[2].


응용분야

MFCCs는 일반적으로 음성인식 시스템이나 화자인식 시스템 등에서 인식을 위한 특징파라메터로 사용된다[3]. 또한 음악장르 인식과 같이 Music information retrieval 분야에서도 사용되고 있다.


잡음에 대한 민감도

MFCC는 더해지는 잡음(additive noise)에 특별히 강인하지는 않다. 그래서 몇몇 연구자들은 이를 극복할 수 있는 방법들을 제안하기도 했다.

참조

  1. Min Xu et al. (2004). "HMM-based audio keyword generation". in Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh. Advances in Multimedia Information Processing - PCM 2004: 5th Pacific Rim Conference on Multimedia. Springer.
    http://books.google.com/books?id=Ijdp9UWb5ZYC&pg=PA569&dq=Mel-frequency-cepstrum&as_brr=3&sig=M4PKJKxiclebl7_BDBWkrPjYWOQ.
  2. Fang Zheng, Guoliang Zhang and Zhanjiang Song (2001), "Comparison of Different Implementations of MFCC," J. Computer Science & Technology, 16(6): 582–589.
  3. T. Ganchev, N. Fakotakis, and G. Kokkinakis (2005), "Comparative evaluation of various MFCC implementations on the speaker verification task," in 10th International Conference on Speech and Computer (SPECOM 2005), Vol. 1, pp. 191–194.


[출처 : http://knol.google.com/k/bong-jin-lee/mel-주파수-캡스트럼-mfcc/2p9i0m613vquw/10]
신고
Posted by nlogn

티스토리 툴바