2006년 12월 21일
Audio Information Retrieval (AIR) Tools
Audio Information Retrieval (AIR) Tools
http://www.ee.columbia.edu/~dpwe/papers/TzanC00-airtools.pdf
2000
George Tzanetakis - Department of Computer Science, Princeton University, gtzan@cs.princeton.edu
Perry Cook - Department of Computer Science and Department of Music, Princeton University, prc@cs.princeton.edu
이 논문은 Feature-based audio analysis 가 지니는 기술적 요소를 소개하고, 이렇게 얻어진 오디오 데이터를 Graphic 적으로 확인할 수 있는 TimbreGrams 의 개념, 그리고 이를 만들고 확인할 수 있기 위해 제작한 프로그램인 Marsyas 라는 사운드에디터를 소개하는 논문이다.
종래의 AIR(혹은 MIR)은 오디오 데이터 자체 보다는, 그것의 상징적 특징을 기반으로 했었다.
AIR 이 MIT 의 Search by Humming 으로 유명해졌고, 이 연구 이후 주로 사용되었던 방식이 UDR 스트링 탐색이라는 것이었다.
UDR 스트링은 Up, Down, Repeat 를 뜻하는 것으로, MIDI 악보를 통해, 음악 정보를 UDR 로 바꾸고 DB 화해둔 뒤에 사용자로부터 humming 을 받아, 이를 분석해서 다시 UDR 스트링으로 바꾸고, DB 에서 검색하는 방식이었다.
그러나, 현실의 모든 음악을 UDR 로 표현할 수 있는 것도 아닐 뿐더러, 대부분의 음악은 악보를 구할 수조차 없는 한계를 지니고 있었다.
이러한 연구에 대한 한계를 극복하고자 시도한 것이 오디오 데이터 자체의 특성을 분석하고 이용하는 연구였다.
이 논문도 이런 차원의 연구인 것이다.
오디오 데이터의 특성을 연구한다는 것은, 신호처리 적인 분석을 통해 그 특성을 파악하는 데에서 시작한다.
이 논문에서 거론하는 기본적인 특성 파악(Feature Extraction) 기법들은 FFT, MPEG filterbank, LPC, MFCC 등이다.
최근에는 MPEG-7 의 기법과 LPC/MFCC 기법이 대세를 이루고 있으며, 이에 대한 비교 연구도 있다.
Feature 기반, 혹은 내용 기반 분석이라 불리는 이 연구의 흐름에서 가장 기본적으로 행해진 분야는, Classification 이다.
이는 Text Classification 과 비슷한 방식(학습하고, 대표 벡터를 찾고, 분류하는 방식)으로 진행된다.
주로 음악 장르를 분류하는 것이 일반적이며, 재즈, 락, 클래식, 팝 등을 대분류를 구분한다거나, 스포츠 채널의 오디오를 경기 종류(농구, 골프, 야구 등)로 나누는 식의 연구가 있다.
대략 90 % 정도까지 정확도를 높인 것으로 보고되고 있다.
이를 위해 모수/비모수 기반의 다양한 기법들이 활발히 연구되고 있다.
이 논문에서는 제안하는 Marsyas 라는 툴에서 이러한 기법의 일부인 가우시안 기법, 가우시안 혼합 모델 기법, KNN 등의 분류기능을 지원한다고 밝히고 있다.
Marsyas 가 보여주는 기능 중 가장 흥미로운 것은 TimbreGrams 이다.
우선 Feature Extraction 을 하고, 얻어진 feature 를 분석하여, 음악 파일을 (motive 적인) segment 로 나눈 뒤에, 그 각각의 segment 를 color 로 표현하고 있다.
이로써, 하나의 음악 파일은 알록달록한 색깔띠로 표현된다.
일단, 이렇게 음악을 색깔띠로 표현하고 나면, 사람들은 쉽게 다른 곡과 비교할 수 있게 되는 것이다.
TimbreGrams 와 더불어, Audio Thumbnail 기능도 제공하고 있는데, 이는 이미지에 대한 썸네일처럼, 오디오의 특정 구간만을 뽑아 대표 멜로디로 취하고, 이를 이용해 듣고/찾는 행위를 쉽게 해주는 것이다.
다른 논문들에서 TimbreGrams 개념에 대해 흥미로워하고 있으니, 이는 한 번 살표볼 만 하다.
http://www.ee.columbia.edu/~dpwe/papers/TzanC00-airtools.pdf
2000
George Tzanetakis - Department of Computer Science, Princeton University, gtzan@cs.princeton.edu
Perry Cook - Department of Computer Science and Department of Music, Princeton University, prc@cs.princeton.edu
이 논문은 Feature-based audio analysis 가 지니는 기술적 요소를 소개하고, 이렇게 얻어진 오디오 데이터를 Graphic 적으로 확인할 수 있는 TimbreGrams 의 개념, 그리고 이를 만들고 확인할 수 있기 위해 제작한 프로그램인 Marsyas 라는 사운드에디터를 소개하는 논문이다.
종래의 AIR(혹은 MIR)은 오디오 데이터 자체 보다는, 그것의 상징적 특징을 기반으로 했었다.
AIR 이 MIT 의 Search by Humming 으로 유명해졌고, 이 연구 이후 주로 사용되었던 방식이 UDR 스트링 탐색이라는 것이었다.
UDR 스트링은 Up, Down, Repeat 를 뜻하는 것으로, MIDI 악보를 통해, 음악 정보를 UDR 로 바꾸고 DB 화해둔 뒤에 사용자로부터 humming 을 받아, 이를 분석해서 다시 UDR 스트링으로 바꾸고, DB 에서 검색하는 방식이었다.
그러나, 현실의 모든 음악을 UDR 로 표현할 수 있는 것도 아닐 뿐더러, 대부분의 음악은 악보를 구할 수조차 없는 한계를 지니고 있었다.
이러한 연구에 대한 한계를 극복하고자 시도한 것이 오디오 데이터 자체의 특성을 분석하고 이용하는 연구였다.
이 논문도 이런 차원의 연구인 것이다.
오디오 데이터의 특성을 연구한다는 것은, 신호처리 적인 분석을 통해 그 특성을 파악하는 데에서 시작한다.
이 논문에서 거론하는 기본적인 특성 파악(Feature Extraction) 기법들은 FFT, MPEG filterbank, LPC, MFCC 등이다.
최근에는 MPEG-7 의 기법과 LPC/MFCC 기법이 대세를 이루고 있으며, 이에 대한 비교 연구도 있다.
Feature 기반, 혹은 내용 기반 분석이라 불리는 이 연구의 흐름에서 가장 기본적으로 행해진 분야는, Classification 이다.
이는 Text Classification 과 비슷한 방식(학습하고, 대표 벡터를 찾고, 분류하는 방식)으로 진행된다.
주로 음악 장르를 분류하는 것이 일반적이며, 재즈, 락, 클래식, 팝 등을 대분류를 구분한다거나, 스포츠 채널의 오디오를 경기 종류(농구, 골프, 야구 등)로 나누는 식의 연구가 있다.
대략 90 % 정도까지 정확도를 높인 것으로 보고되고 있다.
이를 위해 모수/비모수 기반의 다양한 기법들이 활발히 연구되고 있다.
이 논문에서는 제안하는 Marsyas 라는 툴에서 이러한 기법의 일부인 가우시안 기법, 가우시안 혼합 모델 기법, KNN 등의 분류기능을 지원한다고 밝히고 있다.
Marsyas 가 보여주는 기능 중 가장 흥미로운 것은 TimbreGrams 이다.
우선 Feature Extraction 을 하고, 얻어진 feature 를 분석하여, 음악 파일을 (motive 적인) segment 로 나눈 뒤에, 그 각각의 segment 를 color 로 표현하고 있다.
이로써, 하나의 음악 파일은 알록달록한 색깔띠로 표현된다.
일단, 이렇게 음악을 색깔띠로 표현하고 나면, 사람들은 쉽게 다른 곡과 비교할 수 있게 되는 것이다.
TimbreGrams 와 더불어, Audio Thumbnail 기능도 제공하고 있는데, 이는 이미지에 대한 썸네일처럼, 오디오의 특정 구간만을 뽑아 대표 멜로디로 취하고, 이를 이용해 듣고/찾는 행위를 쉽게 해주는 것이다.
다른 논문들에서 TimbreGrams 개념에 대해 흥미로워하고 있으니, 이는 한 번 살표볼 만 하다.
# by 신기루 | 2006/12/21 15:36 | 논문읽기 | 트랙백 | 덧글(0)




