구글, 아이디어를 음악으로 전환하는 MusicLM
MusicLM: 텍스트에서 음악 생성하기
초록
MusicLM은 고음질 음악 생성을 위한 모델로, 왜곡된 기타 리프와 바이올린 멜로디와 같은 음악 요소를 텍스트 설명을 통해 생성합니다. 이 모델은 조건부 음악 생성을 수행하며, 이를 계층적 시퀀스 대 시퀀스 모델링 작업으로 구현하여 24kHz의 고품질 음악을 몇 분 동안 일관되게 생성합니다. 수행된 실험 결과에 따르면, MusicLM은 오디오 품질과 텍스트 설명의 일치도 측면에서 이전 시스템을 훌륭히 능가하는 성능을 보였습니다.
뿐만 아니라, MusicLM은 텍스트 설명에 나오는 스타일에 따라 휘파람 소리와 허밍 엘로디 등 다양한 음악적 스타일을 변환할 수 있는 능력을 갖추고 있습니다. 이로써 MusicLM은 텍스트와 멜로디 모두에 맞추어 자유롭게 조정할 수 있는 다재다능한 모델임을 입증하고 있습니다.
또한, 향후 연구를 지원하기 위해 MusicLM은 5.5만 개의 음악-텍스트 쌍으로 이루어진 데이터 세트인 "뮤직캡스"를 공개하였으며, 이 데이터 세트에는 전문가가 제공한 풍부한 텍스트 설명이 포함되어 있습니다. 이를 통해 음악 생성 분야의 더 나은 연구와 발전을 지원하고자 합니다.
1. 소개
조건부 신경 오디오 생성은 텍스트 음성 변환(Zen et al., 2013; van den Oord et al., 2016)에서부터 가사 조건부 음악 생성(Dhariwal et al., 2020) 및 MIDI 시퀀스의 오디오 합성(Hawthorne et al., 2022b)까지 다양한 응용 분야를 포괄하는 중요한 주제입니다. 이러한 작업은 컨디셔닝 신호와 오디오 출력 사이의 시간적 정렬을 기반으로 진행되어 왔습니다. 그러나 최근의 연구는 텍스트-이미지 생성 분야의 성과에 영감을 받아 "바람이 불면서 휘파람 불기"와 같은 높은 수준의 캡션에서 오디오를 생성하는 방법을 모색하고 있습니다(Yang et al., 2022; Kreuk et al., 2022). 이러한 시도는 텍스트로부터 음악 또는 음향 장면을 생성하는 혁신적인 시도로 인식되지만, 현재로서는 단순한 음향 장면에 제한된 기능을 제공하고 있습니다.
이러한 도전에도 불구하고, 최근에는 AudioLM(Borsos et al., 2022)이라는 오디오 생성 프레임워크가 제안되었습니다. AudioLM은 오디오 합성을 언어 모델링 작업으로 변환하며, 이산 오디오 단위의 계층 구조를 통해 높은 품질과 장기적 일관성을 달성하는 모델입니다. 또한 오디오 내용에 대한 가정을 하지 않으며 음성 및 피아노 음악과 같은 다양한 오디오 유형을 생성할 수 있습니다. 그럼으로써, 데이터의 가용성이 부족한 오디오-텍스트 페어링 작업에 대한 해결책을 제공합니다.
오디오 생성의 어려움 외에도 오디오-텍스트 페어링 데이터 부족은 다른 중요한 제약 사항 중 하나입니다. 이미지 생성 분야에서는 방대한 데이터 세트의 가용성이 이미지 생성 품질을 크게 향상시켰지만, 오디오 생성 분야에서는 이러한 데이터의 부족이 큰 문제입니다. 또한 음향적 특성을 설명하는 것은 이미지를 설명하는 것보다 더 복잡하며, 시간적 차원에서 구조화된 음악을 설명하는 것은 이미지보다 더 어렵습니다.
이 문맥에서, MusicLM은 텍스트 설명을 기반으로 고품질 음악을 생성하는 모델로 소개됩니다. 이 모델은 AudioLM의 다단계 자동 회귀 모델링을 기반으로하여 텍스트 컨디셔닝을 통합하는 확장된 형태입니다. 이를 위해 MuLan(Huang et al., 2022)이라는 공동 음악-텍스트 임베딩 모델을 활용하여 음악과 텍스트 설명을 공간적으로 가까운 표현으로 투사하며, 이로써 데이터 부족 문제를 극복합니다. 특히, MuLan 임베딩은 텍스트 캡션 없이도 오디오 생성을 가능하게 합니다.
MusicLM은 레이블이 없는 대규모 음악 데이터 세트를 활용하여 "기억에 남는 색소폰 솔로와 솔로 가수가 있는 매혹적인 재즈 노래"와 같이 복잡한 텍스트 설명에 기반한 음악을 생성하는 능력을 학습합니다. 이 작업은 음악-텍스트 캡션 데이터 세트인 뮤직캡스를 통해 부족한 평가 데이터 문제를 해결하려는 노력의 일환으로 소개되며, 이 데이터 세트는 전문 음악가에 의해 작성된 풍부한 텍스트 설명을 제공합니다.
MusicLM의 성능은 실험 및 정량적 평가를 통해 입증되었으며, 이전 시스템과 비교하여 캡션 품질과 일치도에서 우수한 결과를 보여주고 있습니다. 또한 MusicLM은 텍스트를 넘어 음악 스타일과 멜로디를 조정하는 데 활용될 수 있음을 보여줌으로써 음악 생성 분야에 새로운 가능성을 제시합니다.
트위터는 음악 생성과 관련된 도용과 같은 위험을 인식하고, 책임 있는 모델 개발을 위해 철저한 연구를 수행하고 있습니다. MuLan 임베딩을 MusicLM에 적용할 때 생성된 토큰 시퀀스가 훈련 세트와 다르게 나타나는 것을 고려하여 모델의 안정성을 강화하는 방법에 대한 연구가 진행 중입니다.
이 연구의 주요 기여는 다음과 같습니다:
1. 텍스트 컨디셔닝 신호에 충실하면서 몇 분 동안 일관되게 24kHz의 고품질 음악을 생성하는 생성 모델인 MusicLM을 소개합니다.
2. 텍스트 프롬프트에 따라 합성되는 멜로디와 같은 다른 컨디셔닝 신호로 방법을 확장합니다. 또한 최대 5분 길이의 클립으로 길고 일관된 음악 생성을 시연합니다.
3. 텍스트-음악 생성 작업을 위해 특별히 수집된 첫 번째 평가 데이터 세트를 공개합니다: MusicCaps는 뮤지션이 직접 엄선한 5.5만 개의 음악-텍스트 쌍으로 구성된 고품질 데이터 세트입니다.
2. 배경 및 관련 연구
다양한 도메인에 대한 제너레이티브 모델링의 최신 기술은 주로 트랜스포머 기반 자동 회귀 모델(Vaswani et al., 2017) 또는 U-Net 기반 확산 모델(Ho et al., 2020)에 의해 주도되고 있습니다. 이 섹션에서는 MusicLM과 유사점을 공유하는 이산 토큰에서 작동하는 자동 회귀 생성 모델에 중점을 두고 관련 연구를 검토합니다.
2.1. 양자화
이산 토큰의 시퀀스를 자동 회귀적으로 모델링하는 접근 방식은 자연어 처리 분야(Brown et al., 2020; Cohen et al., 2022)뿐만 아니라 이미지 및 비디오 생성 분야(Esser et al., 2021; Ramesh et al., 2021; Yu et al., 2022; Villegas et al., 2022)에서 강력한 성과를 보여주며, 특히 양자화는 연속적인 신호를 처리하는 자동 회귀 모델의 성능 향상에 핵심적인 역할을 합니다. 양자화의 주요 목표는 고충실도 재구성을 유지하면서 컴팩트하고 이산적인 표현을 생성하는 것입니다. 이런 의미에서 VQ-VAE(Van Den Oord et al., 2017)는 여러 분야에서 낮은 비트레이트에서도 인상적인 재구성 품질을 제공하며 많은 다른 모델의 기본 양자화 기술로 사용됩니다.
SoundStream(Zeghidour et al., 2022)은 높은 재구성 품질을 유지하면서 낮은 비트레이트에서 일반 오디오를 압축하는 범용 신경 오디오 코덱입니다. 이를 가능하게 하기 위해 SoundStream은 잔여 벡터 양자화(RVQ)를 활용하여 큰 계산 비용 없이 높은 비트 전송률과 품질을 확장할 수 있는 기술을 도입합니다. RVQ는 계층적 양자화 방식을 사용하여, 목표 신호를 여러 벡터 양자화기의 출력 합으로 재구성합니다. RVQ의 장점 중 하나는 비트 전송률이 증가함에 따라 코드북 크기가 기하급수적으로 증가하지 않도록 막는 것입니다. 또한 RVQ에서 각 양자화기는 더 거친 퀀티저의 잔여분에 맞춰져서 계층 구조를 형성하며, 이는 더 거친 레벨이 고충실도 재구성에 더 중요하게 작용하게 만듭니다. 이러한 특성은 이전 컨텍스트가 더 거친 토큰 생성에 미치는 영향을 강조하므로, 생성 작업에 적합합니다. 최근에는 SoundStream이 더 높은 비트 전송률과 스테레오 오디오를 지원하도록 확장되었으며, 이를 통해 24kHz 음악을 6kbps의 낮은 비트레이트로도 고품질 재구성이 가능해졌습니다(Defossez et al., 2022).
이러한 양자화 기술은 오디오 토큰화 작업에서 SoundStream과 같은 고성능 오디오 코덱을 적용하는 데 중요한 역할을 하고 있습니다. 이를 통해 낮은 비트 전송률에서도 오디오 신호를 효과적으로 압축하고 재구성할 수 있으므로, 데이터 전송 및 스토리지 측면에서 효율적인 솔루션을 제공합니다.
2.2. 오디오를 위한 생성형 모델
장기간 일관성을 유지하면서 고품질 오디오를 생성하는 작업은 어렵지만, 최근에는 이러한 과제를 해결하기 위한 다양한 접근 방식이 성공적으로 발전하고 있습니다. 예를 들어, Dhariwal 등(2020)이 개발한 Jukebox는 시간적 일관성을 달성하기 위해 다양한 시간 해상도에서 VQVAE 계층 구조를 도입했으나, 이 모델은 생성된 음악에 아티팩트가 나타나는 한계가 있습니다. 이와는 대조적으로, Hawthorne 등(2022a)이 제안한 PerceiverAR은 고품질 오디오를 달성하기 위해 사운드스트림 토큰을 자동 회귀적으로 모델링하지만 장기적인 시간적 일관성 측면에서 희생할 가능성이 제기되었습니다.
이러한 선행 연구에서 영감을 얻은 접근 방식을 기반으로 한 AudioLM(Borsos 등, 2022)은 일관성과 고품질 합성 간의 절충점을 찾기 위한 혁신적인 방법을 제시합니다. 구체적으로, 이 모델은 두 가지 주요 토큰 유형을 도입하여 작동합니다. 첫 번째로, 시맨틱 토큰은 오디오 데이터의 장기 구조를 모델링하고, 두 번째로, 음향 토큰은 신경 오디오 코덱에서 나온 음향 디테일을 포착하는 역할을 합니다. 이런 방식으로 AudioLM은 대본이나 음악적 표현에 의존하지 않고도 일관된 고품질 음성 및 피아노 음악 시퀀스를 생성할 수 있습니다.
AudioLM은 다음과 같은 세 가지 주요 기여를 제공합니다. 첫째, 설명 텍스트를 기반으로 생성 프로세스를 컨디셔닝할 수 있으며, 둘째, 이 컨디셔닝을 멜로디 등 다른 신호로 확장할 수 있습니다. 셋째, 이 모델은 피아노 음악뿐만 아니라 드럼 앤 베이스, 재즈, 클래식 음악과 같이 다양한 음악 장르와 긴 음악 시퀀스를 모델링하는 능력을 제공합니다.
AudioLM은 오디오 생성 분야에서의 혁신적인 모델로, 고품질 오디오 생성과 일관성 유지를 결합하여 다양한 응용 분야에서 활용 가능한 중요한 도구로 자리매김하고 있습니다.
2.3. 조건부 오디오 생성
텍스트 설명을 통한 오디오 생성은 최근 다수의 연구 작업에서 주목을 받고 있습니다. 이러한 연구들 중 몇 가지를 살펴보겠습니다.
DiffSound(양 등, 2022)은 CLIP(Radford 등, 2021)을 텍스트 인코더로 활용하고 확산 모델을 도입하여, 텍스트 임베딩을 기반으로 대상 오디오의 양자화된 멜 스펙트로그램 특징을 예측합니다. 또한, AudioGen(Kreuk 등, 2022)은 T5(Raffel 등, 2020) 인코더를 텍스트 임베딩에 사용하고, EnCodec(Defossez 등, 2022)에서 생성된 대상 오디오 코드 예측을 위해 자동 회귀 트랜스포머 디코더를 활용합니다. 이 두 접근 방식은 소량의 페어링된 훈련 데이터에 의존하는데, 이러한 데이터셋으로는 AudioSet(Gemmeke 등, 2017) 및 AudioCaps(Kim 등, 2019)과 같이 5,000시간 미만의 데이터가 필터링된 것이 사용됩니다.
또한, 음악 생성에 초점을 맞춘 작업도 있으며, 그 중 Mubert(Mubert-Inc, 2022)는 텍스트 프롬프트를 트랜스포머에 임베드하고, 이를 기반으로 음악 태그를 선택하여 노래 생성 API를 쿼리합니다. 선택한 태그를 기반으로 Mubert는 뮤지션과 사운드 디자이너가 생성한 사운드 조합을 생성합니다. 이와는 대조적으로, Riffusion(Forsgren & Martiros, 2022)은 쌍을 이룬 음악-텍스트 데이터 세트에서 안정적 확산 모델(Rombach 등, 2022a)을 미세 조정하여 오디오 생성 품질과 텍스트 설명 준수성을 향상시킵니다.
또한, 음악의 기호적 표현(예: 미디)은 생성 프로세스를 컨디셔닝하기 위한 강력한 도구로 활용될 수 있으며, 이는 이전 연구에서 입증된 바 있습니다. MusicLM은 이러한 다양한 컨디셔닝 신호를 통합하여 텍스트 설명과 결합함으로써 더 자연스럽고 직관적인 방식으로 오디오 생성을 수행할 수 있습니다. 이를 통해 휘파람 멜로디와 허밍 엘로디와 같은 다양한 음악 스타일을 캡션과 결합하여 생성할 수 있는 능력을 제공합니다.
위의 연구들은 텍스트를 활용하여 음악 및 오디오 생성 분야에서 혁신적인 결과를 도출하고 있으며, 텍스트 설명과 음악 생성 간의 연결을 탐구하고 발전시키는 중요한 단계를 나타냅니다.
2.4. 텍스트 컨디셔닝 이미지 생성
텍스트 컨디셔닝을 통한 오디오 합성은 텍스트 컨디셔닝 이미지 생성 모델의 성공을 토대로 중요한 발전을 이루어냈습니다. 이러한 모델들은 텍스트 설명을 활용하여 이미지 생성을 수행하는데, 최근의 아키텍처 개선과 대량의 고품질 페어링 훈련 데이터의 가용성으로 품질 면에서 상당한 진전을 이루었습니다.
트랜스포머 기반의 자동 회귀 접근법은 이러한 발전에서 중요한 역할을 하고 있으며, Ramesh 등(2021), Yu 등(2022)와 같은 연구들이 이 분야의 선두주자입니다. 또한, 확산 기반 모델은 Nichol 등(2022), Rombach 등(2022b), Saharia 등(2022)과 같이 높은 품질의 생성을 위한 중요한 도구로 활용되고 있습니다. 텍스트-이미지 접근 방식은 텍스트 프롬프트를 사용하여 비디오 생성으로까지 확장되어, Wu 등(2022a), Hong 등(2022), Villegas 등(2022), Ho 등(2022)과 같은 연구에서 다양한 차원에서 적용되고 있습니다.
우리의 접근 방식은 DALL-E 2(Ramesh 등, 2022)와 많은 유사성을 가지고 있습니다. 특히, DALL-E 2가 텍스트 인코딩을 위해 CLIP(Radford 등, 2021)을 활용하는 방식과 유사하게, 우리는 음악-텍스트 공동 임베딩 모델을 사용합니다. 그러나 다른 점은, 저희는 AudioLM을 디코더로 활용하여 음악을 생성하는 것입니다. 이를 통해 텍스트 임베딩을 음악 임베딩으로 매핑하고, 오디오 전용 데이터 세트에서 훈련된 AudioLM 기반 디코더를 활용하여 품질 높은 음악을 생성할 수 있습니다.
이러한 연구들은 텍스트 컨디셔닝을 통한 오디오 합성 분야에서 혁신적인 결과를 도출하며, 다양한 도메인에서 텍스트와 다른 미디어 유형 간의 연결을 탐구하고 발전시키는 중요한 단계를 나타냅니다.
2.5. 음악과 텍스트를 위한 공동 임베딩 모델
MuLan(Huang et al., 2022)은 음악-텍스트 공동 임베딩 모델로, 각각의 모달리티에 대한 두 개의 임베딩 타워를 갖추고 있습니다. 이러한 타워는 대조 학습을 통해 두 가지 모달리티를 128차원의 공유 임베딩 공간으로 매핑합니다. 이러한 설정은 Radford 등(2021), Wu 등(2022b)와 유사한 방식으로 구성됩니다.
MuLan의 텍스트 임베딩 네트워크는 대규모 텍스트 전용 데이터 말뭉치에 대해 사전 학습된 BERT(Devlin 등, 2019)를 활용하며, 오디오 타워는 ResNet-50의 변형을 활용하여 구성됩니다. MuLan은 음악 클립과 해당 텍스트 주석으로 이루어진 한 쌍의 음악-텍스트 데이터에 대해 학습됩니다.
놀랍게도, MuLan은 음악-텍스트 쌍의 연관성이 상대적으로 낮을 때도 크로스 모달 대응을 학습할 수 있는 능력을 갖추고 있습니다. 이는 뮤란이 음악을 자유롭게 자연어 설명과 연결할 수 있게 하며, 검색 및 제로 샷 음악 태깅과 같은 다양한 응용 분야에 활용할 수 있음을 의미합니다.
이 작업에서는 Huang 등(2022)의 사전 훈련 및 고정 모델을 채택하여 연구와 개발에 활용되었습니다. MuLan은 다양한 도메인에서 음악과 텍스트 간의 상호 연결성을 탐구하고 활용할 수 있는 유용한 도구로 나타나고 있습니다.
3. 방법
이 섹션에서는 MusicLM과 그 구성 요소에 대해 설명합니다. 3.1절에서는 오디오 표현을 제공하는 모델에 대해 설명합니다. 그런 다음 3.2절에서 이러한 표현을 텍스트 조건부 음악 생성에 사용하는 방법을 보여줍니다.
3.1. 오디오 및 텍스트의 표현과 토큰화
오디오 생성의 조건부 자동 회귀 접근법을 적용하기 위해, 그림 1에 나와 있는 세 가지 주요 모델을 활용합니다. 특히, 이러한 모델은 각각 고유한 역할을 수행하여 고품질 음악 생성을 가능하게 합니다. 이러한 모델은 독립적으로 사전 학습된 후 고정되어 있으며, 시퀀스 간 모델링을 위한 오디오 및 텍스트 표현을 개별적으로 제공합니다.
사운드스트림 (SoundStream): SoundStream(Zeghidour 외., 2022)은 고음질 합성을 위해 사용되며, 자기 감독 오디오 표현을 추출합니다. 이 모델은 24kHz 모노 포닉 오디오에서 50Hz의 임베딩을 생성하며, 이러한 임베딩은 RVQ(Residual Vector Quantization)를 통해 양자화됩니다. 이 과정을 통해 1초의 오디오가 6kbps 비트레이트로 표현되며, 이를 "음향 토큰"으로 나타냅니다 (A).
w2v-BERT: w2v-BERT(Chung 외., 2021)는 의미 토큰으로 사용되며, 중간 계층의 임베딩을 추출합니다. 사전 학습된 w2v-BERT 모델의 일부를 활용하며, 오디오의 의미를 나타내는 토큰을 생성합니다. 이러한 토큰은 오디오의 의미적 특성을 캡처하며 "S"로 표시됩니다.
MuLan: MuLan(Huang 외., 2022)은 오디오와 텍스트 간 상호 연결성을 강화하기 위한 목적으로 사용됩니다. MuLan의 오디오 임베딩 네트워크에서 대상 오디오 시퀀스의 표현을 추출하며, 이러한 표현은 트랜스포머 기반 자동 회귀 모델에 직접 사용됩니다. 또한, 오디오와 컨디셔닝 신호가 동일한 형태를 갖도록 MuLan 임베딩을 양자화합니다. 이러한 과정을 통해 오디오 시퀀스에 대한 MuLan 오디오 토큰 (MA)이 생성됩니다. 텍스트 프롬프트에서 추출한 MuLan 텍스트 임베딩을 컨디셔닝으로 사용하며, 오디오 임베딩에 사용된 것과 동일한 방법으로 양자화되어 MuLan 텍스트 토큰 (MT)을 얻습니다.
훈련 중, MA를 컨디셔닝으로 활용하는 것은 데이터 확장 및 노이즈에 강한 모델을 보유하게 해줍니다. 또한, 이러한 접근법은 텍스트 설명의 필수성을 제한하지 않으며, 노이즈가 있는 텍스트 설명에 대한 견고성을 향상시킬 수 있는 대비 손실을 활용합니다.
이러한 모델은 고유한 역할을 수행하며, 고품질 음악 생성을 위한 다양한 오디오 표현을 추출하고 컨디셔닝에 활용함으로써 일관성 있는 생성을 용이하게 합니다.
3.2. 오디오 표현의 계층적 모델링
제안된 음악 생성 접근 방식은 디코더 전용 트랜스포머를 사용하여 계층적 시퀀스-투-시퀀스 모델링을 수행하여 텍스트 조건부 음악 생성을 실현합니다. 이 접근 방식은 그림 2에서 자세히 설명되어 있으며, 다음과 같은 세 단계로 나뉩니다.
첫 번째 단계 - 시맨틱 모델링:
이 단계에서는 MuLan 오디오 토큰에서 시맨틱 토큰으로의 매핑을 학습합니다. 시간 단계 t에서 분포 p(St|S<t, MA)를 모델링하여 MuLan 오디오 토큰에서 시맨틱 토큰 S로의 매핑을 수행합니다. 이 단계에서는 음악의 의미를 캡처하고, MuLan 오디오 토큰의 의미적 특성을 해석하여 시맨틱 표현을 생성합니다.
두 번째 단계 - 음향 모델링:
음향 모델링 단계에서는 음향 토큰 Aq가 MuLan 오디오 토큰과 시맨틱 토큰 모두에 조건부로 예측됩니다. 이를 통해 분포 p(At|A<t, S, MA)를 모델링하여 음악의 음향적인 특성을 고려합니다. 즉, 음악의 음성적인 성격을 캡처하며, MuLan 오디오 토큰과 시맨틱 토큰의 정보를 기반으로 음향적인 변화를 예측합니다.
세 번째 단계 - 세밀한 모델링 (선택적):
긴 토큰 시퀀스를 피하기 위해, AudioLM은 음향 모델링 단계를 더 세밀한 단계와 함께 분할하는 것을 제안합니다. 처음 4개 레벨은 SoundStream RVQ의 출력을 모델링하고, 미세한 모델링 단계에서는 나머지 8개 레벨을 다룹니다. 이로써 더 정밀한 음악 생성을 가능하게 하며, 더 복잡한 음향적 특성을 모델링할 수 있습니다.
이러한 세 단계의 모델링은 텍스트 조건부 음악 생성에 필수적인 음악적 특성과 의미적 정보를 고려하여 음악을 생성하는 데 사용됩니다. 결과적으로, 이 접근 방식은 높은 수준의 음악 생성을 달성하는 데 도움을 줍니다.
4. 실험 설정
4.1. 모델
AudioLM의 시맨틱 스테이지와 음향 스테이지를 모델링하기 위해 디코더 전용 트랜스포머를 사용합니다. 이 모델은 24개의 레이어, 16개의 주의 헤드, 임베딩 차원 1024, 차원 4096의 피드 포워드 레이어, 드롭아웃 0.1, 상대적 위치 임베딩으로 구성된 동일한 아키텍처를 공유하며(Raffel et al., 2020), 그 결과 스테이지당 4억 3천만 개의 파라미터를 생성합니다.
4.2. 훈련 및 추론
사전 훈련되고 고정된 MuLan에 의존하기 때문에 MusicLM의 다른 구성 요소를 훈련하기 위해서는 오디오 전용 데이터가 필요합니다. SoundStream과 w2v-BERT는 무료 음악 아카이브(FMA) 데이터 세트(Defferrard et al., 2017)에서 훈련하는 반면, 의미 및 음향 모델링 단계를 위한 토큰화기와 자동 회귀 모델은 24kHz에서 280만 시간의 음악에 해당하는 500만 개의 오디오 클립이 포함된 데이터 세트에서 훈련합니다. 각 단계는 훈련 데이터에 대해 여러 번의 패스로 훈련됩니다. 시맨틱 스테이지와 음향 스테이지에는 각각 30초와 10초의 대상 오디오를 무작위로 크롭하여 사용합니다. AudioLM 미세 음향 모델링 단계는 3초 크롭으로 훈련됩니다.
추론하는 동안 MuLan이 학습한 오디오와 텍스트 사이의 공동 임베딩 공간, 즉 MA를 MT로 치환합니다. 그런 다음 위에서 설명한 단계를 수행하여 주어진 MT 를 얻습니다. 모든 단계에서 자동 회귀 샘플링에 온도 샘플링을 사용하며, 시맨틱 모델링 단계에서는 1.0, 거친 음향 모델링 단계와 미세 음향 모델링 단계에서는 각각 0.95와 0.4의 온도를 사용합니다. 이러한 온도 값은 생성된 음악의 다양성과 시간적 일관성 사이의 적절한 균형을 제공하기 위해 주관적인 검사를 기반으로 선택되었습니다.
4.3. 평가 데이터 세트
MusicLM을 평가하기 위해 고품질 음악 캡션 데이터 세트인 MusicCaps를 준비하여 공개적으로 제공합니다.1 이 데이터 세트에는 10명의 전문 음악가가 작성한 영어로 된 해당 텍스트 설명과 짝을 이루는 AudioSet의 5.5k 음악 클립(Gemmeke et al., 2017)이 포함되어 있습니다. 각 10초 음악 클립에 대해 MusicCaps는 (1) 음악을 설명하는 평균 4문장으로 구성된 자유 텍스트 캡션과 (2) 장르, 분위기, 템포, 가수 목소리, 악기, 불협화음, 리듬 등을 설명하는 음악 측면의 목록을 제공합니다. 데이터 세트에는 평균적으로 클립당 11개의 측면이 포함됩니다. 몇 가지 캡션 및 측면 목록 예제는 부록 A를 참조하세요.
뮤직캡스는 오디오셋의 오디오 클립과 그에 상응하는 텍스트 설명을 포함한다는 점에서 오디오캡스(Kim et al., 2019)를 보완합니다. 그러나 AudioCaps에는 음악 이외의 콘텐츠가 포함되어 있는 반면, MusicCaps는 음악에만 초점을 맞추고 전문가가 제공한 매우 상세한 주석을 포함합니다. 예제는 오디오셋의 훈련 및 평가 분할에서 추출되었으며, 부록 A에 자세히 설명된 대로 다양한 장르 분포를 포괄합니다. 뮤직캡스는 또한 1,000개의 예제가 포함된 장르별 균형 잡힌 데이터 분할을 제공합니다.
4.4. 메트릭
MusicLM의 평가를 위해 다양한 메트릭이 사용되며, 이는 음악 생성의 오디오 품질과 텍스트 설명 준수 여부를 파악하기 위한 중요한 도구입니다. 이러한 메트릭은 다음과 같이 구성됩니다:
프리쳇 오디오 거리(FAD)는 오디오 품질을 측정하기 위한 중요한 지표 중 하나로, 사람의 지각과 상관관계가 높습니다. 이 메트릭은 오디오 품질 측정을 위한 기준이 없는 경우 사용됩니다. FAD 점수가 낮을수록 모델이 높은 오디오 품질을 생성할 것으로 예상됩니다. 그러나 이 메트릭은 생성된 샘플이 텍스트 설명을 정확하게 준수하지는 않을 수 있습니다.
KLD 메트릭은 음악과 텍스트 설명 간의 관련성을 평가하기 위해 사용됩니다. 음악과 텍스트 간의 다대다 관계를 고려하여 클래스 예측을 통해 평가됩니다. KL 발산이 낮을수록, 생성된 음악이 레퍼런스 음악과 유사한 음향 특성을 가질 것으로 예상됩니다. 이 메트릭은 음악과 텍스트 간의 조화를 측정하는 데 사용됩니다.
뮤란 사이클 일관성(MCC) 메트릭은 음악과 텍스트 간의 유사성을 정량화하는 데 사용됩니다. 텍스트 설명과 이를 기반으로 생성된 음악에서 뮤란 임베딩을 계산하고, 임베딩 간의 평균 코사인 유사도를 측정합니다. MCC는 음악-텍스트 쌍 간의 일관성을 평가하기 위한 도구로 사용됩니다.
주관적인 평가는 음악 생성의 텍스트 설명과의 부합성을 평가하는 데 사용됩니다. 여러 모델 또는 모델과 참조 음악 간의 인간 평가 작업을 통해 이루어집니다. 평가자에게는 텍스트 설명과 두 개의 음악 샘플을 제시하고, 두 샘플 중에서 어떤 것이 텍스트 설명을 더 잘 따르는지를 평가하도록 지시됩니다. 이러한 주관적 평가는 음악 생성의 품질과 텍스트 설명 준수를 평가하는 중요한 단계입니다.
모델이 학습 데이터를 얼마나 암기했는지를 평가하기 위해 데이터 암기 메트릭을 사용합니다. 이 메트릭은 음악 세그먼트를 얼마나 정확하게 암기할 수 있는지를 측정하며, 모델의 의미론적 모델링 능력을 평가하는 데 사용됩니다. 이를 통해 모델의 일반화 능력과 창의성을 평가할 수 있습니다.
5. 결과
설명적 텍스트로부터 음악을 생성하는 최근의 두 가지 기준선, 즉 Mubert(Mubert-Inc, 2022)와 Riffusion(Forsgren & Martiros, 2022)과 비교하여 MusicLM을 평가합니다. 특히, 우리는 Mubert API를 쿼리하고 Riffusion 모델에서 추론을 실행하여 오디오를 생성합니다.5 이 백서와 함께 공개하는 평가 데이터 세트인 MusicCaps에서 평가를 수행합니다.
기준선과의 비교. 표 1은 본 백서의 주요 정량적 및 정성적 결과를 보여줍니다. FAD 메트릭으로 측정한 오디오 품질 측면에서, FADVGG에서는 MusicLM이 뮤버트와 리퓨전보다 더 좋은 점수를 얻었습니다. FADTrill에서 MusicLM은 Mubert와 비슷한 점수(0.44점 대 0.45점)를 기록했으며, Riffusion(0.76점)보다 더 좋은 점수를 받았습니다. 이러한 메트릭에 따르면 MusicLM은 뮤지션과 사운드 디자이너가 미리 녹음한 사운드에 의존하는 Mubert에 필적하는 고품질 음악을 생성할 수 있다는 것을 알 수 있습니다. 입력 텍스트 설명에 대한 충실도 측면에서는 KLD와 MCC가 캡처한 대로 MusicLM이 가장 높은 점수를 획득하여 기준선에 비해 텍스트 설명에서 더 많은 정보를 캡처할 수 있음을 시사합니다.
또한 사람의 듣기 테스트를 통해 텍스트 충실도 평가를 보완합니다. 참가자에게 10초짜리 클립 두 개와 텍스트 캡션이 제시되고, 5점 리커트 척도로 어떤 클립이 캡션의 텍스트를 가장 잘 설명하는지 물어봅니다. 각 소스를 600쌍씩 비교하여 총 1200개의 평가를 수집합니다. 표 1은 총 "승리" 횟수, 즉 인간 평가자가 나란히 비교한 모델에서 얼마나 자주 선호했는지 계산한 결과입니다. MusicLM은 두 기준선 모두에서 분명 선호도가 높았지만, 여전히 기준 음악과 측정 가능한 격차가 존재했습니다. 청취 연구에 대한 자세한 내용은 부록 B에서 확인할 수 있습니다.
MusicLM보다 지상 실측이 선호된 예시를 들어보면 다음과 같은 패턴이 나타납니다. (1) 캡션이 매우 상세하여 5개 이상의 악기를 언급하거나 '바람, 말하는 사람'과 같은 비음악적 측면을 설명하는 경우, (2) 캡션이 재생 중인 오디오의 시간적 순서를 설명하는 경우, (3) MuLan이 잘 포착하지 못하는 네거티브가 사용되는 경우입니다.
전반적으로 다음과 같은 결론을 내렸습니다: (1) 우리의 접근 방식은 뮤직캡스의 풍부한 자유 텍스트 캡션에서 세분화된 정보를 캡처할 수 있으며, (2) KLD 및 MCC 메트릭은 텍스트 설명에 대한 충실도를 정량적으로 측정할 수 있으며, 이는 인간 평가 연구에 부합합니다.
시맨틱 토큰의 중요성. 시맨틱 모델링과 음향 모델링을 분리하는 것의 유용성을 이해하기 위해, 우리는 p(At|A<t, MA)를 모델링하여 MuLan 토큰에서 거친 음향 토큰을 직접 예측하는 트랜스포머 모델을 훈련합니다. FAD 지표는 비슷하지만(0.42 FADTrill 및 4.0 FADVGG), 의미론적 모델링 단계를 제거하면 KLD 및 MCC 점수가 악화되는 것을 관찰할 수 있습니다. 특히 KLD 점수는 1.01에서 1.05로 증가하고, MCC 점수는 0.51에서 0.49로 감소하여 시맨틱 토큰이 텍스트 설명에 대한 준수를 용이하게 한다는 것을 알 수 있습니다. 또한 샘플을 들어봄으로써 이를 정성적으로 확인했습니다. 또한 장기적인 구조의 저하를 관찰했습니다.
오디오 토큰으로 표현된 정보. 의미 토큰과 음향 토큰이 포착한 정보를 연구하기 위해 추가 실험을 수행합니다. 첫 번째 연구에서는 시맨틱 토큰뿐만 아니라 뮤란 텍스트 토큰도 수정하여 음향 모델링 단계를 여러 번 실행하여 여러 샘플을 생성합니다. 이 경우 생성된 음악을 들어보면 샘플은 다양하지만 장르, 리듬 특성(예: 드럼), 주요 멜로디의 일부분을 공유하는 경향이 있음을 관찰할 수 있습니다. 특정 음향 특성(예: 리버브 레벨, 왜곡)이 다르며, 경우에 따라서는 비슷한 음역대를 가진 여러 악기가 다른 예제에서 합성될 수 있습니다. 두 번째 연구에서는 뮤란 텍스트 토큰만 수정하고 의미적 토큰과 음향적 토큰을 모두 생성합니다. 이 경우 멜로디와 리듬 속성 측면에서 훨씬 더 높은 수준의 다양성을 관찰하면서도 텍스트 설명과 일관성을 유지합니다. 이 연구의 샘플은 첨부된 자료에서 확인할 수 있습니다.
암기 분석. 그림 3은 시맨틱 토큰 프롬프트의 길이를 0초에서 10초 사이로 변경했을 때 정확한 일치와 대략적인 일치를 모두 보여줍니다. 10초의 프롬프트를 사용하여 5초의 연속을 생성하는 경우에도 정확한 일치의 비율은 항상 0.2% 미만으로 매우 낮게 유지되는 것을 관찰할 수 있습니다. 그림 3에는 τ = 0.85를 사용한 대략적인 일치에 대한 결과도 포함되어 있습니다. 이 방법론에서는 뮤란 토큰만 입력으로 사용할 때(프롬프트 길이 T = 0)에도 더 많은 수의 일치 항목이 감지되며, 프롬프트의 길이가 길어질수록 일치하는 예시의 비율이 증가하는 것을 확인할 수 있습니다. 이러한 일치 예시를 더 면밀히 검사한 결과, 일치 점수가 가장 낮은 예시는 낮은 수준의 토큰 다양성을 특징으로 하는 시퀀스에 해당한다는 것을 관찰했습니다. 즉, 125개의 의미론적 토큰 샘플의 평균 경험적 엔트로피는 4.6비트인 반면, 대략적인 것으로 감지된
일치 점수가 0.5 미만인 대략적인 일치로 감지된 시퀀스를 고려하면 1.0비트로 떨어집니다. 첨부된 자료에 T = 0으로 얻은 대략적인 일치 샘플이 포함되어 있습니다. 두 번째 단계에서 수행된 음향 모델링은 의미 토큰이 정확히 일치하는 경우에도 생성된 샘플에 더 많은 다양성을 도입한다는 점에 유의하세요.
6. 확장
멜로디 컨디셔닝을 통해 MusicLM은 음악 생성의 다양한 측면을 확장하고 개선하는 중요한 기능을 제공합니다. 이를 통해 MusicLM은 다음과 같이 발전됩니다:
멜로디 컨디셔닝:
MusicLM은 허밍, 노래, 휘파람, 악기 연주 등과 같은 다양한 형태로 제공되는 텍스트 설명과 함께 음악을 생성할 수 있도록 확장됩니다. 이를 위해 목표 멜로디를 포착하기 위한 새로운 컨디셔닝 신호가 도입됩니다. 이를 위해 멜로디는 일치하지만 음향이 다른 오디오 쌍으로 구성된 합성 데이터 세트를 생성합니다. 이를 위해 동일한 음악 클립의 다양한 버전을 사용하며, 허밍 및 노래하는 사람들의 데이터 쌍을 수집합니다. 이러한 데이터 쌍을 사용하여 두 오디오 클립에 동일한 멜로디가 포함될 때 해당 임베딩이 서로 가깝도록 공동 임베딩 모델을 훈련합니다. 이를 통해 멜로디가 MusicLM의 핵심 요소로 통합되며, 멜로디와 텍스트 설명을 고려한 음악 생성이 가능해집니다.
멜로디 임베딩의 활용:
MusicLM에서 멜로디 컨디셔닝을 추출하기 위해 멜로디 임베딩을 RVQ로 정량화하고, 결과 토큰 시퀀스를 MuLan 오디오 토큰 MA로 연결합니다. 이러한 접근 방식을 통해 MusicLM은 입력 오디오 클립에 포함된 멜로디를 따르면서 텍스트 설명을 준수하는 음악을 생성할 수 있습니다. 이를 통해 멜로디의 음악 생성에 미치는 영향이 반영되며, 더 풍부하고 다채로운 음악 생성이 가능해집니다.
긴 생성 및 스토리 모드:
MusicLM은 시간적 차원에서 자동 회귀 방식으로 생성되므로 학습 중에 사용된 것보다 더 긴 시퀀스를 생성할 수 있습니다. 이를 통해 긴 음악 시퀀스를 생성하는 데 필요한 유연성을 제공합니다. 긴 생성을 위해 15초를 접두사로 사용하여 추가적인 시퀀스를 생성하고, 일관성 있는 음악 시퀀스를 유지하기 위해 동일한 텍스트 설명을 조건으로 사용합니다. 이를 통해 MusicLM은 몇 분에 걸쳐 일관된 긴 음악 시퀀스를 생성하고, 스토리 모드라고 알려진 이러한 접근 방식은 텍스트 설명을 변경하면서 부드럽고 의미 있는 전환을 생성합니다.
이러한 확장된 기능과 접근 방식을 통해 MusicLM은 멜로디, 음악 생성, 그리고 긴 시퀀스 생성과 같은 다양한 측면에서 뛰어난 성능을 제공하며, 음악 생성의 창의성과 다양성을 높일 수 있습니다.
7. 결론
텍스트 컨디셔닝 신호에 충실하면서 몇 분 동안 일관되게 24kHz의 고품질 음악을 생성하는 텍스트 컨디셔닝 생성 모델인 MusicLM을 소개합니다. 뮤지션이 직접 큐레이션한 5.5만 개의 음악-텍스트 쌍으로 구성된 고품질 데이터 세트인 MusicCaps에서 이 방법이 기준선보다 우수한 성능을 발휘함을 보여줍니다.
우리 모델이 부정을 잘못 이해하고 텍스트에 설명된 정확한 시간 순서를 준수하지 않는다는 점에서 우리 방법의 일부 한계는 MuLan에서 물려받은 것입니다. 또한 정량적 평가에 대한 추가적인 개선이 필요합니다. 특히 MCC는 뮤란에 의존하기 때문에 MCC 점수는 우리 방식에 유리합니다.
향후 작업은 텍스트 컨디셔닝 및 보컬 품질 개선과 함께 가사 생성에 초점을 맞출 수 있습니다. 또 다른 측면은 도입부, 후렴구, 코러스와 같은 높은 수준의 노래 구조를 모델링하는 것입니다. 더 높은 샘플 속도로 음악을 모델링하는 것은 추가적인 목표입니다.
8. 더 넓은 영향력
MusicLM은 텍스트 설명을 기반으로 고품질의 음악을 생성하는 혁신적인 모델로, 창의적인 음악 작업을 지원하는 도구로서 큰 관심을 받고 있습니다. 그러나 이러한 모델과 이 모델이 다루는 사용 사례에는 몇 가지 잠재적인 위험이 존재합니다. 특히, 생성된 샘플은 모델이 학습한 데이터의 편견을 반영할 수 있으며, 학습 데이터에 나타나지 않는 문화나 음악 스타일에 대한 음악 생성의 적절성에 대한 의문을 불러일으킬 수 있습니다. 이로 인해 문화적 전용에 대한 우려도 발생할 수 있습니다.
유니티는 이러한 사용 사례와 관련된 크리에이티브 콘텐츠의 잠재적 도용 위험을 인지하고 있으며, 책임감 있는 모델 개발 관행을 준수하기 위해 노력하고 있습니다. 특히, 모델의 의미 모델링 단계에 초점을 맞추어 텍스트 기반 Large Language Model(LLM)의 맥락에서 사용되는 방법론을 적용하고 확장하여 암기에 대한 철저한 연구를 수행했습니다. 이 노력을 통해 모델이 학습 데이터에서 보이는 패턴을 극히 일부의 예제만 정확하게 암기할 수 있으며, 대부분의 경우에는 대략적인 일치 여부만 확인할 수 있게 되었습니다.
또한, 음악 생성과 관련된 이러한 위험을 극복하기 위해 향후 더 많은 연구와 개선이 필요하다는 사실을 강조하며, 현재로서는 모델을 출시할 계획이 없음을 밝히고 있습니다. 이러한 책임감 있는 접근 방식은 모델 개발 및 사용 과정에서의 유의미한 도전 과제에 대한 인식을 반영하고 있으며, 모델의 활용에 따른 윤리적 고려사항을 고려하는 데 중요한 역할을 합니다.
https://arxiv.org/abs/2301.11325
