선행연구 조사 - 소스분리

Literatures - Music Source Separation

선행연구

소스분리

오디오 분해

Author

Cheonghyo Cho

Published

February 24, 2023

MIR Literatures - Music Source Separation

이론보다는 실증 연구를 바탕으로 선행연구들을 직접 조사하였다. 또한 음성(speech) 보다는 음악이 포함된 소스 분리 위주의 연구로 조사하였다. 논문은 연도 순으로 정리되어 있으며, 연구에서 쓰이는 데이터, 피쳐, 모형, 성과지표를 함께 게재하였다. 각각 항목에 따라 주로 사용되는 것과 시간에 따른 추세를 확인할 수 있다. 논문(저자,연도)을 클릭하면 해당 논문의 제목이 나와있는 DOI 주소로 이동한다.

선행연구 조사

2022년까지

논문	데이터	피쳐/인풋	모형	성과지표
M. Spiertz and V. Gnann (2009)	EBU speech, Instruments Data	Spectrogram, MFCC	MFCC K-means, NMF	SAR, SDR, SIR, SER
G. Mysore, P. Smaragdis, and B. Raj (2010)	TIMIT speech	Spectrogram	Non-negative Factorial HMM	SAR, SDR, SIR
R. Jaiswal, et, al. (2011)	Orchestral Instruments	Spectrogram	Shifted-NMF	SAR, SDR, SIR
E. Grais, M.U. Sen, and H. Erdogan (2014)	TIMIT speech, Piano data	Spectrogram	DNN, Energy Minimization	SNR, SDR, SIR
J. Le Roux, et al. (2015)	WSJ-0(speech)	Spectrogram	DeepNMF	SDR, SNR
S. Uhlich, F. Giron, and Y. Mitsufuji (2015)	TRIOS (“Brahms”,“Lussier”)	Spectrogram	DNN(FNN)	SAR, SDR, SIR
A.A. Nugraha, A. Liutkus, and E. Vincent (2016)	SISEC 2015 dataset	Spectrogram	DNN + Wiener filter	SAR, SDR, SIR, ISR
A. Jansson, et al. (2017)	Train: Large (original, instrumental) songs , Test:iKala, MedleyDB	Spectrogram	U-Net	SAR, NSDR, SIR
P. Chandna, et al. (2017)	DSD100	Spectrogram	DeepConvSep (CNN-based)	SAR, SDR, SIR, ISR
Y. Luo, et al. (2017)	DSD100-remix, iKala	Spectrogram	Chimera(Deep clustering, Bi-LSTM)	SDR
S. Uhlich, et al. (2017)	DSD100	Spectrogram	BLEND(FNN(feed-forward) + Bi-LSTM)	SDR
N. Takahashi and Y. Mitsufuji (2017)	DSD100	Spectrogram	MM(Multiscale Multiband)DenseNet	SDR
D. Stoller, S. Ewert, and S. Dixon (2018)	MUSDB18	Waveform	Wave-U-Net	SDR statistics
S. Park, T. Kim, K. Lee, and N. Kwak (2018)	DSD100	Spectrogram	Stacked Hourglass Network(CNN-based)	Median SDR
J.Y. Liu and Y.H. Yang (2018)	MUSDB18, DSD100	Spectrogram	ARC(Auto-encoder with Recurrent skip Connections) aka Spect U-Net	SDR
N. Takahashi, N. Goswami, and Y. Mitsufuji (2018)	MUSDB18, DSD100	Spectrogram	MMDenseLSTM	SDR
F. Lluís, J. Pons, and X. Serra (2018)	MUSDB18	Waveform	Wave-Net	SAR, SDR, SIR
J.Y. Liu and Y.H. Yang (2019)	MUSDB18	Spectrogram	Dilated GRU	SDR
F. Stöter, S. Uhlich, A. Liutkus, and Y. Mitsufuji (2019)	MUSDB18, MUSDB18-HQ	Spectrogram	Open-Unmix (based on S. Uhlich, et al. (2017))	SDR
L. Prétet, et al. (2019)	Bean + MUSDB18	Spectrogram	U-Net	SAR, SDR, SIR
Y. Luo and N. Mesgarani (2019)	WSJ0-2MIX (speech)	Waveform	Conv-TasNet	SI-SNR, SDR
A. Défossez, et al.(2019)	MUSDB18	Waveform	Demucs	SDR
R. Hennequin, et al. (2020)	Train: Bean + Extra , Test: MUSDB18	Spectrogram	Spleeter (based on U-Net, L. Prétet, et al. (2019))	SAR, SDR, SIR, ISR
Y. Luo, et al. (2020)	WSJ0-2MIX (speech)	Spectrogram	DP(Dual-Path)RNN	SI-SNR, SDR
E. Nachmani, Y. Adi, and L. Wolf (2020)	MUSDB18, WSJ0-2MIX (speech)	Spectrogram	DPRNN-based	SDR
D. Samuel and A. Ganeshan (2020)	MUSDB18	Waveform + Spectrogram	Meta-TasNet (meta-learning of ConvTasNet)	SI-SNR, SDR
N. Takahashi and Y. Mitsufuji (2020)	MUSDB18	Spectrogram	D3Net (multidilated convolution)	SDR
E. Lancaster, and N. Souviraà-Labastie (2020)	MUSDB18+ Extra 30	Waveform	TasNet	SI-SNR, SDR
W. Choi, et al. (2020)	MUSDB18-HQ	Spectrogram	LaSAFT-GPoCM (Latent Source Attentive Frequency Transformation Gated Point-wise Convolutional Modulation)	SDR
T. Li, et al. (2021)	MUSDB18	Spectrogram	Sams-Net (Sliced Attention-based Neural Network)	SDR
X. Song, et al. (2021)	MUSDB18	Waveform + Spectrogram	CatNet	SDR
Q. Kong, et al. (2021)	MUSDB18	Spectrogram	ResUNet (Residual UNet)	SDR
R. Sawata, et al. (2021)	MUSDB18	Waveform + Spectrogram	CrossNet-UnMiX (X-UMX) (multi-domain loss, combination loss)	SDR
H. Liu, Q. Kong, and J. Liu (2021)	MUSDB18-HQ	Spectrogram	CWS-PResUNet (channel-wise subband phase-aware ResUNet), ByteMSS (CWS-PResUNet+DeMucs)	SDR
A. Défossez (2021)	MUSDB18-HQ	Waveform + Spectrogram	Hybrid Demucs	nSDR
M. Kim, et al. (2021)	MUSDB18	Waveform + Spectrogram	KUIELab-MDX-Net (two-stream neural network)	SDR
Y. Luo and J. Yu (2022)	MUSDB18, MUSDB18-HQ	Spectrogram	Band-Split RNN	uSDR, cSDR
Y. Hu, et al. (2022)	MUSDB18	Waveform + Spectrogram	CDE-HTCN (cross-domain encoder hierarchic temporal convolutional network)	SDR

피쳐

MSS(music source separation) 방법은 사용하는 인풋(input)에 따라 크게 두가지 유형으로 나눌 수 있다. 스펙트로그램(spectrogram) 도메인 그리고 시간(time) 도메인(혹은 파형(waveform) 도메인) 이다. 최근에는 두가지를 합친 모형이 많이 사용된다.

Spectrogram

자세한 설명
Spectrogram은 STFT(short-time Fourier transform)로 계산한 time-frequency 표현이다. 인풋으로는 주로 소스가 믹스된 spectrogram magnitude가 사용된다. 다음 각 소스에 마스킹을 통해 spectrogram magnitude를 추정, I(inverse)STFT를 통해 재건하는 방식을 취하는 것이 일반적이다. STFT의 파라미터는 윈도우 유형, 윈도우 크기, 홉 크기 등이 있다. 연구들에서 윈도우는 주로 “Hann”, “Hamming”을, 윈도우 크기와 홉 크기의 조합은 주로 (1024, 256), (2048, 441), (2048, 512)등이 사용되었다.

import IPython.display as ipd
ipd.Image("img/2017_Uhlich_et_al_Fig1.PNG", width=300)

간단한 DNN 구조에 사용되는 STFT 예시 (Uhlich, et al. (2017) Figure 1)

후처리(post-processing)

다운샘플링(downsampling) (자세한 설명)
- 피쳐를 다운샘플하여 사용한다. 이는 spectrogram 지속시간을 늘리고 계산 비용을 낮출 수 있기에 많은 연구에서 후처리로 사용한다.
Data Augmentation
- 훈련할 데이터세트의 지속시간이 한정적이기 때문에는 훈련과정에 Spectrogram의 Data Augmentation로 input을 강화한다. S. Uhlich, et al. (2017) 이후에 대부분의 연구에서 이를 활용하며 성능이 개선됨을 볼 수 있다. Data Augmentation에는 “adding filters”, “remixing audio recordings”, “swapping left and right channels”, “shifting pitches”, “scaling”, “stretching audio recordings”, “randomly mix audio” 등의 방법이 있다.
Wiener filtering
- A.A. Nugraha, A. Liutkus, and E. Vincent (2016) 이후로 MMDenseLSTM, D3Net, Spleeter, Open Unmix, Demucs 등의 모형에서 마지막 후처리 작업으로 Multi-Channel Wiener filtering을 사용했다. Wiener filtering은 영상처리에서 주로 쓰인 노이즈 감소 기법으로 원본과의 제곱 오차를 최소화하는 필터링이다. 이는 추정 스펙트로그램의 부산물(artifacts)를 제거하는데 유용하다.

Waveform

오디오 데이터를 스펙트로그램으로 변환하지 않고, 그 자체의 시간영역(time-domain)인 waveform을 인풋으로 한다. 처음에는 성능이 낮고 계산 비용도 높았으나, 최근 모형의 발전과 함께 개선되고 있다. WaveU-Net을 시작으로 더 개선된 모형들이 소개되었으며 최근에는 스펙트로그램과 함께 사용된다. 특히 보컬 및 화성악기의 경우 스펙트로그램을 인풋으로 하는 것에 비해 성능이 안 좋다.

모형

NMF (non-negative matrix factorization)

MSS에 딥러닝이 본격적으로 사용되기 전에 주로 사용되던 방법이다. 특히 음악 소스 분리 이전 음성 분리에 많이 사용되었다. 자세한 설명
NMF 기반의 모형 중 Shifted-NMF, Sparse NMF(sparsity factor 추가), Descriminative NMF(discriminative cost function 추가), 혹은 DNN을 혼합한 DeepNMF 같은 모형이 사용되었다.

DNN

딥러닝(deep learning)의 발달로 기존의 비지도(unsupervised) 학습 방법에서 지도(supervised) 학습 방법의 MSS가 추세가 되었다.

FNN (Feed-forward networks)

K개의 hidden ReLU layers와 L-BFGS optimizer를 사용한다.

ipd.Image("img/2017_Uhlich_et_al_Fig2a.PNG", width=400)

FNN 예시 (Uhlich, et al. (2017) Figure 2(a))

BiLSTM (Bidirectional LSTM networks)

왼쪽채널과 오른쪽채널을 달리하여 LSTM을 활용한다.

ipd.Image("img/2017_Uhlich_et_al_Fig2b.PNG", width=400)

BiLSTM 예시 (Uhlich, et al. (2017) Figure 2(b))

위의 FNN, BiLSTM을 같이 활용한 BLEND 모형이 있으며, Open-UnMix 모형의 기초가 된다.

U-Net & Wave-U-Net

U-Net은 메디컬 이미지 처리에 처음 사용된 모형으로 컨볼루션 layer stack으로 이미지를 작고 deep한 표현으로 인코딩하고 해당 인코딩은 업샘플링 layer stack에 의해 이미지의 원래 크기로 디코딩된다. 다음 그림과 같다.
Spleeter 모형의 기초가 된다.

ipd.Image("img/2017_Jansson_fig1.PNG", width=300)

U-Net 구조 (Jansson, et al. (2017) Figure 1)

U-Net 구조를 활용하여 스펙트로그램 대신 시간도메인의 waveform을 그대로 인풋으로 사용한 Wav-U-Net이 있다.

ipd.Image("img/2018_Stoller_Fig1.PNG", width=300)

Wave-U-Net 구조 (Stoller et al (2018) Figure 1)

DeepConvSep (2017)

CNN(convolutional neural networks)에 기반한 모형으로 encoding, decoding 단계로 나뉜다. Encoding stage에서는 지역적(local) 음색 등의 feature를 캡쳐하는 Vertical Convolution Layer와 이를 시간적으로 발전시키는 Horizontal Covolutional Layer, 그리고 Fully-connected ReLU Layer로 이를 차원축소시킨다. Decoding stage에서는 이를 반대로 deconvolution 한다. AdaDelta 알고리즘을 사용해 파라미터를 최적화 한다.
CNN 기반 모형은 기존의 fully-connected 방식보다 적은 파라미터를 가지며 빠르고 효율적이다.

ipd.Image("img/2017_Chandna_et_al_Fig2.PNG", width=300)

DeepConvSep 구조 (Chandna, et al. (2017) Figure 2)

MMDenseNet (2017) & MMDenseLSTM (2018)

multiscale multiband densely connected convolutional networks의 줄임말이다. CNN의 변형이다.
DenseNet은 이미지 처리에서 주로 활용되었으며, 이전 레이어의 아웃풋 feature map을 후속 레이어에 대한 인풋으로 연결하는 CNN이다. 반복 연결을 통해 레이어 간 상호 작용을 학습하고 이전 레이어에서 계산된 피쳐를 재사용한다. 이 속성은 오디오 소스 분리의 목표가 간섭음에 묻힌 악기 스펙트로그램을 추정하는 것이기에 추정된 개별 소스의 스펙트로그램이 혼합 또는 이전의 레이어 아웃풋을 참조할 수 있어 유용하다.
하지만 계산 비용이 크기에 Multi-scale로 다운샘플-업샘플 과정을 만들어 이를 방지한다. 또한 multi-band로 주파수 밴드를 나누어 특정 분포에 커널이 집중할 수 있게 한다. 이를 Multi-scale Multiband DenseNet이라고 한다.

ipd.display(ipd.Image("img/2017_Takahashi_Fig1.PNG", width=300))
ipd.display(ipd.Image("img/2017_Takahashi_Fig2.PNG", width=300))
ipd.display(ipd.Image("img/2017_Takahashi_Fig3.PNG", width=300))

위에서부터 DenseNet의 dense block, Multi-scale DenseNet, Multi-band MDenseNet (Takahashi and Mitsufuji (2017) Figure 1,2,3)

위의 MMDenseNet에 LSTM을 혼합한 모형으로 MMDenseLSTM이 있다. DenseNet의 dense block과 LSTM block을 같이 사용하는 방법이다.

ipd.display(ipd.Image("img/2018_Takahashi_etal_fig2.PNG", width=300))
ipd.display(ipd.Image("img/2018_Takahashi_etal_fig3.PNG", width=300))

위에서부터 DenseLSTM의 dense&LSTM block, MMDenseLSTM (Takahashi et al (2018) Figure 2,3)

ARC (2018) & Dilated GRU (2019)

ARC는 Auto-encoder with Recurrent skip Connections의 줄임말이다. encoder-decoder구조의 skip connection은 gated recurrent unit (GRU) layers로 처리한다.

ipd.display(ipd.Image("img/2018_Liu_Yang_Fig1.PNG", width=300))

ARC 구조 (Liu and Yang (2018) Figure 1)

GRU는 길이가 긴 오디오 시퀀스에 비효율적일 수 있다. 따라서 Dilated GRU를 사용한다. Dilated GRU는 이전 단계가 아닌 고정된 k-단계 이전에서 정보를 받는다. 이를 통해 GRU 장치는 반복 단계가 적고 부분적으로 병렬로 실행할 수 있으므로 더 빠르게 실행될 수 있다.

ipd.display(ipd.Image("img/2019_Liu_Yang_Fig2a.PNG", width=300))
ipd.display(ipd.Image("img/2019_Liu_Yang_Fig4.PNG", width=200))

위에서부터 D2 Block(Dilated GRU convolution block), 제안 모형 (Liu and Yang (2019) Figure 2b,4)

Stacked-Hourglass-Networks (2018)

추정된 소스 스펙트로그램 마스크를 stacked hourglass 모듈을 걸쳐 refine한다. hourglass 모듈은 저해상도 피쳐 맵의 전체적인 피쳐과 고해상도 피쳐 맵의 세부 정보를 모두 캡처한다.

ipd.display(ipd.Image("img/2018_Park_fig1.PNG", width=250))
ipd.display(ipd.Image("img/2018_Park_fig2.PNG", width=250))

위에서부터 hourglass 모듈, Stacked-Hourglass-Networks (Park et al (2018) Figure 1,2)

ConvTasNet (2019) & MetaTasNet (2020)

ConvTasNet은 fully-convolutional time-domain audio separation network의 줄임말이다. Waveform을 인풋으로 바로 사용하는 모형이다.
encoder 모듈을 사용하여 mixed waveform의 짧은 세그먼트를 중간의 피쳐 공간에서 표현을 변환하고 이를 각 시간 단계에 각 소스에 대한 곱셈 함수(마스크)를 추정하는 데 사용된다. 그런 다음 각 소스 파형은 decoder 모듈을 사용하여 마스킹된 encoder 피쳐를 변환하여 재구성된다.

ipd.display(ipd.Image("img/2019_Luo_Fig1a.PNG", width=300))
ipd.display(ipd.Image("img/2019_Luo_Fig2.PNG", width=300))

ConvTasNet구조 (Luo and Mesgarani (2019) Figure 1a, 2)

ConvTasNet을 기반으로 하여 extractot parameter를 예측하는 generator로 악기의 정보를 추가한다. 이를 meta-learning이라고 한다. 또한 encoder단계에 time-domain의 1D convolution과 spectrogram-domian의 피쳐를 같이 사용한다. 이 모형은 Meta-TasNet이다.

ipd.display(ipd.Image("img/2020_Samuel_Fig1.PNG", width=300))
ipd.display(ipd.Image("img/2020_Samuel_Fig2.PNG", width=200))

Meta-TasNet구조, endoder구조 (Samuel and Ganeshan (2020) Figure 1, 2)

Demucs (2019) & Hybrid Demucs (2021)

Demucs는 Conv-Tasnet이 waveform을 input으로 사용하는 구조를 차용하는 대신 노래의 전체부분을 사용하고, 중간은 U-Net 구조를 따르며, Bi-LSTM을 활용한다.

ipd.display(ipd.Image("img/2019_Defossez_Fig2a.PNG", width=200))
ipd.display(ipd.Image("img/2019_Defossez_Fig2b.PNG", width=200))

Demucs 구조 (Defossez et al. (2019) Figure 2)

2021년에 기존 Demucs 모형에 인풋으로 spectrogram을 추가하여 두가지 도메인(time, sprectrogram)을 혼합하는 Hybrid Demucs가 제시되었다. 더 나은 성능을 보인다.

ipd.display(ipd.Image("img/2021_Defossez_Fig1.PNG", width=400))

Hybrid-Demucs 구조 (Defossez (2021) Figure 1)

D3Net (2020)

DenseNet에 기반한 모형으로 multi-dilated 컨볼루션을 사용하여 기존 dilated 컨볼루션을 사용할 때의 에일리어싱 문제를 완화한다. D3Net은 서로 다른 해상도를 동시에 모델링하기 위해 단일 레이어에 서로 다른 dilation 계수를 갖는 새로운 multi-dilated 컨볼루션을 포함한다.

ipd.display(ipd.Image("img/2020_Takahashi_Fig2b.PNG", width=300))

Multi-dilated convolution (Takahashi and Mitsufugi (2020) Figure 2(b))

LaSAFT GPoCM (2020)

악기에 따른 주파수 패턴을 캡처하는 attetion 기반의 새로운 주파수 변환 블록인 “Latent Source Attentive Frequency Transformation” (LaSAFT)을 사용하며,
Feature-wise Linear Modulation(FiLM)의 확장 버전인 Gated Point-wise Convolutional Modulation(GPoCM)을 사용해 조건부 소스 분리를 위한 내부 피쳐를 조정한다.
기본 구조는 Conditioned U-Net을 따른다.

ipd.display(ipd.Image("img/2020_Choi_Fig1.PNG", width=300))
ipd.display(ipd.Image("img/2020_Choi_Fig2.PNG", width=300))
ipd.display(ipd.Image("img/2020_Choi_Fig3.PNG", width=300))

위에서부터 Conditioned U-Net 구조, LaSAFT, GPoCM (Choi et al. (2020) Figure 1, 2, 3)

Sams-Net (2021)

Sliced Attention based neural network의 줄임말로, multi-head attention 메커니즘으로 spectral 피쳐의 상호 작용을 가능하게 하고, 더 쉬운 병렬 컴퓨팅을 달성하며 각각 LSTM 및 CNN에 비해 수용 필드가 더 크다. 또한 attention 적용전에 스펙트로그램의 slicing을 적용한다. slicing을 하는 이유는 노래의 한 부분이 같은 노래인데도 불구하고 관련 없을 수 있기에 동일한 음악 스타일의 작은 부분에 집중할 수 있는 메커니즘을 제공하기 위해서이다.

ipd.display(ipd.Image("img/2021_Li_FIg1.PNG", width=200))
ipd.display(ipd.Image("img/2021_Li_FIg3.PNG", width=200))

Sams-Net 구조와 sliced attention (Li et al. (2021) Figure 2, 3)

X-UnMix (2021)

기존의 Open-UnMix의 변형된 버전의 모형이다.
MDL(multi-domain loss)을 사용하여 오디오 신호의 주파수 및 시간 영역 표현을 활용하며, CrossNet 구조를 도입하여 소스들 간의 관계를 공동으로 고려한다. 또한 새로운 combination loss(CL)를 사용하여 소스 추정의 조합을 고려한다.

ipd.display(ipd.Image("img/2021_Sawata_Fig3b.PNG", width=200))

X-UMX 구조 (Sawata et al. (2021) Figure 3(b))

ResUNet (2021) & CWS-PResUNet (2021)

U-Net에 residual encoder blocks (REB)과 residual decoder blocks (RDB)을 추가하여 깊이를 증가시킨 모형이다.

ipd.display(ipd.Image("img/2021_Kong_Fig3.PNG", width=200))

Residual Blocks (Kong et al. (2021) Figure 3)

Res-U-Net을 기반으로 한 CWS-PResUNet(channel-wise subband phase-aware ResUNet)이 있다. 신호를 subband로 분해하여 스펙트로그램에서 불필요한 전역 가중치를 제한하고 계산 비용을 줄인다.

ipd.display(ipd.Image("img/2021_Liu_Fig2.PNG", width=400))

PResUNet (Liu et al. (2021) Figure 2)

CDE-HTCN (2022)

ConvTasNet을 기반으로 spectrogram과 waveform domain을 모두 인풋으로 하여 상호 정보를 코딩할 수 있게 하는 CDE(cross-domain encoder)를 사용하며, HTCN(hierarchic temporal convolutional network)를 활용한다. HTCN을 사용하면 긴 시리즈의 종속성을 효과적으로 학습할 수 있다. 또한 HTCN에 적용할 FCU(Feature Calibration Unit)를 설계하고 훈련 단계에서 multi-stage의 훈련 전략을 채택한다.

ipd.display(ipd.Image("img/2022_Hu_Fig1.PNG", width=300))
ipd.display(ipd.Image("img/2022_Hu_Fig2.PNG", width=300))
ipd.display(ipd.Image("img/2022_Hu_Fig3b.PNG", width=200))

위에서부터 CDE-HTCN 구조, CDE 구조, HTCN(with FCU) 구조 (Hu et al. (2022) Figure 1, 2, 3(b))

모형 성능

선행연구 조사의 가장 최근 연구인 CDE-HTCN 모형의 성과를 다른 모형과 비교한 표가 아래에 있다. 이를 통해 2018년 이후 음악 소스 분리(MSS)에 가장 많이 사용되는 데이터세트인 MUSDB18에 대한 주요 실험 모형들의 성과를 확인하고 비교할 수 있다.

ipd.display(ipd.Image("img/SDRs_models.PNG", width=600))

Hu et al. (2022) Table II

데이터

DSD100: MUSDB18이 등장하기 전 2016년 SiSEC Mus 2016 컴피티션 이후 많이 사용된 음악 데이터 세트이다. 각 트랙은 보컬, 드럼, 베이스, 기타(others)로 분류되며 주석이 달려있다. 총 100곡으로 이루어져 있다.
MUSDB18: 2018년 SiSEC Mus 2018 컴피티션 이후 연구에서 가장 많이 사용되는 음악 데이터 세트이다. 각 트랙은 보컬, 드럼, 베이스, 기타(others)로 분류되며 주석이 달려있다. 총 100곡으로 이루어져 있으며, 제시된 훈련 세트는 86개, 검증 세트는 14개, 테스트 세트는 50개이다. 하지만 연구에 따라 다르게 설정하며, 훈련을 다른 데이터를 추가하는 등 사용하는 방법은 다 다르다.

기타 사항

인풋으로 스펙트로그램 위주로 사용하다가 시간도메인의 파형을 사용하는 모형이 생기며, 이를 혼합하여 사용하게 되는 흐름을 볼 수 있다.
NMF 모형에서 시작하여 딥러닝의 발전으로 CNN기반, RNN기반의 모형이 생겨났으며, 이미지 등의 분야에서 쓰이던 U-Net, DenseNet, TasNet 등의 구조를 기반으로 응용된 모형들이 생겨났다. CNN과 함께 LSTM을 활용하고, Attention 기반의 모형을 활용하는 등의 발전 흐름도 볼 수 있다.
추가로 논문 저자들을 보면 어느 회사의 연구원들을 위주로 모형을 발달시켜가는 경우를 볼 수 있다. 유명한 오픈소스 모형인 Open-Unmix의 경우 Sony, Demucs는 Facebook, Spleeter는 Deezer의 연구원들이 참여하였다.