기초통계: 추정
Estimation
파라미터 추정 방법 중 MLE, GMM 등을 알아본다.
MLE(Maximum Likelihood Estimation)
최대우도법(Maximum Likelihood Estimation, MLE)은 주어진 데이터 샘플을 가장 잘 설명하는 모수(파라미터)를 추정하는 통계적 방법이다. 이 방법은 관찰된 데이터가 주어졌을 때, 파라미터 값에 대한 우도(likelihood)를 최대화하는 값을 찾는 것이 목표이다. 여기서 우도란 특정 파라미터 값에서 관측된 데이터 샘플이 나타날 확률의 함수이다.
우도 함수는 확률밀도함수나 확률질량함수를 사용하여 표현된다. 최대우도법에서는 이 우도 함수를 최대화하는 파라미터 값을 찾아내는 것이 중요하다.
수학적으로, 최대우도 추정치를 구하기 위해 우도 함수에 로그를 취하는 경우가 많다. 이는 로그 함수가 단조 증가 함수이기 때문에 우도를 최대화하는 문제와 로그 우도를 최대화하는 문제가 동등하며, 로그를 취하면 곱셈이 덧셈으로 변하여 계산이 용이해진다.
최대우도법은 모델의 파라미터가 주어진 데이터에 얼마나 “잘 맞는지”를 정량화하며, 이를 통해 다양한 통계적 모델링이나 기계 학습 알고리즘에서 널리 사용된다.
데이터 집합 \(X=\{x_1,x_2,\dots,x_n\}\)이 주어지고, 이 데이터가 확률 분포 \(p(x∣\theta)\)에서 생성되었다고 가정할 때, 우도 함수 \(L(\theta)\)는 모든 데이터 포인트의 결합 확률이다.
\[L(\theta) = p(X | \theta) = \prod_{i=1}^n p(x_i | \theta)\]
우도 함수를 최대화하는 \(\theta\)의 값을 찾는 것이 최대우도 추정의 목적이다.
\[\ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log p(x_i | \theta)\]
실제 계산 시 많은 경우 로그를 취한 로그 우도 함수를 사용한다.
정규분포의 MLE 과정을 예로 보자.
\[\ln L(\mu, \sigma^2) = \sum_{i=1}^{n} \ln\left(\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right)\right)\] \[= \sum_{i=1}^{n} \left(-\frac{1}{2}\ln(2\pi\sigma^2) - \frac{(x_i-\mu)^2}{2\sigma^2}\right)\]
우도 최대화 파라미터
\[\frac{\partial}{\partial \mu} \ln L(\mu, \sigma^2) = \sum_{i=1}^{n} \frac{x_i - \mu}{\sigma^2} = 0\]
\(\mu = \frac{1}{n}\sum_{i=1}^{n} x_i\)
\(\frac{\partial}{\partial \sigma^2} \ln L(\mu, \sigma^2) = \sum_{i=1}^{n} \left(-\frac{1}{2\sigma^2} + \frac{(x_i - \mu)^2}{2(\sigma^2)^2}\right) = 0\)
\(\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \mu)^2\)
GMM(Generalized Method of Moments)
GMM(Generalized Method of Moments)은 파라미터 추정 기법 중 하나로, 여러 모멘트 조건을 이용하여 모델 파라미터를 추정한다. 이 방법은 특히 모델의 정확한 확률 분포를 알 수 없거나 복잡한 경우에 유용하게 사용된다.
GMM은 모집단 모멘트와 이에 대응하는 표본 모멘트 사이의 차이를 기반으로 파라미터를 추정한다. 모멘트 조건이라고도 불리는 이 조건들은 기대값 연산자를 사용하여 정의되며, 이론적으로는 모집단 파라미터에 대해 0이 되어야 한다.
파라미터 벡터 \(\theta\)를 추정하고자 할 때, \(g(X,\theta)\)를 모멘트 함수라고 함. GMM은 다음 모멘트 조건을 만족시키려 한다.
\[E[g(X,\theta)]=0\]
추정 과정 - 모멘트 선택: 추정할 파라미터에 대해 유효한 모멘트 조건을 정의한다. - 객관적 함수 구성: 모멘트의 표본 평균을 계산하고, 이를 최소화하는 파라미터를 찾는다. 보통 이 과정에서 가중치 행렬을 사용하여 각각의 모멘트의 중요도를 조절한다. - 최적화: 비선형 최적화 기법을 사용하여 객관적 함수를 최소화한다.
MLE에 비해 모델의 명시적인 확률 분포를 가정할 필요가 없으며, 모멘트 조건만 충족시키면 된다. 또한 이상치에 대한 강건성(robustness)이 더 뛰어나며, 다양한 제약 조건과 모델에 적용할 수 있는 유연성이 있다.
Least Squares Estimation
최소제곱추정의 목적은 데이터와 모델 사이의 차이를 측정하는 오차의 제곱합을 최소화하는 것이다. 이를 통해 파라미터의 최적 값을 추정한다. 일반적으로 선형 회귀 모델에서 많이 사용된다.
\[S = (y - X\beta)^T(y - X\beta)\]
\(S\)를 최소화하는 \(\beta\):
\[\beta = (X^T X)^{-1} X^T y\]
Bayesian Estimation
베이즈 추정(Bayesian Estimation)은 파라미터를 고정된 상수가 아닌, 불확실성을 가진 변수로 간주한다. 이 방법은 사전 분포(prior distribution)와 데이터를 통해 얻은 정보(가능도)를 결합하여 파라미터의 사후 분포(posterior distribution)를 추정한다. 이 사후 분포는 파라미터의 불확실성을 반영한 분포로, 추정치와 그 불확실성을 명시적으로 계산할 수 있다. 이 방법은 데이터가 적을 때 유용하며, 사전 분포에 대한 선택이 결과에 영향을 미칠 수 있다.
베이즈 정리:
\[P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}\]
- \(P(\theta | D)\)는 사후확률, \(P(D|\theta)\)는 가능도, \(P(\theta)\)는 사전확률
실제 계산에서 \(P(D)\)(증거)는 보통 다음과 같이 계산된다:
\[P(D) = \int P(D | \theta) P(\theta) d\theta\]
Maximum A Posteriori Estimation
MAP 추정은 베이즈 추정의 일종으로, 사후확률 \(P(\theta|D)\)를 최대화하는 파라미터 \(\theta\)를 찾는 방법이다. 이는 베이즈 추정에서 사후확률의 모드(mode)를 추정하는 것과 같다.
\[\hat{\theta}_{\text{MAP}} = \arg \max_{\theta} P(\theta | D)\]
베이즈 정리를 적용하면(여기서 \(P(D)\)는 모든 \(\theta\)에 대해 일정하므로 최대화 문제에 영향을 주지 않는다), MAP 추정은 다음과 같이 단순화될 수 있으며, 로그를 취할 수도 있다.
\[\hat{\theta}_{\text{MAP}} = \arg \max_{\theta} P(D | \theta) P(\theta)\]
\[\hat{\theta}_{\text{MAP}} = \arg \max_{\theta} \log P(D | \theta) + \log P(\theta)\]
EM Algorithm
EM 알고리즘(Expectation-Maximization Algorithm)은 불완전한 데이터나 숨겨진 변수가 있는 경우 최대우도나 최대사후확률추정을 효과적으로 계산하기 위해 사용되는 강력한 통계적 알고리즘이다. 이 알고리즘은 반복적인 절차를 통해 모델 파라미터를 추정하며, 특히 데이터가 누락되었거나 숨겨진 변수를 포함하는 복잡한 확률 모델에서 유용하다.
EM 알고리즘은 두 단계, 즉 기대치 단계(Expectation step, E-step)와 최대화 단계(Maximization step, M-step)로 구성되며, 이 두 단계를 반복 수행하여 로그 우도 함수의 국소 최대값에 도달하거나 파라미터 추정이 수렴할 때까지 계속한다.
- E-step (기대치 단계): 이 단계에서는 현재 추정된 파라미터를 바탕으로 숨겨진 데이터의 조건부 분포에 대한 기대치를 계산한다. 즉, 현재의 파라미터 값이 주어졌을 때 각 데이터 포인트가 어떤 구성 요소(클러스터 등)에 속할 확률을 계산하는 것이다.
E-step에서는 현재 추정된 파라미터 \(\theta^{(t)}\)를 사용하여 숨겨진 변수 \(Z\)의 조건부 분포에 대한 기대치를 계산한다.
\[Q(\theta | \theta^{(t)}) = \mathbb{E}_{Z | X, \theta^{(t)}}[\log P(X, Z | \theta)]\]
- M-step (최대화 단계): E-step에서 계산된 기대치를 사용하여 파라미터를 새롭게 추정한다. 이 추정은 로그 우도 함수 또는 로그 사후 확률 함수를 최대화하는 파라미터 값으로 업데이트 된다. 이 단계에서 실제로 파라미터 값들을 조정하여 모델의 설명력을 최대화한다.
\[\theta^{(t+1)} = \arg \max_{\theta} Q(\theta | \theta^{(t)})\]
E와 M 과정을 반복하여, \(\|\theta^{(i)}-\theta^{(i-1)}\|<\varepsilon\) 가 될때 까지 반복한다.
EM은 숨겨진 변수가 있는 복잡한 확률 모델에서도 효율적인 파라미터 추정이 가능하며, 각 반복마다 우도 함수의 값이 증가하므로, 일반적으로 수렴성이 보장된다.
하지만, 국소(local) 최적값에 수렴할 위험이 있어, 초기값에 따라 결과가 달라질 수 있다. 또한 수렴 속도가 느릴 수 있으며, 계산 비용이 높은 경우가 많다.
EM은 Gaussian Mixture Model(GMM) 같은 모델을 사용하여 데이터를 여러 클러스터로 분류할 때, Hidden Markov Model(HMM) 등의 파라미터 추정, 이미지의 특정 구조를 분석하거나 숨겨진 정보를 복원하는데 사용된다.