코딩하는 눈송이

Bayes' Estimator 본문

확률론

Bayes' Estimator

monapanda 2023. 1. 25. 17:30

Bayes' Estimator

베이즈 추정법에서는 모수를 확률변수로 두어 추정을 진행한다.

이는 모숫값 숫자 하나만으로 추정의 신뢰도를 파악할 수 없기 때문이다.

 

예를 들어 상품 A와 B의 평점을 비교한다고 가정하자.

 

상품 A에는 리뷰가 good이 2개, bad이 1개가 달려 있고

상품 B에는 리뷰가 good이 60개, bad이 40개 달려 있다고 한다면

전체 리뷰에 대한 good의 비율이 모수라면 상품 A의 모수는 0.67, 상품 B의 모수는 0.60일 것이다.

 

그렇다면 이 경우, 상품 A가 상품 B보다 무조건 좋은 상품인 것인가?

단순 수치적으로 본다면 그렇겠지만, 이는 리뷰의 수(데이터의 특성)을 반영하지 못한 수치이기에 정확하지 않다고 볼 수 있다.

 

 

수학적 접근

Bayes' Estimator은 주어진 확률 변수 $ {X_{1}, X_{2}, ... , X_{N}} $으로 모수의 조건부 확률분포($ P(\mu|X_{1}, X_{2}, ... , X_{N}) $) 추정하는 것이다.

 

$$ P(\mu|X_{1}, X_{2}, ... , X_{N}) = \cfrac{P(X_{1}, X_{2}, ... , X_{N}|\mu)P(\mu)}{P(X_{1}, X_{2}, ... , X_{N})} $$

 

  1. $P(\mu)$ : prior 즉, 모수의 사전 분포이며 추정 전에 알고 있는 모수의 분포를 의미한다.
  2. $P(\mu|X_{1}, X_{2}, ... , X_{N})$ : posterior 즉, 모수의 사후 분포이며 수학적으로 $X_{1}, X_{2}, ... , X_{N}$가 주어진 상태에서 모수의 조건부 확률 분포인 동시에 우리가 구해야 하는 값
  3. $P(X_{1}, X_{2}, ... , X_{N}|\mu)$ : likelihood이며 모수가 주어진 상태에서 데이터가 관측될 확률을 말한다.

이 때 구해지는 parameter의 분포는 2가지로 표현된다.

 

  • 모수적 표현 : 다른 확률분포를 사용하여 추정된 모수의 분포를 나타낸다. -> 여기서 모수 분포를 표현하는 확률분포함수의 모수를 hyper parameter이라고 한다.
  • 비모수적 표현 : 모수의 분포와 동일한 분포를 가지는 표본 집합의 히스토그램이나 최빈값으로 분포를 표현한다.

 

Example : 베르누이 분포에서의 모수 추정

이산 확률 분포인 베르누이 분포에서 모수 $\mu$를 추정하자.

 

$\mu$는 0 ~ 1 사이의 값을 가질 것이므로 다음과 같은 prior 분포를 가진다고 하자.(베타 분포)

 

  • 베타 분포 : a, b라는 두 모수를 가지며 0과 1 사이의 값을 가진다. -> a, b 값의 조절을 통해 다양한 베타 분포를 가질 수 있으며 베르누이분포를 베이지안 추정한 모수 $\mu$의 추정 결과이다.

 

$$ P(\mu) = \mu^{a-1}(1-\mu)^{b-1} (a = 1, b = 1) $$

 

데이터는 각각 독립된 값이므로, likelihood의 경우 이를 모두 곱하는 값이 된다.

 

$$ P(X_{1}, X_{2}, ... , X_{N}|\mu) = \prod^{N}_{1} \mu^{X_{i}}(1-\mu)^{X_{i}} $$

 

베이즈 정리를 활용하여 posterior(사후) 확률분포를 계산해 보면 다음과 같다

 

$$ P(\mu|X_{1}, X_{2}, ... , X_{N}) = P(X_{1}, X_{2}, ... , X_{N}|\mu)P(\mu) $$

$$= \prod^{N}_{1} \mu^{X_{i}}(1-\mu)^{(1-X_{i})} \mu^{a-1}(1-\mu)^{b-1}$$

$$=  \mu^{\sum^{N}_{1}X_{i}+a-1}(1-\mu)^{\sum^{N}_{1}(1-X_{i})+b-1} $$

$$= \mu^{N_{1} + a - 1}(1-\mu)^{N_{0} + b - 1}$$

$$= \mu^{\acute{a} - 1}(1-\mu)^{\acute{b} - 1} $$

 

그렇다면 새로 갱신된 hyper parameter은

 

$$ \acute{a} = N_{1} + a, \acute{b} = N_{0} + b $$

 

가 된다.

 

 

다중 class를 가진 데이터에서의 Bayes' Estimation

클래스 갯수가 K인 데이터의 모수 $\mu$를 베이즈 추정법으로 추정하자.

 

해당 분포는 각 원소가 모두 0부터 1 사이의 값을 가지는 확률 분포를 가진다고 가정한다.

 

$$ P(\mu) = \prod^{K}_{k=1}\mu^{\alpha_{k}-1}_{k} (\alpha_{k} = 1 \text{ for all } k) $$

 

데이터는 모두 독립적인 분포의 곱이므로 다음과 같은 다항 분포를 만족한다.

 

$$ P(X_{1}, X_{2}, ... , X_{N}|\mu) = \prod^{N}_{i=1}\prod^{K}_{k=1}\mu^{x_{i,k}}_{k} $$

 

베이즈 정리를 이용해서 posterior 분포를 구하여 갱신된 하이퍼모수 $\acute{\alpha_{i}}$룰 구하면,

 

$$ P(\mu|X_{1}, X_{2}, ... , X_{N}) = P(X_{1}, X_{2}, ... , X_{N}|\mu)P(\mu) $$

$$= \prod^{N}_{i=1}\prod^{K}_{k=1}\mu^{x_{i,k}}_{k} \prod^{K}_{k=1}\mu^{\alpha_{k}-1}_{k} $$

$$= \prod^{K}_{k=1}\mu^{\sum^{N}_{i=1}x_{i,k}+\alpha_{k}-1} = \prod^{K}_{k=1}\mu^{N_{k}+\alpha_{k}-1} $$

$$= \prod^{K}_{k=1}\mu^{\acute{\alpha_{i}}-1} $$

 

이 경우에는 계산된 하이퍼모수 $\acute{\alpha_{i}}$는

 

$$ \acute{\alpha_{i}} = N_{k} + \alpha_{k} $$

 

참조

https://datascienceschool.net/02%20mathematics/09.03%20%EB%B2%A0%EC%9D%B4%EC%A6%88%20%EC%B6%94%EC%A0%95%EB%B2%95.html

 

9.3 베이즈 추정법 — 데이터 사이언스 스쿨

.ipynb .pdf to have style consistency -->

datascienceschool.net

https://datascienceschool.net/02%20mathematics/08.07%20%EB%B2%A0%ED%83%80%EB%B6%84%ED%8F%AC%2C%20%EA%B0%90%EB%A7%88%EB%B6%84%ED%8F%AC%2C%20%EB%94%94%EB%A6%AC%ED%81%B4%EB%A0%88%20%EB%B6%84%ED%8F%AC.html

 

8.7 베타분포, 감마분포, 디리클레분포 — 데이터 사이언스 스쿨

.ipynb .pdf to have style consistency -->

datascienceschool.net

 

'확률론' 카테고리의 다른 글

Bias & Variance  (0) 2023.02.18
Maximum A Posterior(MAP)  (0) 2023.01.24
Maximum Likelihood Estimation(MLE)  (0) 2023.01.10
Comments