일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- MLE
- Maximum A Posterior
- 최대사후확률
- xgboost
- 앙상블
- dimension reduction
- Regression
- Gradient Boostnig
- multivarite method
- feature extraction
- ensemble learning
- 트리분할
- LIKELIHOOD
- Gradient boosting machine
- pca
- 차원축소
- LGBM
- Gbm
- LDA
- 머신러닝
- ensemble
- classification
- Machine Learning
- 알고리즘
- 앙상블 학습
- decision tree
- 차원 축소
- Gradient Boosting
- multivarite data
- ML
- Today
- Total
목록확률론 (4)
코딩하는 눈송이

Bias와 Variance란? bias와 variance에 앞서 $f(x), \hat{f}(x), E[\hat{f}(x)]$에 대해서 알아보자 $f(x)$ : 하나의 독립 변수 x에 대한 real value 값 $\hat{f}(x)$ : 모델에 입력된 input x에 대해서 출력하는 예측값 $E[\hat{f}(x)]$ : $\hat{f}(x)$들의 expected value로, estimated된 값들(예측값)의 평균 자 그러면 이를 바탕으로 Bias에 대해 설명해 보겠습니다. Bias란? 모델을 통해 얻은 예측값과 실제 값의 차이의 expected value(평균값) $$Bias[\hat{f}(x)] = E[\hat{f}(x) - f(x)]$$ Variance란? 예측 값이 평균에서 얼마나 퍼져 있는지..
Bayes' Estimator 베이즈 추정법에서는 모수를 확률변수로 두어 추정을 진행한다. 이는 모숫값 숫자 하나만으로 추정의 신뢰도를 파악할 수 없기 때문이다. 예를 들어 상품 A와 B의 평점을 비교한다고 가정하자. 상품 A에는 리뷰가 good이 2개, bad이 1개가 달려 있고 상품 B에는 리뷰가 good이 60개, bad이 40개 달려 있다고 한다면 전체 리뷰에 대한 good의 비율이 모수라면 상품 A의 모수는 0.67, 상품 B의 모수는 0.60일 것이다. 그렇다면 이 경우, 상품 A가 상품 B보다 무조건 좋은 상품인 것인가? 단순 수치적으로 본다면 그렇겠지만, 이는 리뷰의 수(데이터의 특성)을 반영하지 못한 수치이기에 정확하지 않다고 볼 수 있다. 수학적 접근 Bayes' Estimator은 주..
Prior, Likelihood, Posterior 이 셋은 Bayes Rule을 다룰 때 정의되는 단어로, w가 class, x가 변수라고 정의한다면 Prior(사전확률) : P(w)로, 데이터에 대한 사전 지식이라 설명 가능 예를 들어 도시의 평균 기온에 관해 데이터를 수집하고자 한다면, 지난 10년간의 평균 기온이나 전문가의 의견 등을 prior 분포로 사용할 수 있다. 평균 기온을 $\theta$로 표현한다면 다음과 같이 parametric 확률분포를 따라간다고 할 수 있다.$$P(\theta) \sim N(\mu_{prior}, \sigma^{2}_{prior})$$ Likelihood(가능도) : P(x|w)로, w라는 class를 가진 데이터가 x라는 변수를 가질 확률(확률밀도) 위와 같이 ..

Likelihood란? Likelihood는 관측치가 어떤 특정한 분포(Distribution)에서 나왔을 가능성을 수치화한 것이다. 위의 그림에서 봤을 때 관측치는 파란색 분포보다 주황색 분포에서 나왔을 가능성이 더 높다. 이를 수학적인 방법으로 분포의 특성을 추정하는 방법이 Maximum Likelihood Estimation이다. Maximum Likelihood Estimation(MLE)란? 수적인 데이터 밀도 추정 방법으로써 파라미터 $ \theta = (\theta_1, ... , \theta_m) $으로 구성된 어떤 확률밀도함수 $ P(x|\theta) $에서 관측된 표본 데이터 집합을 $ x = (x_1, ..., x_m) $이라 할 때, 이 표본들에서 파라미터 $ \theta = (\t..