일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- Gbm
- 앙상블 학습
- xgboost
- 알고리즘
- ensemble learning
- ensemble
- LDA
- decision tree
- MLE
- LIKELIHOOD
- classification
- 차원축소
- LGBM
- 차원 축소
- feature extraction
- 앙상블
- 머신러닝
- Gradient Boostnig
- pca
- multivarite data
- ML
- multivarite method
- 최대사후확률
- 트리분할
- dimension reduction
- Gradient Boosting
- Regression
- Gradient boosting machine
- Maximum A Posterior
- Machine Learning
- Today
- Total
목록전체 글 (18)
코딩하는 눈송이

Multivartie(다변량) data란? 다변량 데이터란 여러개의 input과 instance를 가지는 데이터를 말한다. 예를 들어 n개의 input과 d개의 instance를 가지는 data는 d X n matrix 형태를 가진다. Multivarite Parameters Mean(평균) : $ E[X] = \mu = [\mu_{1}, \mu_{2}, ... ,\mu_{d}]^{T} $ Covariance(공분산) : 두 변수 사이 증가 / 감소하려는 경향. 양의 공분산은 두 변수가 함께 증가하거나 감소할 때를 의미하며 음의 공분산은 한 변수가 증가할 때 다른 변수는 감소하는 관계를 나타냄 $$ \sigma_{ij} = Cov(x_{i}, x_{j}) $$ Correlation(상관관계) : 두 변수..

Bias와 Variance란? bias와 variance에 앞서 $f(x), \hat{f}(x), E[\hat{f}(x)]$에 대해서 알아보자 $f(x)$ : 하나의 독립 변수 x에 대한 real value 값 $\hat{f}(x)$ : 모델에 입력된 input x에 대해서 출력하는 예측값 $E[\hat{f}(x)]$ : $\hat{f}(x)$들의 expected value로, estimated된 값들(예측값)의 평균 자 그러면 이를 바탕으로 Bias에 대해 설명해 보겠습니다. Bias란? 모델을 통해 얻은 예측값과 실제 값의 차이의 expected value(평균값) $$Bias[\hat{f}(x)] = E[\hat{f}(x) - f(x)]$$ Variance란? 예측 값이 평균에서 얼마나 퍼져 있는지..

Regression이란? 여러 개의 독립 변수에서 하나의 종속 변수를 유도해 내는 것을 말한다. Linear Regression의 일반식은 다음과 같다. $$ r = f(x) + \varepsilon (X = (x^t, r^t)^N_{t=1}, f(x^t) = w^Tx^t )$$ $x$ : 독립 변수 $r$ : 종속 변수. 즉, 맞추고자 하는 real value $f(x)$ : linear regression을 통해 예측한 예측값(추정량 - estimator). 즉, $y^t$라고 볼 수 있다. 위의 식에서 $x^t$는 t번째 독립 변수로, $x^t = (x^t_{1}, x^t_{2}, ... , x^t_{k})$와 같은 Feature $x^t_{j}$의 결합이다. 또한 $w^T$는 parameter로,..
Bayes' Estimator 베이즈 추정법에서는 모수를 확률변수로 두어 추정을 진행한다. 이는 모숫값 숫자 하나만으로 추정의 신뢰도를 파악할 수 없기 때문이다. 예를 들어 상품 A와 B의 평점을 비교한다고 가정하자. 상품 A에는 리뷰가 good이 2개, bad이 1개가 달려 있고 상품 B에는 리뷰가 good이 60개, bad이 40개 달려 있다고 한다면 전체 리뷰에 대한 good의 비율이 모수라면 상품 A의 모수는 0.67, 상품 B의 모수는 0.60일 것이다. 그렇다면 이 경우, 상품 A가 상품 B보다 무조건 좋은 상품인 것인가? 단순 수치적으로 본다면 그렇겠지만, 이는 리뷰의 수(데이터의 특성)을 반영하지 못한 수치이기에 정확하지 않다고 볼 수 있다. 수학적 접근 Bayes' Estimator은 주..
Prior, Likelihood, Posterior 이 셋은 Bayes Rule을 다룰 때 정의되는 단어로, w가 class, x가 변수라고 정의한다면 Prior(사전확률) : P(w)로, 데이터에 대한 사전 지식이라 설명 가능 예를 들어 도시의 평균 기온에 관해 데이터를 수집하고자 한다면, 지난 10년간의 평균 기온이나 전문가의 의견 등을 prior 분포로 사용할 수 있다. 평균 기온을 $\theta$로 표현한다면 다음과 같이 parametric 확률분포를 따라간다고 할 수 있다.$$P(\theta) \sim N(\mu_{prior}, \sigma^{2}_{prior})$$ Likelihood(가능도) : P(x|w)로, w라는 class를 가진 데이터가 x라는 변수를 가질 확률(확률밀도) 위와 같이 ..