일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- dimension reduction
- ensemble
- ML
- 앙상블
- 차원 축소
- Machine Learning
- decision tree
- 알고리즘
- 앙상블 학습
- MLE
- LGBM
- Gradient boosting machine
- LDA
- 최대사후확률
- Gradient Boostnig
- multivarite data
- 머신러닝
- Maximum A Posterior
- 차원축소
- 트리분할
- xgboost
- pca
- Regression
- Gbm
- ensemble learning
- LIKELIHOOD
- Gradient Boosting
- classification
- multivarite method
- feature extraction
- Today
- Total
목록pca (3)
코딩하는 눈송이
Factor Analysis Factor Analysis란? 관측된 변수들의 변동성을 잠재적인 요인(latent factor)들로 분해하는 방법 Factor Analysis에서는 변수 간의 상관 관계를 고려하여 변수들을 설명할 수 있는 몇 개의 잠재적인 요인을 찾아 낸다. 잠재 요인(latent factor)은 변수들 간의 공통 변동을 설명하고, 데이터의 차원 축소와 변수 간의 관계를 이해하는 데에 도움을 준다. 잠재 요인을 $z_{i}$로 표현하고, 이를 통해 x를 표현한다면 식은 다음과 같다 $$ x_{i} -\mu_{i} = v_{i1}z_{1} + v_{i2}z_{2} + ... v_{ik}z_{k} + \epsilon_{i} $$ 여기서 latent factor $z_{i}$은 다음 조건을 만족..

PCA란? 대표적인 Feature Extraction 기법 중 하나로, 기존의 데이터(d dimension)의 공분산 행렬에서 가장 큰 분산을 가지는 주성분(principal component)을 추출하여 새로운 좌표계로 변환 및 투영하는 방법이다. 분산이 가장 큰 주성분을 추출함을 통해 차원 축소로 인한 정보 손실(information loss)을 최소화한다. PCA는 데이터 압축, 노이즈 제거, 데이터 전처리 등에 사용할 수 있다. 2차원 데이터에서의 예시 2차원의 데이터 x를 어느 한 direction(w)을 가지는 축에 투영한다고 해보자. 그렇다면 새로운 좌표 z는 다음과 같이 표현될 것이다. $$z = w^{T}x$$ 또한 위에서 설명한 것과 같이 가장 큰 분산을 가지는 축으로 투영을 해야 하므..

차원축소란? 차원축소란 고차원의 데이터를 저차원의 데이터로 변환하는 것을 의미한다. 이를 통해 데이터를 더욱 쉽게 시각화하고 분석할 수 있다. 그렇다면 차원축소를 왜 하는 것인가? 데이터의 차원이 커지게 된다면 학습 데이터의 수가 차원이 수보다 적어져 성능이 저하 되게 됩니다. 차원이 증가하게 된다면 변수가 증가하게 되고, 개별 차원 내에서 학습할 데이터의 수도 적어지게 된다. 아래의 그림처럼 차원이 커지게 된다면 데이터 샘플 간의 거리가 멀이지게 되고, 데이터 분석에서 어려움을 겪게 된다. 이를 '차원의 저주'라고 부른다. 이렇듯 차원의 저주 문제를 해결하고 모델의 복잡도(시간적 복잡도, 공간적 복잡도 - 과도한 parameter 수)를 줄이며 작은 데이터셋에도 잘 fit하는 Simple한 모델을 만들..