일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Gbm
- feature extraction
- 차원 축소
- 차원축소
- LIKELIHOOD
- dimension reduction
- LGBM
- 알고리즘
- xgboost
- LDA
- 머신러닝
- multivarite method
- 앙상블 학습
- Gradient boosting machine
- 최대사후확률
- Machine Learning
- Regression
- Maximum A Posterior
- ML
- 트리분할
- ensemble learning
- classification
- Gradient Boosting
- decision tree
- MLE
- multivarite data
- ensemble
- 앙상블
- Gradient Boostnig
- pca
- Today
- Total
목록차원축소 (2)
코딩하는 눈송이

PCA란? 대표적인 Feature Extraction 기법 중 하나로, 기존의 데이터(d dimension)의 공분산 행렬에서 가장 큰 분산을 가지는 주성분(principal component)을 추출하여 새로운 좌표계로 변환 및 투영하는 방법이다. 분산이 가장 큰 주성분을 추출함을 통해 차원 축소로 인한 정보 손실(information loss)을 최소화한다. PCA는 데이터 압축, 노이즈 제거, 데이터 전처리 등에 사용할 수 있다. 2차원 데이터에서의 예시 2차원의 데이터 x를 어느 한 direction(w)을 가지는 축에 투영한다고 해보자. 그렇다면 새로운 좌표 z는 다음과 같이 표현될 것이다. z=wTx 또한 위에서 설명한 것과 같이 가장 큰 분산을 가지는 축으로 투영을 해야 하므..

차원축소란? 차원축소란 고차원의 데이터를 저차원의 데이터로 변환하는 것을 의미한다. 이를 통해 데이터를 더욱 쉽게 시각화하고 분석할 수 있다. 그렇다면 차원축소를 왜 하는 것인가? 데이터의 차원이 커지게 된다면 학습 데이터의 수가 차원이 수보다 적어져 성능이 저하 되게 됩니다. 차원이 증가하게 된다면 변수가 증가하게 되고, 개별 차원 내에서 학습할 데이터의 수도 적어지게 된다. 아래의 그림처럼 차원이 커지게 된다면 데이터 샘플 간의 거리가 멀이지게 되고, 데이터 분석에서 어려움을 겪게 된다. 이를 '차원의 저주'라고 부른다. 이렇듯 차원의 저주 문제를 해결하고 모델의 복잡도(시간적 복잡도, 공간적 복잡도 - 과도한 parameter 수)를 줄이며 작은 데이터셋에도 잘 fit하는 Simple한 모델을 만들..