일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 차원 축소
- Gradient Boostnig
- 앙상블
- Regression
- LGBM
- xgboost
- ensemble
- feature extraction
- LDA
- Machine Learning
- Gradient Boosting
- 트리분할
- 앙상블 학습
- Gradient boosting machine
- classification
- multivarite data
- Maximum A Posterior
- LIKELIHOOD
- 최대사후확률
- multivarite method
- 차원축소
- ensemble learning
- dimension reduction
- pca
- MLE
- ML
- decision tree
- Gbm
- 알고리즘
- 머신러닝
- Today
- Total
코딩하는 눈송이
차원 축소 본문
차원축소란?
차원축소란 고차원의 데이터를 저차원의 데이터로 변환하는 것을 의미한다. 이를 통해 데이터를 더욱 쉽게 시각화하고 분석할 수 있다.
그렇다면 차원축소를 왜 하는 것인가? 데이터의 차원이 커지게 된다면 학습 데이터의 수가 차원이 수보다 적어져 성능이 저하 되게 됩니다. 차원이 증가하게 된다면 변수가 증가하게 되고, 개별 차원 내에서 학습할 데이터의 수도 적어지게 된다.
아래의 그림처럼 차원이 커지게 된다면 데이터 샘플 간의 거리가 멀이지게 되고, 데이터 분석에서 어려움을 겪게 된다. 이를 '차원의 저주'라고 부른다.
이렇듯 차원의 저주 문제를 해결하고 모델의 복잡도(시간적 복잡도, 공간적 복잡도 - 과도한 parameter 수)를 줄이며 작은 데이터셋에도 잘 fit하는 Simple한 모델을 만들기 위해 차원 축소를 진행한다.
차원 축소의 종류
차원 축소의 종류는 크게 두가지로 나눌 수 있다.
1. Subset Selection(변수 선택) : 원래의 변수 중에서 가장 중요한, 즉 모델의 정확도에 기여할 수 있는 변수를 선택하여 고차원의 데이터를 저차원으로 변환하는 방법이다.
변수를 선택하는 방법도 두가지로 나뉘는데 크게 Forward Search와 Backward Search로 나뉜다.
- Forward Search : 0개의 feature에서부터 best new feature을 하나씩 추가하는 방식
- Empty Feature Set인 F를 정의한다.
- 각 iteration마다 $argmin E(F \cup x_{j})$인 new feature $x_{j}$를 찾는다.
- $E(F \cup x_{j}) < E(F)$ 혹은 $E(F) + \epsilon$을 만족하는 feature을 F에 포함시킨다.
- Backward Search : 모든 feature set에서부터 필요 없는 feature을 하나씩 빼는 방식
2. Feature Extraction(변수 추출) : 원래의 변수들을 선형 결합하여 새로운 변수를 만들어 고차원의 데이터를 저차원을 변환하는 방법이다.
이를 통해 기존 d개의 feature을 기반으로 새로운 k개의 feature(차원)이 만들어지며, 데이터는 k차원의 공간에 투영되게 된다.(k<d)
Feature Extraction 방법론
https://winterflake.tistory.com/13
PCA(Principal Component Analysis)
PCA란? 대표적인 Feature Extraction 기법 중 하나로, 기존의 데이터(d dimension)의 공분산 행렬에서 가장 큰 분산을 가지는 주성분(principal component)을 추출하여 새로운 좌표계로 변환 및 투영하는 방법이
winterflake.tistory.com
https://winterflake.tistory.com/14
LDA(Linear Discriminant Analysis)
LDA란? LDA(Linear Discriminant Analysis)란 분류(Classification) 문제에서 사용되는 차원 축소 방법이다. 고차원의 데이터를 저차원의 공간에 투영한다는 것은 PCA와 유사하지만, class 정보를 활용하여 차원을
winterflake.tistory.com
https://winterflake.tistory.com/15
Factor Analysis
Factor Analysis Factor Analysis란? 관측된 변수들의 변동성을 잠재적인 요인(latent factor)들로 분해하는 방법 Factor Analysis에서는 변수 간의 상관 관계를 고려하여 변수들을 설명할 수 있는 몇 개의 잠재적
winterflake.tistory.com
'선형대수' 카테고리의 다른 글
Factor Analysis (1) | 2023.06.06 |
---|---|
LDA(Linear Discriminant Analysis) (0) | 2023.04.16 |
PCA(Principal Component Analysis) (0) | 2023.04.16 |
Multivarite Methods(다변량 분석) (0) | 2023.04.15 |
Regression (0) | 2023.02.13 |