일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- LIKELIHOOD
- 머신러닝
- Machine Learning
- dimension reduction
- ML
- LDA
- decision tree
- Gradient boosting machine
- 최대사후확률
- Maximum A Posterior
- 트리분할
- multivarite data
- 차원축소
- Gbm
- xgboost
- Regression
- Gradient Boostnig
- ensemble learning
- 앙상블 학습
- feature extraction
- multivarite method
- 앙상블
- pca
- LGBM
- MLE
- Gradient Boosting
- 알고리즘
- classification
- 차원 축소
- ensemble
- Today
- Total
목록전체 글 (18)
코딩하는 눈송이

Ensemble Learning이란? 앙상블(Ensemble) 학습이란 여러 개의 개별적인 기계 학습 모델을 결합하여 보다 정확하고 안정적인 예측을 수행하는 기법이다. 개별 모델이 각자의 예측을 내놓고, 이 예측들이 결합하여 최종 예측을 만들어낸다.여기서 각 개별 학습 모델을 weak learner이라 표현하고, 모든 weak learner들이 결합된 모델을 strong learner이라고 한다. 사용되는 단일 모델로는 Decision Tree, SVM, Deep learning model 등 모든 종류의 학습 모델이 사용될 수 있다. 앙상블 학습의 장점은 여러 가지가 있는데, 단일 모델과 비교하여 설명해보자면 다음과 같다 높은 예측 성능 : 개별 모델들의 약점을 보완하고, 강점을 강화함으로써 예측 결과..
Factor Analysis Factor Analysis란? 관측된 변수들의 변동성을 잠재적인 요인(latent factor)들로 분해하는 방법 Factor Analysis에서는 변수 간의 상관 관계를 고려하여 변수들을 설명할 수 있는 몇 개의 잠재적인 요인을 찾아 낸다. 잠재 요인(latent factor)은 변수들 간의 공통 변동을 설명하고, 데이터의 차원 축소와 변수 간의 관계를 이해하는 데에 도움을 준다. 잠재 요인을 zi로 표현하고, 이를 통해 x를 표현한다면 식은 다음과 같다 xi−μi=vi1z1+vi2z2+...vikzk+ϵi 여기서 latent factor zi은 다음 조건을 만족..

Fisher's Discriminant Ratio Fisher's Discriminant Ratio(J(w))는 클래스 간 분산과 클래스 내 분산의 비율로 정의되는 식이다. 수식 형태로 써보면 Fisher′sDiscriminantRatio=Sb(Between−ClassScatter)Sw(Within−ClassScatter) 클래스 간 분산(Between-Class Scatter) : 클래스 간 분산은 각 클래스의 평균 벡터와 전체 데이터의 평균 벡터 사이 차이를 계산한 뒤 클래스에 속하는 데이터의 갯수를 가중치로 곱해서 모든 클래스에 더한 값이다. $$ S_{b} = \sum^{K}_{i = 1}N_{i}(m_{i} - m)(m_{i} - m)^{T},..

PCA란? 대표적인 Feature Extraction 기법 중 하나로, 기존의 데이터(d dimension)의 공분산 행렬에서 가장 큰 분산을 가지는 주성분(principal component)을 추출하여 새로운 좌표계로 변환 및 투영하는 방법이다. 분산이 가장 큰 주성분을 추출함을 통해 차원 축소로 인한 정보 손실(information loss)을 최소화한다. PCA는 데이터 압축, 노이즈 제거, 데이터 전처리 등에 사용할 수 있다. 2차원 데이터에서의 예시 2차원의 데이터 x를 어느 한 direction(w)을 가지는 축에 투영한다고 해보자. 그렇다면 새로운 좌표 z는 다음과 같이 표현될 것이다. z=wTx 또한 위에서 설명한 것과 같이 가장 큰 분산을 가지는 축으로 투영을 해야 하므..

차원축소란? 차원축소란 고차원의 데이터를 저차원의 데이터로 변환하는 것을 의미한다. 이를 통해 데이터를 더욱 쉽게 시각화하고 분석할 수 있다. 그렇다면 차원축소를 왜 하는 것인가? 데이터의 차원이 커지게 된다면 학습 데이터의 수가 차원이 수보다 적어져 성능이 저하 되게 됩니다. 차원이 증가하게 된다면 변수가 증가하게 되고, 개별 차원 내에서 학습할 데이터의 수도 적어지게 된다. 아래의 그림처럼 차원이 커지게 된다면 데이터 샘플 간의 거리가 멀이지게 되고, 데이터 분석에서 어려움을 겪게 된다. 이를 '차원의 저주'라고 부른다. 이렇듯 차원의 저주 문제를 해결하고 모델의 복잡도(시간적 복잡도, 공간적 복잡도 - 과도한 parameter 수)를 줄이며 작은 데이터셋에도 잘 fit하는 Simple한 모델을 만들..