일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- decision tree
- 차원축소
- multivarite method
- 알고리즘
- LGBM
- LDA
- Gradient boosting machine
- 트리분할
- MLE
- classification
- pca
- LIKELIHOOD
- Machine Learning
- 차원 축소
- Gradient Boostnig
- Maximum A Posterior
- Gradient Boosting
- 앙상블 학습
- 머신러닝
- ensemble learning
- xgboost
- multivarite data
- ensemble
- Gbm
- Regression
- feature extraction
- 앙상블
- dimension reduction
- 최대사후확률
- ML
- Today
- Total
목록전체 글 (18)
코딩하는 눈송이

LGBM의 탄생 배경 지난 포스팅에서 GBM에 관한 대표적인 알고리즘 XGBoost에 대해서 알아봤다. XGBoost란? 기존 Gradient Boosting 방법론을 사용해서 Decision Tree로 학습을 진행하지만, Loss function에 정규화 항을 더해 모델(트리)의 복잡도를 조절해 overfitting을 방지하고 병렬 학습이 가능하게 만드는 등의 최적화 과정이 들어간 Gradient Boosting Machine 이렇듯 Decision Tree를 만드는 과정에서 Gradient Boosting을 활용하는 방법을 Gradient Boosting Decision Tree(GBDT)라 한다. GBDT Boosting : Boosting 기법을 활용하며 이전 단계에서 학습하지 못한 부분을 집중적..

XGBoost란? 앞서 Gradient Boosting에 대해서 설명했다. Gradient Boosting이란, 이전 모델에서 나온 결과값의 Gradient 값(psuedo residual)을 이용해서 다음 모델에 학습을 시키고, 이를 모두 선형 결합한 결과물이 나오는 알고리즘을 의미했다. 이렇듯 기본적으로 사용되고 있는 Gradient Tree Boosting 기법에서 '과적합 방지'와 '병렬 학습'이 가능하도록 만든 boosting 알고리즘이 바로 XGBoost이다. XGBoost의 대표적인 장점을 나열해 보자면 다음과 같다. 정규화, 근사치를 이용한 학습 개선 : 정규화를 이용한 과적합 개선 : 학습을 위한 오차 항에서 L2(Ridge) Regularization 항을 추가해 모델(트리)의 복잡도를..

Decision Tree란? 의사결정나무(Decision Tree)란 지도 학습 알고리즘 중 하나의 알고리즘으로, 데이터를 분석하여 데이터에 존재하는 패턴을 찾아내 예측 가능한 규칙들의 조합으로 분류하는 알고리즘을 말한다. 특히 이 규칙들에 따라 데이터를 분할하는 모양이 나무와 같다 하여 의사결정'나무'라 부르며 이는 분류(Classification) 문제와 회귀(Regression) 문제 모두에서 사용 가능하다. 위 문제는 Play(O)와 Don't Play(X) 두가지로 나뉘는 binary classification 문제로, 날씨(outlook)과 습도(humidity)와 바람이 부는 정도(windy)에 따라서 분류를 진행했다. 이와 같이 tree의 각 depth에 따라 각각의 분류 기준을 설정해 이..

Gradient Boosting이란? 이전 Boosting에 관한 내용을 알아봤다. Boosting이란, 다수의 weak learner를 이용하며 이전 모델에서 분류 혹은 예측하지 못한 샘플에 가중치를 주어 다음 모델에서 이를 중점적으로 학습하게 하여 하나의 strong learner를 만드는 방법이다. Boosting 기법 내 다양한 알고리즘이 존재하는데, 오늘 알아볼 알고리즘은 Gradient Boosting이다. Gradient Boosting이란 Gradient(혹은 잔차(Residual))를 이용하여 이전 모델을 보완하는 기법을 의미한다. 여기서 Residual은 이전 모형에서 적합한 뒤 실제값과의 차이를 의미하며, 이를 다음 모형에 넘겨 학습하게 하고 이를 여러 개의 weak learner를 ..

Random Forest란? Random Forest(랜덤 포레스트)는 앙상블 학습의 한 종류로, 의사결정 트리(Decision Tree)를 기반으로 한 모델이다. Bagging 기법을 활용해서 여러 개의 의사 결정 트리를 생성하고, 그 과정에서 변수를 랜덤으로 선택하는 과정을 추가한다. 그들의 예측 결과를 평균화하여 더 강력하고 안정적인 예측을 수행하는 방법이다. 랜덤 포레스트는 의사 결정 트리의 과적합(overfitting) 문제를 해결하고, 데이터의 다양성을 적극적으로 활용하여 높은 성능을 가지는 특징이 있다. 랜덤 포레스트의 동작 방식은 다음과 같다. 데이터 샘플링 원본 데이터셋에서 랜덤 복원 샘플링(Bootstrap)을 진행하여 train set을 만든다. 각기 데이터셋의 크기는 같지만 복원 샘..