일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ensemble learning
- ML
- Gradient Boosting
- LGBM
- 머신러닝
- xgboost
- multivarite method
- LIKELIHOOD
- LDA
- feature extraction
- classification
- 차원축소
- 알고리즘
- Gradient Boostnig
- decision tree
- MLE
- Regression
- Maximum A Posterior
- multivarite data
- ensemble
- 차원 축소
- 트리분할
- 최대사후확률
- 앙상블 학습
- Gbm
- Gradient boosting machine
- dimension reduction
- 앙상블
- Machine Learning
- pca
- Today
- Total
목록머신러닝 (5)
코딩하는 눈송이

XGBoost란? 앞서 Gradient Boosting에 대해서 설명했다. Gradient Boosting이란, 이전 모델에서 나온 결과값의 Gradient 값(psuedo residual)을 이용해서 다음 모델에 학습을 시키고, 이를 모두 선형 결합한 결과물이 나오는 알고리즘을 의미했다. 이렇듯 기본적으로 사용되고 있는 Gradient Tree Boosting 기법에서 '과적합 방지'와 '병렬 학습'이 가능하도록 만든 boosting 알고리즘이 바로 XGBoost이다. XGBoost의 대표적인 장점을 나열해 보자면 다음과 같다. 정규화, 근사치를 이용한 학습 개선 : 정규화를 이용한 과적합 개선 : 학습을 위한 오차 항에서 L2(Ridge) Regularization 항을 추가해 모델(트리)의 복잡도를..

Decision Tree란? 의사결정나무(Decision Tree)란 지도 학습 알고리즘 중 하나의 알고리즘으로, 데이터를 분석하여 데이터에 존재하는 패턴을 찾아내 예측 가능한 규칙들의 조합으로 분류하는 알고리즘을 말한다. 특히 이 규칙들에 따라 데이터를 분할하는 모양이 나무와 같다 하여 의사결정'나무'라 부르며 이는 분류(Classification) 문제와 회귀(Regression) 문제 모두에서 사용 가능하다. 위 문제는 Play(O)와 Don't Play(X) 두가지로 나뉘는 binary classification 문제로, 날씨(outlook)과 습도(humidity)와 바람이 부는 정도(windy)에 따라서 분류를 진행했다. 이와 같이 tree의 각 depth에 따라 각각의 분류 기준을 설정해 이..

Gradient Boosting이란? 이전 Boosting에 관한 내용을 알아봤다. Boosting이란, 다수의 weak learner를 이용하며 이전 모델에서 분류 혹은 예측하지 못한 샘플에 가중치를 주어 다음 모델에서 이를 중점적으로 학습하게 하여 하나의 strong learner를 만드는 방법이다. Boosting 기법 내 다양한 알고리즘이 존재하는데, 오늘 알아볼 알고리즘은 Gradient Boosting이다. Gradient Boosting이란 Gradient(혹은 잔차(Residual))를 이용하여 이전 모델을 보완하는 기법을 의미한다. 여기서 Residual은 이전 모형에서 적합한 뒤 실제값과의 차이를 의미하며, 이를 다음 모형에 넘겨 학습하게 하고 이를 여러 개의 weak learner를 ..

Random Forest란? Random Forest(랜덤 포레스트)는 앙상블 학습의 한 종류로, 의사결정 트리(Decision Tree)를 기반으로 한 모델이다. Bagging 기법을 활용해서 여러 개의 의사 결정 트리를 생성하고, 그 과정에서 변수를 랜덤으로 선택하는 과정을 추가한다. 그들의 예측 결과를 평균화하여 더 강력하고 안정적인 예측을 수행하는 방법이다. 랜덤 포레스트는 의사 결정 트리의 과적합(overfitting) 문제를 해결하고, 데이터의 다양성을 적극적으로 활용하여 높은 성능을 가지는 특징이 있다. 랜덤 포레스트의 동작 방식은 다음과 같다. 데이터 샘플링 원본 데이터셋에서 랜덤 복원 샘플링(Bootstrap)을 진행하여 train set을 만든다. 각기 데이터셋의 크기는 같지만 복원 샘..

Ensemble Learning이란? 앙상블(Ensemble) 학습이란 여러 개의 개별적인 기계 학습 모델을 결합하여 보다 정확하고 안정적인 예측을 수행하는 기법이다. 개별 모델이 각자의 예측을 내놓고, 이 예측들이 결합하여 최종 예측을 만들어낸다.여기서 각 개별 학습 모델을 weak learner이라 표현하고, 모든 weak learner들이 결합된 모델을 strong learner이라고 한다. 사용되는 단일 모델로는 Decision Tree, SVM, Deep learning model 등 모든 종류의 학습 모델이 사용될 수 있다. 앙상블 학습의 장점은 여러 가지가 있는데, 단일 모델과 비교하여 설명해보자면 다음과 같다 높은 예측 성능 : 개별 모델들의 약점을 보완하고, 강점을 강화함으로써 예측 결과..