일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- xgboost
- 차원 축소
- 앙상블 학습
- classification
- 트리분할
- feature extraction
- pca
- Regression
- decision tree
- multivarite data
- 알고리즘
- Maximum A Posterior
- Gradient Boostnig
- ML
- LIKELIHOOD
- Machine Learning
- 머신러닝
- ensemble
- 차원축소
- 앙상블
- LDA
- multivarite method
- LGBM
- Gradient Boosting
- 최대사후확률
- ensemble learning
- Gradient boosting machine
- MLE
- Gbm
- dimension reduction
- Today
- Total
목록Machine Learning (3)
코딩하는 눈송이

Decision Tree란? 의사결정나무(Decision Tree)란 지도 학습 알고리즘 중 하나의 알고리즘으로, 데이터를 분석하여 데이터에 존재하는 패턴을 찾아내 예측 가능한 규칙들의 조합으로 분류하는 알고리즘을 말한다. 특히 이 규칙들에 따라 데이터를 분할하는 모양이 나무와 같다 하여 의사결정'나무'라 부르며 이는 분류(Classification) 문제와 회귀(Regression) 문제 모두에서 사용 가능하다. 위 문제는 Play(O)와 Don't Play(X) 두가지로 나뉘는 binary classification 문제로, 날씨(outlook)과 습도(humidity)와 바람이 부는 정도(windy)에 따라서 분류를 진행했다. 이와 같이 tree의 각 depth에 따라 각각의 분류 기준을 설정해 이..

Gradient Boosting이란? 이전 Boosting에 관한 내용을 알아봤다. Boosting이란, 다수의 weak learner를 이용하며 이전 모델에서 분류 혹은 예측하지 못한 샘플에 가중치를 주어 다음 모델에서 이를 중점적으로 학습하게 하여 하나의 strong learner를 만드는 방법이다. Boosting 기법 내 다양한 알고리즘이 존재하는데, 오늘 알아볼 알고리즘은 Gradient Boosting이다. Gradient Boosting이란 Gradient(혹은 잔차(Residual))를 이용하여 이전 모델을 보완하는 기법을 의미한다. 여기서 Residual은 이전 모형에서 적합한 뒤 실제값과의 차이를 의미하며, 이를 다음 모형에 넘겨 학습하게 하고 이를 여러 개의 weak learner를 ..

Random Forest란? Random Forest(랜덤 포레스트)는 앙상블 학습의 한 종류로, 의사결정 트리(Decision Tree)를 기반으로 한 모델이다. Bagging 기법을 활용해서 여러 개의 의사 결정 트리를 생성하고, 그 과정에서 변수를 랜덤으로 선택하는 과정을 추가한다. 그들의 예측 결과를 평균화하여 더 강력하고 안정적인 예측을 수행하는 방법이다. 랜덤 포레스트는 의사 결정 트리의 과적합(overfitting) 문제를 해결하고, 데이터의 다양성을 적극적으로 활용하여 높은 성능을 가지는 특징이 있다. 랜덤 포레스트의 동작 방식은 다음과 같다. 데이터 샘플링 원본 데이터셋에서 랜덤 복원 샘플링(Bootstrap)을 진행하여 train set을 만든다. 각기 데이터셋의 크기는 같지만 복원 샘..