일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 머신러닝
- classification
- ensemble learning
- ML
- Gradient Boosting
- MLE
- multivarite method
- LIKELIHOOD
- Regression
- LGBM
- pca
- dimension reduction
- 최대사후확률
- 트리분할
- 앙상블 학습
- xgboost
- 차원축소
- Gbm
- decision tree
- feature extraction
- Machine Learning
- ensemble
- 앙상블
- LDA
- Maximum A Posterior
- 알고리즘
- Gradient Boostnig
- multivarite data
- 차원 축소
- Gradient boosting machine
- Today
- Total
목록분류 전체보기 (18)
코딩하는 눈송이

Likelihood란? Likelihood는 관측치가 어떤 특정한 분포(Distribution)에서 나왔을 가능성을 수치화한 것이다. 위의 그림에서 봤을 때 관측치는 파란색 분포보다 주황색 분포에서 나왔을 가능성이 더 높다. 이를 수학적인 방법으로 분포의 특성을 추정하는 방법이 Maximum Likelihood Estimation이다. Maximum Likelihood Estimation(MLE)란? 수적인 데이터 밀도 추정 방법으로써 파라미터 $ \theta = (\theta_1, ... , \theta_m) $으로 구성된 어떤 확률밀도함수 $ P(x|\theta) $에서 관측된 표본 데이터 집합을 $ x = (x_1, ..., x_m) $이라 할 때, 이 표본들에서 파라미터 $ \theta = (\t..

기존의 방식에서는 Train set 및 Test set을 고정하여 훈련 및 검증을 진행했는데, 이와 같은 방식에서는 해당 Test Set에만 잘 fit하는 모델이 된다 >>> Overfitting 되기 쉽다 라는 단점이 존재한다. 이러한 단점을 해결하고자 나온 것이 교차 검증(Cross Validation)이며 그 중 가장 널리 쓰이는 K-fold Cross Validation에 대해 알아볼 것이다. ※ K-fold Cross Validation이란? 총 train set을 K개의 fold로 나누어 K-1개의 fold를 train set, 1개의 fold를 validation set으로 설정해 모델의 성능을 검증하는 방식. K-fold cross validation은 다음과 같은 과정을 거친다. 먼저 전..
시계열 데이터 개요 시계열 데이터라는 것은 무엇인가? " 시계열 데이터란, 시간에 따라 순차적으로 생성되는 데이터의 집합이다. " 이러한 시계열 데이터는 이산적(discrete)이거나 연속적(continuous)일 수 있으며, 현재 관측치와 이전 관측치 사이에 상관관계가 있다는 것이 시계열의 가장 큰 특징이라고 설명한다. -> 이러한 점이 시계열을 분석하는 과정에서 가장 큰 이점으로 작용한다. 물론 시계열 데이터의 분석 목표는 시계열 데이터에 관련된 가설을 예측, 해석 및 테스트할 수 있는 간단한 모델을 개발해 미래의 데이터를 예측하는 것이다. 이러한 시계열 데이터를 식으로 만들어 보자면 다음과 같다. $$ X_{t} = Trend + Seasonality + Irregular $$ 1. Trend : ..