일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Gbm
- 차원 축소
- LIKELIHOOD
- pca
- dimension reduction
- 앙상블
- 머신러닝
- LDA
- xgboost
- ensemble learning
- MLE
- classification
- multivarite method
- Machine Learning
- 트리분할
- Maximum A Posterior
- Regression
- decision tree
- feature extraction
- Gradient Boosting
- 차원축소
- ensemble
- multivarite data
- ML
- 최대사후확률
- Gradient Boostnig
- LGBM
- 앙상블 학습
- 알고리즘
- Gradient boosting machine
- Today
- Total
목록선형대수 (6)
코딩하는 눈송이
Factor Analysis Factor Analysis란? 관측된 변수들의 변동성을 잠재적인 요인(latent factor)들로 분해하는 방법 Factor Analysis에서는 변수 간의 상관 관계를 고려하여 변수들을 설명할 수 있는 몇 개의 잠재적인 요인을 찾아 낸다. 잠재 요인(latent factor)은 변수들 간의 공통 변동을 설명하고, 데이터의 차원 축소와 변수 간의 관계를 이해하는 데에 도움을 준다. 잠재 요인을 $z_{i}$로 표현하고, 이를 통해 x를 표현한다면 식은 다음과 같다 $$ x_{i} -\mu_{i} = v_{i1}z_{1} + v_{i2}z_{2} + ... v_{ik}z_{k} + \epsilon_{i} $$ 여기서 latent factor $z_{i}$은 다음 조건을 만족..

Fisher's Discriminant Ratio Fisher's Discriminant Ratio($J(w)$)는 클래스 간 분산과 클래스 내 분산의 비율로 정의되는 식이다. 수식 형태로 써보면 $$ Fisher's Discriminant Ratio = \frac{S_{b}(Between-Class Scatter)}{S_{w}(Within-Class Scatter)} $$ 클래스 간 분산(Between-Class Scatter) : 클래스 간 분산은 각 클래스의 평균 벡터와 전체 데이터의 평균 벡터 사이 차이를 계산한 뒤 클래스에 속하는 데이터의 갯수를 가중치로 곱해서 모든 클래스에 더한 값이다. $$ S_{b} = \sum^{K}_{i = 1}N_{i}(m_{i} - m)(m_{i} - m)^{T},..

PCA란? 대표적인 Feature Extraction 기법 중 하나로, 기존의 데이터(d dimension)의 공분산 행렬에서 가장 큰 분산을 가지는 주성분(principal component)을 추출하여 새로운 좌표계로 변환 및 투영하는 방법이다. 분산이 가장 큰 주성분을 추출함을 통해 차원 축소로 인한 정보 손실(information loss)을 최소화한다. PCA는 데이터 압축, 노이즈 제거, 데이터 전처리 등에 사용할 수 있다. 2차원 데이터에서의 예시 2차원의 데이터 x를 어느 한 direction(w)을 가지는 축에 투영한다고 해보자. 그렇다면 새로운 좌표 z는 다음과 같이 표현될 것이다. $$z = w^{T}x$$ 또한 위에서 설명한 것과 같이 가장 큰 분산을 가지는 축으로 투영을 해야 하므..

차원축소란? 차원축소란 고차원의 데이터를 저차원의 데이터로 변환하는 것을 의미한다. 이를 통해 데이터를 더욱 쉽게 시각화하고 분석할 수 있다. 그렇다면 차원축소를 왜 하는 것인가? 데이터의 차원이 커지게 된다면 학습 데이터의 수가 차원이 수보다 적어져 성능이 저하 되게 됩니다. 차원이 증가하게 된다면 변수가 증가하게 되고, 개별 차원 내에서 학습할 데이터의 수도 적어지게 된다. 아래의 그림처럼 차원이 커지게 된다면 데이터 샘플 간의 거리가 멀이지게 되고, 데이터 분석에서 어려움을 겪게 된다. 이를 '차원의 저주'라고 부른다. 이렇듯 차원의 저주 문제를 해결하고 모델의 복잡도(시간적 복잡도, 공간적 복잡도 - 과도한 parameter 수)를 줄이며 작은 데이터셋에도 잘 fit하는 Simple한 모델을 만들..

Multivartie(다변량) data란? 다변량 데이터란 여러개의 input과 instance를 가지는 데이터를 말한다. 예를 들어 n개의 input과 d개의 instance를 가지는 data는 d X n matrix 형태를 가진다. Multivarite Parameters Mean(평균) : $ E[X] = \mu = [\mu_{1}, \mu_{2}, ... ,\mu_{d}]^{T} $ Covariance(공분산) : 두 변수 사이 증가 / 감소하려는 경향. 양의 공분산은 두 변수가 함께 증가하거나 감소할 때를 의미하며 음의 공분산은 한 변수가 증가할 때 다른 변수는 감소하는 관계를 나타냄 $$ \sigma_{ij} = Cov(x_{i}, x_{j}) $$ Correlation(상관관계) : 두 변수..