<Cross Validation & Dimension Reduction>
1. Cross Validation
2. Dimension Reduction
Cross Validation
Leave-One-out Cross Validation (LOOCV)
- 모든 data에 대하여 한 번씩 validation 수행
- 성능은 K-fold CV 보다 좋으나, 수행 시간이 오래 걸림

K-fold Cross Validation (k-fold CV)
- data를 K개의 fold로 균등하게 나누어 validation 수행
- 성능은 LOOCV보다 떨어지나, 수행 시간이 덜 걸림

Data를 Train, Validation, Test data로 분할 → Cross Validation 적용

Dimension Reduction
Dimension Reduction
- Data의 dimension을 축소
- memory 효율적
- 빠른 연산
- Noise를 줄여 data의 quality를 높임
- 2D/3D로 visual화 가능
- Feature selection과 Feature extraction으로 나뉨
Feature = Variable = Dimension
downstream task: dimension reduction 된 task
Feature selection
- 기존 feature들의 subset을 선택하여 dimension 축소
- Forward selection: Empty set → 점차 variable 추가
- Backward selection: Entire set → 점차 variable 제거
Feature extraction
- 여러 feature들을 결합하여 dimension 축소
- 축소된 dimension들은 original dimension의 Linear regression으로 표현 가능
e.g. Y₁ = 3X₁ - 4X₂ + 0.3X₃ - 1.5X₄
Y₂ = 2X₁ + 3.2X₂ - X₃ + 2X₄

Principal Component Analysis (PCA)
- 가장 큰 variation을 가지는 축을 찾아 이 축에 모든 점을 projection
- Reduced 된 dimension은 모두 orthogonal
- Eigen-decomposition Algorithm

(X₁, X₂)를 (a, b)의 축의 방향으로 projection 하면 orthogonal projection 된 점에서 원점까지의 거리는

로 표현 가능한데, 이는 X₁과 X₂의 선형결합의 special case로 볼 수 있다. (단, 가중치 제곱의 합 = 1)
'Machine Learning' 카테고리의 다른 글
| Clustering (0) | 2022.05.27 |
|---|---|
| Dimension Reduction (0) | 2022.05.25 |
| Regularization (0) | 2022.05.23 |
| Logistic Regression (0) | 2022.05.20 |