본문 바로가기

Machine Learning

Cross Validation & Dimension Reduction

<Cross Validation & Dimension Reduction>

    1. Cross Validation

    2. Dimension Reduction


Cross Validation

 

Leave-One-out Cross Validation (LOOCV)

    • 모든 data에 대하여 한 번씩 validation 수행
    • 성능은 K-fold CV 보다 좋으나, 수행 시간이 오래 걸림

 

K-fold Cross Validation (k-fold CV)

    • data를 K개의 fold로 균등하게 나누어 validation 수행
    • 성능은 LOOCV보다 떨어지나, 수행 시간이 덜 걸림

 

 

 

Data를 Train, Validation, Test data로 분할 → Cross Validation 적용


Dimension Reduction

 

 

Dimension Reduction

  • Data의 dimension을 축소
  • memory 효율적
  • 빠른 연산
  • Noise를 줄여 data의 quality를 높임
  • 2D/3D로 visual화 가능
  • Feature selection과 Feature extraction으로 나뉨

 

Feature = Variable = Dimension

 

downstream task: dimension reduction 된 task

 

 

Feature selection

  • 기존 feature들의 subset을 선택하여 dimension 축소
  • Forward selection: Empty set → 점차 variable 추가
  • Backward selection: Entire set → 점차 variable 제거

Feature extraction

  • 여러 feature들을 결합하여 dimension 축소
  • 축소된 dimension들은 original dimension의 Linear regression으로 표현 가능

e.g. Y₁ = 3X₁ - 4X₂ + 0.3X₃ - 1.5X₄

      Y₂ = 2X₁ + 3.2X₂ - X₃ + 2X₄

 

 

Principal Component Analysis (PCA)

  • 가장 큰 variation을 가지는 축을 찾아 이 축에 모든 점을 projection
  • Reduced 된 dimension은 모두 orthogonal
  • Eigen-decomposition Algorithm

Image source:&nbsp; http://en.wikipedia.org/wiki/Principal_component_analysis

 

 

 

 

 

(X₁, X₂)를 (a, b)의 축의 방향으로 projection 하면 orthogonal projection 된 점에서 원점까지의 거리는

로 표현 가능한데, 이는 X₁과 X₂의 선형결합의 special case로 볼 수 있다. (단, 가중치 제곱의 합 = 1)

'Machine Learning' 카테고리의 다른 글

Clustering  (0) 2022.05.27
Dimension Reduction  (0) 2022.05.25
Regularization  (0) 2022.05.23
Logistic Regression  (0) 2022.05.20