본 포스팅은 AI502수업에서 제가 새로 알게 된 부분만 정리한 것입니다.


Bagging

  • training data를 ramdom-sampling해서 model을 각각 학습시키고, averaging하거나 voting한다.
  • smaller variance
    • alt image

Dropout

  • 대부분의 sub-network는 학습이 되지 않는다.
  • fast approximation
  • geometric mean
    • alt image
    • alt image
    • alt image
    • alt iamge
  • maxout activation과 같이쓰면, 각 유닛은 비슷하게 학습된다.
    • alt image
  • 장점
    • effective 성능
    • computationally cheap
    • dropout은 distributed representation을 쓰는 어떤 모델과도 잘 어울린다.
  • co-adaptation 피함
    • 몇몇 뉴런이 다른 뉴런에 dependent 해지는 것
  • sparse activations

  • Drop connect
  • Gaussian Dropout
    • dropout을 generalize하는 방법으로는 noise injection을 하는 방법이 있다.
    • alt image

Early Stopping = L2-Regularization

  • Early Stopping
    • alt image
    • alt image
  • L2 Regularization
    • alt image
  • $\epsilon, \alpha, \tau$를 잘 골라서 두 식을 갖게 만들 수 있다.

Batch Normalization

  • alt image
  • internal covariate shift problem 해소
  • generalization 성능 향상, converge 더 빨리
  • learning rate에 덜 sensitive함
  • loss surface를 더 smoother
    • alt image
    • perturbation에 덜 sensitive, more predictable gradient

Weight Tying (Parameter Sharing)

  • 같은 Conv filter 사용, RNN에서 같은 weight 사용하는 것

Data Augmentation

  • input이나 hidden unit에 noise 추가