Link

요약

  • 평가
    • 정성평가
      • 주로 사람이 직접 평가를 진행하며, Human Evaluation 이라고 불리기도 한다.
      • 가장 정확한 평가 방법이지만, 비용과 시간이 많이 소모된다.
    • 정량평가
      • 평가 메트릭에의해 자동으로 수행되는 평가
      • 따라서 속도가 빠르고 비용이 들지 않는다.
      • 정성평가와 가장 비슷한 결과가 나올수록 좋은 정량 평가방법이라고 볼 수 있다.
      • 정량평가만으로는 부족할 수 있으므로, 서비스 전에는 정성평가를 거치는 것이 바람직하다.
  • 오버피팅
    • 모델의 수용 능력이 데이터에 비해 충분할 때 발생할 수 있으며, 반대로 수용 능력이 부족하면 언더피팅이 발생할 수 있다.
    • 오버피팅이란 학습 데이터셋에서의 오차(손실 값)가 일반화 오차에 비해서 현격하게 낮아지는 현상으로, 일반화 오차는 검증 데이터셋의 손실 값으로 알 수 있다.
  • 데이터 분할
    • 사용자가 임의의 비율(e.g. 6:2:2)로 학습/검증/테스트 데이터셋을 분할하여 학습과 평가를 수행한다.
    • 데이터가 분할된 이후에, 학습 데이터를 기준으로 학습/검증/테스트 데이터셋에 대해 전처리를 수행한다. 예를 들어, 학습 데이터의 평균과 표준편차를 활용하여 3개 데이터셋에 대해 표준 스케일링을 수행해야 한다.