테크노트 [전문가 기고] 학습 능력 높이는 데이터 증강 기술
[첨단 헬로티] 인공지능(AI) 기술 빠르게 확산되고 있는 이유…오픈소스와 개발환경 때문 표본조사에서 좋은 결과를 얻으려면 모집단 전체의 특성을 잘 나타낼 수 있는 우량 샘플을 취하고 그 샘플로부터 모집단을 잘 설명할 수 있는 모델을 만들어야 한다. 만약 치우친 샘플로 모델을 만들면 ‘장님 코끼리 만지기’처럼 엉뚱한 결과를 초래할 수도 있다. 통계와 많은 면에서 유사한 머신러닝의 경우도 학습 알고리즘뿐만 아니라 학습 데이터의 질에 따라 학습 결과가 좌우되므로 학습 데이터의 선택은 매우 중요하다. 학습 데이터에 과하게 특화돼 실제 적용 시 좋지 못한 결과가 나오는 것을 오버피팅(overfitting)이라고 부른다. 이것은 시험에서 똑같은 문제는 잘 푸는데 내용을 조금만 바꾸면 틀리는 것과 유사하며 좋은 결과를 얻으려면 시험공부를 할 때 다양한 유형의 문제를 풀어서 응용 능력을 키워야 한다. 사람의 학습과 마찬가지로 머신러닝에서도 소량의 학습 데이터만으로도 우수한 결과를 내려면 학습 데이터에 실제 다양한 환경이나 특성을 반영할 수 있도록 데이터를 변형시켜 늘리는 데이터 증강(data augmentation)기술이 중요하다. 특히