닫기

일반뉴스

배너

[테크니컬 리포트] 엔터프라이즈를 위한 머신러닝의 3가지 유형

URL복사
[마감임박!! 무료] 생성형AI, 디지털트원, 제조AI, SaaS, 클라우드로 생산성 높이고, 비용절감 방안 제시.. AI자율제조혁신포럼 개최 (3/27~29, 코엑스3층 컨퍼런스룸 317~318호)

[첨단 헬로티]


머신러닝의 유형에는 지도학습(Supervised learning), 비지도학습(Unsupervised learning) 그리고 강화학습(Reinforced learning)이 있다. 애플리케이션 리더는 각 머신러닝(Machine Learning)의 유형을 효과적으로 사용하는 방법을 배워야 한다. 또한, 원하는 용례에 맞는 머신러닝 유형이 무엇인지 파악할 수 있어야 한다.  



‘학습’이라는 단어는 인공지능(AI) 세계에서 흔히 찾아볼 수 있다. 머신러닝, 전이학습(Transfer learning), 딥러닝(Deep learning), 지도학습, 비지도학습, 강화학습, 연합학습(Federated learning) 등을 비롯한 전문 용어들은 다양한 현상을 의미한다. 따라서 이들의 비교는 사과와 오렌지를 비교하듯, 무의미해질 수 있다. 


가트너는 머신러닝을 인공지능(AI)의 하위 분야로 정의한다. 머신러닝은 데이터에서 지식과 패턴을 추출할 수 있는 통계적 모델을 사용하여 문제를 해결한다. 이는 소프트웨어 논리를 명시적으로 정의해 문제를 해결하는 기존 소프트웨어 공학과 대비된다.

앞서 언급한 머신러닝의 3가지 유형에서 ‘학습’은 데이터에서 패턴을 발견하고 긍정 오류(False positive)와 부정 오류(False negative)의 최소화를 위한 모델을 고안하는 훈련 과정을 말한다. 애플리케이션 리더들이 해당 유형들을 사용하여 해결할 수 있는 비즈니스 문제의 유형을 조사한 결과는 다음과 같다.


분류 또는 예측 문제에 지도 학습을 사용하라

지도 학습은 이미 다양한 비즈니스 사용 사례에서 성공한 것으로 입증되어 기업에서 가장 인기 있고 자주 사용되는 유형의 머신러닝이다. 지도 학습은 입력 데이터와 원하는 출력 데이터를 머신러닝 알고리즘에 공급함으로써 작동하는 유형이다.


해당 공급은 ‘훈련’이라고도 알려져 있다. 각 테스트 사례에 대해 머신러닝 학습 알고리즘은 입력을 처리하도록 모델을 수정하고, 원하는 출력에 최대한 가까운 결과물을 산출한다. 충분한 양의 입력과 대표적인 테스트 사례가 주어질 때 해당 모델은 점진적으로 개선된다. 단, 훈련 중에 사용되지 않은 사례와 지속적인 회귀 시험(Regression testing)을 통해 훈련 모델의 품질과 적합성을 항상 검증해야 한다.


지도 학습 알고리즘과 모델에는 선형 회귀(Linear regression), 의사결정 분지도, 서포트 벡터 머신(Support Vector Machine, SVM), 인공 신경망, 딥 러닝 프레임워크 등이 포함된다. 각 접근방식의 적용가능성은 데이터의 특성과 학습해야 하는 과제의 성격에 따라 크게 달라진다. 실제로 최적의 기법과 미세 조정 매개변수를 찾는 것은 종종 시행착오의 문제다. 자동화된 머신러닝(AutoML)은 해당 작업의 효율성을 높이거나 자동화하는 데 점점 더 많이 사용되고 있다.


입력 및 출력 데이터는 신뢰할 수 있고 사용 가능한 경우, 시뮬레이션 또는 인간 데이터 라벨링과 같은 다른 방법으로 과거 데이터에서 파생될 수 있다. 출력 데이터가 누락된 경우 라벨링은 ‘양호’, ‘불량’ 또는 기타로 분류할 수 있다. 이미지, 오디오, 텍스트 또는 비디오와 같은 비정형 데이터와 관련된 경우, 데이터 라벨링은 속성이나 분류를 강조한다. 해당 정보는 대상을 예측, 인식 또는 분류하는 데 도움이 되는 패턴에 대해 분석할 수 있다.


지도학습은 예측 오류를 최소화하거나 긍정 오류 및 부정 오류의 최소화를 목표로 하는 모델을 생산한다. 예를 들어, 머신러닝 알고리즘에 둥근 물건과 뾰족한 물건의 수많은 예시들을 보여줄 수 있다. 이러한 알고리즘은 각 예제에서 무언가를 학습하고 데이터의 패턴을 찾고 최적의 모델을 출력할 만큼 충분히 영리하다. 


지도학습의 사용 사례

지도학습은 분류 또는 예측에 사용될 수 있으며 일부 사용 사례에는 다음이 포함된다.


- 질병의 위험 요소 식별 및 예방 조치 계획

- 이메일의 스팸 여부 분류

- 집값 예측

- 고객 이탈 예측

- 단어를 명사와 동사로 분류

- 강우 및 기상 상황 예측

- 특정 후보 투표 여부 예측

- 건강 보험 회사의 판매 예측 및 위험 평가 분석

- 대출 신청자의 고위험 또는 저위험 여부 결정

- 자동차 엔진의 기계 부품 고장 예측

- 소셜 미디어 공유 점수 및 성과 점수 예측


제언 

- 분류 및 예측 문제에 대한 머신러닝 과정을 최적화하기 위해 라벨이 있는 데이터 및 감독 신호를 획득 또는 생성하라.

- 알고리즘이 적절한 양의 데이터 및 직면한 특정 문제와 관련된 데이터를 가지고 있는지 확인하라.

- 훈련 데이터 세트 및 검증 데이터 세트로 데이터를 분할하라. 각 데이터 세트는 다양한 학습 사례를 아우를 수 있고 가능한 편향을 줄일 수 있을 만큼 충분히 크고 다양해야 한다.

- 지도 학습 알고리즘에 데이터를 전달하기 전에 출력 값에 라벨을 지정하고 주석을 달아 편향성을 최소화하라. 데이터 라벨링은 지도 학습 성공에 필수적 요소다. 

- 핵심 데이터 속성의 품질에 대한 세부적인 평가를 수행하여 보다 나은 비즈니스 가치를 제공하는 집중적인 개선이 가능하도록 지원하라.



클러스터링 문제에 비지도 학습을 사용하라

비지도 학습은 머신러닝 알고리즘의 일종으로, 라벨이 없는 입력 데이터로 구성된 데이터 세트에서 추론을 이끌어내는 데 사용된다. 비지도 학습에는 라벨이 있는 데이터나 감독 신호가 필요하지 않다. 훈련 데이터 세트는 라벨이 없는 예제들로 구성된다. 비지도 학습의 가장 일반적인 적용은 클러스터링 및 연관이다. 


클러스터링은 색상과 같은 특정 속성을 기반으로 개체를 그룹화하는 모델을 생성한다. 예를 들어, 머신러닝 알고리즘에 쉽게 분류되지 않는 수많은 예시들을 보여줄 수 있다. 비지도 학습 알고리즘을 사용하여 기존 기법보다 더 정확하고 세분화된 방식으로 클러스터를 생성할 수 있으며, 이러한 추가적인 인사이트를 통해 미지의 분야로 남아있었던 것들이 명백해질 수 있다


비지도 학습의 사용 사례

- 비지도 학습은 데이터의 고유 그룹 또는 데이터의 많은 부분을 설명하는 규칙을 발견하는 데 사용될 수 있다. 비지도 학습 사용 사례는 다음을 포함한다: 

- 구매 행동에 따른 고객 그룹화

- 고객 데이터에서 연관성 식별

- 구매 내역별로 데이터 분류

- 다양한 관심사에 따른 사람 분류

- 제조 및 판매 측정으로 재고 그룹화


제언

- 클러스터링 또는 연관성과 관련된 사용 사례에 비지도 학습을 적용하라.

- 데이터의 대표성과 다양성이 충분한지 확인하라. 비지도 학습에는 라벨이 있는 데이터가 필요하지 않지만 편향성을 줄이고 신뢰할 수 있는 결론을 도출하기 위해 통계적 검증은 여전히 필요하다. 

- 데이터 과학자와 함께 작업하거나 증강 머신러닝을 사용하여 특정 데이터 및 목표에 가장 효과적인 알고리즘을 시도하고 선택하라.

- 비지도 학습은 후속 지도 학습을 위한 데이터를 준비하는 데에도 사용된다. 이는 데이터의 차원을 분류, 압축 및 축소하는 데 사용되는 패턴 또는 기능을 식별함으로써 수행된다.


강화 학습의 잠재력을 활용할 수 있는 전문성을 구축하라

현대의 연구 및 학계는 지도, 비지도 및 강화학습을 결합함으로써 문제에 접근한다. 강화학습은 원하는 행동에 대한 보상 또는 원하지 않는 행동에 대한 처벌을 기반으로 하는 머신러닝 방식이다. 강화학습은 지도학습, 비지도학습과 더불어 세 가지 기본적인 머신러닝 패러다임 중 하나로 여겨진다.


30년 이상 지속되어 온 강화학습에 대해 최근 새로운 관심이 집중되고 있다. 이러한 관심을 불러 일으키는 세 가지 주요 요소는 다음과 같다.


① 강화학습의 원칙은 광범위한 강점을 보유하고 있다. 강화학습은 현재 머신러닝 유형 중 가장 인기 있는 지도 학습보다 지도의 비중이 낮다. 지정된 라벨의 데이터를 항상 찾을 수 있는 것은 아니기 때문에 이는 중요한 강점이다.

② 최근 컴퓨터 기반 게임 내에 강화학습을 구현하는 것에 성공한 사례들이 있다. 일례로, 딥마인드 (DeepMind)는 보드 게임과 비디오 게임에서 최고의 프로 선수들을 이길 수 있는 컴퓨터 프로그램을 만들었다.

③ 상업용 공급업체들이 강화학습 구성 요소들을 개발하고 있으며, 준 상업 기관들이 관련 활동을 주도하고 있다.


하지만 실용적인 강화학습 애플리케이션은 여전히 개발 단계에 있다. 그 이유는 다음과 같다.

- 대부분의 최신 데이터 과학 및 머신러닝(DSML) 플랫폼에는 기본 강화학습 기능이 탑재되 있지 않다.

- 대부분의 지도 학습 애플리케이션에 비해 컴퓨팅 요구사항이 상당히 많다.

- 대부분의 경우, 강화학습은 ▲충분한 시뮬레이션이 가능한 영역 ▲비유동적인 영역 ▲방대한 양의 관련 데이터가 제공되는 영역 등에서만 적용된다.

- 가트너는 강화학습의 보편화에 앞서, 더욱 우수한 성능의 시뮬레이션 기능이 토대가 되어야 한다고 주장한다.


강화학습의 사용 사례 

- 대기 중인 작업에 컴퓨터 리소스를 할당 및 예약하도록 하는 알고리즘을 교육하여 작업 지연 최소화

- 교통 혼잡 문제를 해결하기 위한 신호등 컨트롤러 설계

- 로봇이 원본 비디오 이미지의 입력 내용을 매핑(Mapping)하고 ‘재생된’ 동작을 복제함으로써 정책을 학습하도록 교육

- 화학 반응 최적화

- 차량이 스스로 주차할 수 있도록 교육해 시간 소모 및 시행착오 작업 감소  


제언

- 잠재적 강화학습 기회를 파악하되 제한된 시나리오에서만 활용해야 한다. 강화학습은 복잡한 학습 유형으로, 주로 규모가 크거나 수준 높은 AI 연구소에서 사용할 수 있는 고도의 머신러닝 기술을 필요로 한다.

- 강화학습은 지도 학습만큼 많은 데이터를 요구하지는 않지만, 명확한 피드백 신호가 제공되는 시뮬레이션 환경을 필요로 한다.

- 강화학습 애플리케이션을 선택적으로 사용해야 한다. 강화학습의 주요 분야는 게임 및 자동화 산업이다. 강화학습은 복잡한 자동화된 프로세스에서 점진적인 효율성 향상을 제공할 잠재력을 가지고 있다. 이는 로봇 공학, 차량 경로, 물류 및 기타 산업 제어 시나리오에 상당한 발전을 가져올 수 있다.


글 : 사니예 알래이베이(Saniye Alaybeyi) 가트너 수석 연구원 가트너 










배너









주요파트너/추천기업