3D시스템즈 20200123

홈 > 전자·ICT > 스페셜리포트

Advertisement


Advertisement
플루크네트웍스
매거진
잡지이미지
잡지이미지
잡지이미지
잡지이미지
잡지이미지
  • 구독신청
  • 광고안내

element 20191202

테스트

사람의 대화 이해하는 AI 기술 다가온다

입력 : 2020.08.06 14:08

[사전등록 할인] 금형기술 최고전문가 교육...사출금형부터 신기술/신공법까지 등록 선착순 30명 (10월17일)
글자크게보기 글자작게 댓글달기 좋아요 즐겨찾기

페이스북 트위터 카카오스토리 블로그

[헬로티]

 

인공지능(AI) 기술이 갈수록 진화하고 있다. 글을 이해하는 AI를 넘어 이제는 사람의 대화까지 이해할 수 있는 AI 서비스가 도래할 전망이다.

 

한국전자통신연구원(ETRI)은 지난 7월 30일, 위키백과 및 법령 등 문어체를 주로 이해하는 기존 언어분석 기술을 확장한 구어체 언어분석 기술을 공개했다.

 

 

 

구어체 언어분석 기술은 사람의 대화 분석오류를 최대 41%로 개선했다.

 

ETRI가 개발한 ‘엑소브레인(Exobrain)’은 현재 ‘한컴오피스 2020’에 탑재되는 등 이미 상용화가 이뤄진 인공지능이다.

 

엑소브레인에는 ▲언어분석 기술 ▲딥러닝 언어모델 기술 ▲질의응답 기술 등이 적용됐다.

 

특히 언어분석 API는 2017년 10월 공개 이후, 일평균 2만 6천 건 등 총 2천 6백만 건에 이를 만큼 학계 및 언어처리 분야 연구자들에게 널리 사용되고 있다.

 

연구진은 기존 문어체 기술을 고도화해 사람의 대화까지 정확하게 이해할 수 있는 구어체 언어분석 기술을 개발하는 데 성공했다. 이로써 관련 산업 생태계를 활성화하고 AI비서, 챗봇 등 AI 서비스 개발이 한층 가속화될 전망이다.

 

‘패션검색’을 주제로 AI 서비스를 하기 위해서는 기존에는 언어처리 기술 준비작업이 만만치 않았으나 ETRI 엑소브레인 API를 활용하면 서비스에 더 집중할 수 있게 되는 것이다.

 

 

▲ ETRI가 개발한 엑소브레인 기술이 장학퀴즈 왕중왕전에 출전해 우승했다. (사진 : ETRI)

 

ETRI가 공개한 구어체 언어분석 기술은 크게 ▲형태소분석 기술과 ▲개체명 인식 기술 두 가지다.

 

ETRI가 공개한 기술은 표준 가이드라인을 따르며, 형태소 태그는 47개, 개체명 태그는 146개다.

 

형태소분석 기술은 한국어 의미의 최소 단위를 분석하는 기술로 한국어 처리에 필수적으로 활용된다. 특히 지난해 딥러닝 언어모델의 기본 입력으로 적용돼 많은 기업에서도 ETRI 제안 방법과 같이 형태소분석에 기반한 딥러닝 언어모델 기술을 활용 중이다.
 
개체명 인식 기술은 문장 내 고유 대상과 그 의미를 인식하는 기술로 AI스피커와 챗봇 등 다양한 언어처리 서비스에서 활용도가 높은 기술이다.

 

예를 들어, ‘국민은행’이라는 단어가‘국민’이라는 명사와‘은행’이라는 명사의 결합이 아닌 고유 은행 명칭이라는 점을 인식하는 기술이다.

 

연구진은 구어체 언어분석의 어려운 점은 과업 자체의 난이도와 학습데이터 부족에 있다고 설명했다.

 

“경상도인데”를 “경상돈데”라고 구어체로 표현하는 경우, 기존 형태소분석 기술은 ‘경상도+인데’라는 축약 표현을 인식하지 못한 채‘경상돈+데’라고 분석하는 것이다.

 

또한, 기계학습 및 딥러닝 기술이 대규모 학습데이터를 필요로 하는 데 반해 구어체 분야는 데이터 확보조차 어렵다는 문제가 있다. 실제 개체명 인식 학습데이터의 경우, 문어체는 약 27만 건이지만 구어체는 1/10 수준인 2만 5천 건 수준에 불과했다.

 

연구진은 전이학습(transfer learning)과 데이터 증강(data augmentation) 기법을 활용하여 학습데이터 부족 한계를 극복해냈다.

 

전이학습과 데이터 증강 기법은 학습 데이터가 부족한 환경에서 딥러닝 기술 한계를 극복하기 위한 기술로 이미 존재하는 타 분야의 학습 모델과 소량의 학습데이터를 재사용하는 방식으로 학습이 이뤄진다.

 

그 결과, 본 구어체 언어분석 API는 기존 모델 대비 형태소분석과 개체명 인식 성능이 각각 5.0%, 7.6% 개선되었으며, 41.74%, 39.38%에 달하는 오류감소율을 나타냈다.

 

특히, 형태소분석은 메캡(Mecab) 오픈소스 라이브러리 대비 10.6% 더 우수한 것으로 평가됐다.

 

 

▲ ETRI 연구진이 개발한 언어모델 코버트(KorBERT)와 구글 언어모델의 알고리즘 비교표 (사진 : ETRI)

 

ETRI 연구진은 구어체 언어분석 API와 더불어 기존 대비 성능을 개선한 문어체 언어분석 API도 추가로 공개했다. 추가로 공개된 API는 형태소분석과 개체명 인식 기술이 각각 96.80%, 89.40%의 높은 정확도를 보였다.

 

임준호 ETRI 언어지능연구실 박사는 “기존 엑소브레인 언어분석 기술이 백과사전 및 법령을 분석하기 위한 목적으로 개발되었음에도 구어체 분야에 많이 적용되고 있었다. 이번 구어체 언어분석 API 공개로 언어분석의 정확도 및 신뢰도를 제고해 국내 인공지능 시장이 더욱 활성화되길 기대한다”고 밝혔다.

 

엑소브레인 사업단은 최근 3년간 기술이전 22건과 사업화 17건을 달성하여 외산 인공지능 솔루션의 국내시장 잠식을 막는 동시에 응용 서비스의 폭을 넓히는 데 힘쓰고 있다.

 

추후 딥러닝 언어모델의 지속적인 성능 개선 및 추가 공개를 통해 AI 기술 고도화 및 플랫폼 개발에 기여할 계획이다.

 

이번 과제는 2013년부터 과학기술정보통신부와 정보통신기획평가원(IITP)의 혁신성장동력 프로젝트로 수행 중이며, ETRI가 총괄 및 1세부과제를 담당하여 전체 세부과제를 이끌고 있다. 

/김동원 기자(eled@hellot.net)

이 기사는 의 요약글입니다. <기사 상세내용보기>를 클릭하시면 전체 기사를 보실 수 있습니다.

기사 상세내용보기

어드밴텍 2019.11.25
디지키 2020.09
이전글
SK텔레콤, 2020년 2분기 실적 발표…언택트 특화된 신사업으로 성장동력 확보
다음글
인텔, VM웨어와 함께 무선접속망용 통합 소프트웨어 플랫폼 개발 박차
FLIR
성안당_내인생의갑
주요 광고주 / 추천기업

(주)코닥트 케이블케리어

F&B Soultion co. 엔코더

(주)동화기업 오일쿨러/유압부품

트윈컴퍼니 Bolting최적솔루션

바움뉴텍 하모닉감속기

세원정밀전자 오토스위치

삼원액트(주) FA제어반배선기기

신한전자기기 크레인안전장치

티아이씨(주) 볼스크류

(주)이디에스 감속기

(주)맵스코 볼 스크류 / LM가이드

KEM 공작기계관련부품

토마스케이블 케이블

SPK한국스테어펌프 펌프

효성훼바 모터콘트롤러

나라삼양감속기 감속기

케이씨티앤에스 소재부품

마이클앤솔루션 튜브넘버링기

엔아이피 머신비전

플루크네트웍스 테스터기

엘리먼트14 전자부품

SEC e-beam

에스디상사 공구

FAMAX 공장자동화

지브라 자동인식 산업

더블유케이티 절연제품

성안당 기술서적

댓글쓰기

0/500

등록
전체 댓글수 0

최신순 | 인기순

    댓글이 없습니다.