향상된 멀티모달 기능 제공해 다양한 형태의 정보 이해 및 처리
구글이 새로운 에이전트 시대를 위한 ‘에이전트형(agentic) AI 모델’인 ‘제미나이 2.0’을 출시했다.
제미나이 2.0은 지금까지 구글이 선보인 모델 중 가장 뛰어난 성능을 자랑하는 모델이다. 네이티브 이미지 및 오디오 출력, 네이티브 툴 사용 등 향상된 멀티모달 기능을 제공해 텍스트, 이미지, 동영상, 오디오, 코드 등 다양한 형태의 정보를 자연스럽게 이해하고 처리한다. 구글은 제미나이 2.0을 통해 비전으로 제시하는 ‘유니버설 어시스턴트’에 한 발짝 다가섰다고 밝혔다.
제미나이 2.0을 기반으로 새롭게 개선된 프로젝트 아스트라는 다국어 대화, 구글 툴(구글 검색, 구글 렌즈, 맵스 등) 사용, 최대 10분 동안의 대화를 기억하는 향상된 메모리, 빠른 응답 속도 등의 기능을 제공한다. 구글은 이러한 기능을 구글의 AI 어시스턴트인 제미나이 앱 등 구글 제품은 물론, 다른 폼 팩터에도 도입하기 위해 노력하고 있다.
복잡한 작업을 도와주는 에이전트인 ‘프로젝트 마리너’는 웹 브라우저에서 작동하는 에이전트 프로토타입으로, 픽셀 및 텍스트, 코드, 이미지, 양식과 같은 웹 요소를 포함해 브라우저 화면의 정보를 이해하고 추론한 다음, 실험적인 크롬 확장 프로그램을 통해 해당 정보를 활용해 작업을 완료한다. 개발자를 위한 AI 에이전트인 ‘줄스’는 깃허브 워크플로우에 직접 통합돼 개발자의 지시와 감독 하에 이슈를 처리하고, 계획을 세우고 실행하는 기능을 갖췄다.
구글은 제미나이 2.0을 사용해 비디오 게임의 가상 세계 탐색을 지원하는 에이전트를 구축했다. 이 에이전트는 화면의 동작만을 기반으로 게임에 대해 추론하고, 실시간 대화를 통해 다음에 무엇을 해야 할지 제안할 수 있다. 가상 게임의 동반자 역할은 물론, 구글 검색을 활용해 웹 상의 풍부한 게임 지식을 제공할 수도 있다. 이 외에도 구글은 제미나이 2.0의 공간 추론 기능을 로봇 공학에 적용해 물리적 세계에서 도움을 줄 수 있는 에이전트를 실험하고 있다.
제미나이 2.0은 구글 검색의 AI 개요 기능에도 적용돼 고급 수학 방정식, 멀티모달 쿼리, 코딩 등 더욱 복잡한 질문에 대한 답변을 제공하도록 개선될 예정이다. 전 세계 제미나이 이용자는 데스크톱 및 모바일 웹에서 제미나이 앱을 통해 제미나이 2.0 플래시 실험 버전을 AI 어시스턴트로 사용할 수 있다. 구글은 제미나이 2.0을 다양한 제품 및 서비스에 적용해 이용자 경험을 혁신할 계획이다.
제미나이 2.0 플래시 실험 모델은 구글 AI 스튜디오 및 버텍스 AI를 통해 모든 개발자가 사용할 수 있다. 개발자는 제미나이 2.0을 활용해 텍스트, 오디오 및 이미지를 포함한 통합 응답을 생성하고, 구글 검색 및 코드 실행과 같은 툴을 활용하는 애플리케이션을 구축할 수 있다. 구글은 개발자들이 제미나이 2.0을 통해 혁신적인 AI 애플리케이션을 구축할 수 있도록 지원하고 있다.
한편, 구글은 제미나이 2.0 개발 과정에서 안전 및 책임 문제를 최우선으로 고려하여 잠재적 위험을 완화하기 위한 노력을 기울이고 있다. 이를 위해 '책임 및 안전 위원회(RSC)'와 협력하여 잠재적 위험을 식별하고, 'AI 지원 레드 티밍'을 통해 모델의 안전성을 지속적으로 개선하고 있다.
구글은 제미나이 2.0 학습에 사용된 6세대 TPU '트릴리움(Trillium)'을 일반 이용자에 공개하기도 했다. 트릴리움은 이전 세대 TPU보다 훈련 성능, 추론 처리량 및 에너지 효율성이 크게 향상돼 다양한 AI 워크로드에 적합하다. 기업 및 스타트업은 트릴리움을 통해 더 빠르게 AI 혁신을 이루고 우수한 AI 솔루션을 제공한다.
헬로티 서재창 기자 |