배너
닫기
배너

알리바바 'Qwen시리즈' 코딩·추론·멀티모달 전방위 고도화로 글로벌 AI 경쟁 가세

URL복사

 

알리바바 그룹이 복잡한 업무와 소프트웨어 개발을 자율적으로 수행하는 'Qwen3.6-Plus'와 텍스트·음성·이미지·영상 전반을 통합 처리하는 'Qwen3.5-Omni'를 공개했다.


Qwen3.6-Plus는 에이전틱 코딩과 멀티모달 추론 역량을 강화한 플래그십 모델 시리즈 최신 버전이다. 핵심은 인식·추론·행동을 하나의 워크플로 내에서 연결하는 '능력 루프(Capability Loop)' 구조로 초기 코드 구상부터 테스트·반복 개선을 거쳐 실제 적용 가능한 결과물까지 전 과정을 일관되게 지원한다. 프론트엔드 웹 개발과 저장소 단위 엔지니어링 작업에서 목표 분해부터 최종 정제까지 자율 수행이 가능하며 기본 100만 토큰 컨텍스트 창을 지원한다.

 

또한 멀티모달 추론 측면에서는 고밀도 문서 파싱, 실제 환경 시각 분석, 장편 영상 추론 등 복합 작업을 처리할 수 있으며, UI 스크린샷·손그림 와이어프레임·제품 프로토타입을 해석해 동작 가능한 프론트엔드 코드도 생성한다. Model Studio와 Qwen Chat에서 사용할 수 있고 OpenClaw·Claude Code·Cline 등 외부 코딩 도구와도 호환된다.


Qwen3.5-Omni는 텍스트·음성·이미지·영상·동기화된 음성-영상 콘텐츠를 단일 모델에서 처리하는 옴니모달 AI다. Plus·Flash·Light 세 가지 버전으로 제공되며 모두 최대 256K 토큰 컨텍스트를 지원한다. 최상위 모델인 Qwen3.5-Omni-Plus는 200개 이상의 벤치마크에서 최고 수준 성능을 기록했다. 알리바바 그룹이 밝힌 바에 따르면, 해당 모델은 음성 이해·추론·음성 인식·다국어 번역·대화 영역에서 Gemini 3.1 Pro보다 우수한 성능을 보였다.

 

Hybrid-Attention Mixture-of-Experts 아키텍처를 기반으로 10시간 이상의 연속 오디오를 처리할 수 있으며, 음성 인식은 113개 언어 및 방언, 음성 생성은 36개 언어 및 방언을 지원한다. 더불어 'Audio-Visual Vibe Coding' 기능을 통해 손으로 그린 스케치와 음성 설명만으로 앱·웹사이트·미니게임용 동작 가능한 UI를 생성하는 프로토타이핑도 지원한다.

 

헬로티 구서경 기자 |













배너

배너


배너


주요파트너/추천기업