마이크로소프트가 차세대 AI 추론 가속기 ‘마이아 200(Maia 200)’을 공개했다. 마이아 200은 대규모 AI 토큰 생성의 경제성을 개선하기 위해 설계된 추론 전용 가속기로 애저 환경에서 AI 모델을 보다 빠르고 효율적으로 구동하는 것을 목표로 한다. 마이크로소프트는 칩 설계부터 데이터 센터까지 아우르는 엔드투엔드 통합 구조를 통해 차세대 AI 인프라의 핵심 구성 요소로 마이아 200을 제시했다.
마이아 200은 TSMC의 3나노미터 공정을 기반으로 제작됐다. 1,400억 개 이상의 트랜지스터를 집적했으며 초당 7TB 대역폭을 제공하는 216GB HBM3e 메모리 시스템과 네이티브 FP8·FP4 텐서 코어를 결합해 대규모 모델 추론에 최적화된 구조를 갖췄다. 데이터 이동 엔진과 메모리 하위 시스템을 전면 재설계해 토큰 처리 병목을 줄이고 추론 효율을 높인 점도 특징이다.
성능 지표에서도 기존 가속기 대비 우위를 강조했다. 마이아 200은 FP4 기준으로 3세대 아마존 트레이니움 대비 3배 높은 처리량을 기록했으며 FP8 기준에서도 구글 7세대 TPU를 상회하는 성능을 보였다. 마이크로소프트는 이를 통해 자사 최신 세대 하드웨어 대비 달러당 성능을 30% 개선했다고 설명했다. 단일 칩은 750W TDP 범위에서 FP4 기준 10 PFLOPS, FP8 기준 5 PFLOPS 이상의 연산 성능을 제공해 향후 차세대 모델까지 대응 가능한 성능 여유를 확보했다.
마이아 200은 마이크로소프트의 이기종 AI 인프라 전반에서 활용된다. OpenAI의 최신 GPT-5.2 모델 최적화를 지원하며 마이크로소프트 파운드리와 마이크로소프트 365 코파일럿 서비스의 가격 대비 성능 효율을 높이는 데 기여할 예정이다. 또한 마이크로소프트 슈퍼인텔리전스 팀은 합성 데이터 생성과 강화 학습을 통한 차세대 사내 모델 개선에 마이아 200을 투입할 계획이다.
대규모 클러스터 환경을 고려한 시스템 아키텍처도 함께 공개됐다. 마이크로소프트는 표준 이더넷 기반의 2계층 스케일업 네트워크와 맞춤형 전송 계층, 통합 NIC를 적용해 독점 패브릭 없이도 성능과 신뢰성, 비용 효율을 확보했다. 각 가속기는 초당 2.8TB의 양방향 전용 스케일업 대역폭을 지원하며, 최대 6,144개 가속기를 연결한 환경에서도 일관된 성능을 유지하도록 설계됐다.
개발 및 배포 프로세스 역시 엔드투엔드 방식으로 단축됐다. 설계 초기 단계부터 LLM 연산과 통신 패턴을 반영한 프리 실리콘 환경을 구축하고 칩과 네트워크, 시스템 소프트웨어를 동시에 검증했다. 이 과정에서 데이터 센터 백엔드 네트워크와 액체 냉각 시스템까지 사전 검증을 병행해 칩 입고부터 데이터 센터 배치까지의 기간을 기존 대비 절반 이하로 줄였다는 설명이다.
마이아 200은 미국 중부 아이오와주 디모인 인근 US Central 데이터 센터 지역부터 배포가 시작되며 이후 애리조나주 피닉스 인근 US West 3 지역 등으로 확대될 예정이다. 아울러 마이크로소프트는 개발자와 연구기관을 대상으로 ‘마이아 200 SDK’ 프리뷰를 공개해 Triton 컴파일러, 파이토치 지원, NPL 프로그래밍 환경과 함께 시뮬레이터 및 비용 계산기를 제공한다. 이를 통해 개발 초기 단계부터 워크로드와 운영 효율을 정밀하게 최적화할 수 있도록 지원한다는 계획이다.
헬로티 구서경 기자 |














































