배너
닫기
배너

오라클·AMD, MI355X GPU로 클라우드 AI 인프라 강화한다

URL복사

 

MI355X GPU 기반으로 하는 제타스케일 AI 슈퍼클러스터를 OCI 상에서 제공

 

오라클과 AMD가 클라우드 기반 대규모 AI 훈련 및 추론 워크로드에 대응하기 위해 손을 맞잡았다. 양사는 오라클 클라우드 인프라스트럭처(OCI)에 AMD의 최신 GPU인 Instinct MI355X를 도입할 계획을 23일 공식 발표했다. 이번 협력은 생성형 AI, LLM 등 점차 고도화되는 AI 워크로드 수요에 대응하기 위한 인프라 고도화 전략의 일환이다.

 

오라클은 MI355X GPU를 기반으로 하는 제타스케일 AI 슈퍼클러스터를 OCI 상에서 제공한다. 해당 클러스터는 최대 131,072개의 MI355X GPU로 구성될 수 있으며, 고처리량과 초저지연을 위한 RDMA 기반 클러스터 네트워크 아키텍처를 채택해 대규모 AI 훈련, 추론, 미세조정 작업을 효율적으로 처리할 수 있다.

 

MI355X GPU는 전 세대 대비 최대 2.8배 향상된 처리량과 3배에 달하는 컴퓨팅 성능을 제공하며, 288GB HBM3 고대역폭 메모리와 최대 8TB/s의 메모리 대역폭을 지원한다. 새로운 4비트 부동 소수점(FP4) 연산 기능은 대용량 모델의 비용 효율적 배포에 적합하며, 고속 추론 환경을 구현하는 데 효과적이다.

 

하드웨어 설계에서도 고밀도 수냉식 방식이 적용됐다. 랙당 최대 64개의 GPU가 탑재되며, 랙당 소비 전력은 125kW 수준으로 성능 밀도를 극대화한다. 또한, 최대 3TB의 시스템 메모리를 갖춘 AMD의 고성능 CPU ‘투린(Turin)’이 헤드 노드로 사용되어 작업 오케스트레이션과 데이터 전처리에 최적화된 구성을 제공한다.

 

오픈소스 호환성 측면에서도 AMD는 강점을 보이고 있다. MI355X는 ROCm 소프트웨어 스택을 통해 오픈소스 기반 AI 및 HPC 개발 환경을 지원하며, 기존 코드의 이식성도 높다. ROCm은 널리 사용되는 라이브러리, 컴파일러, 런타임을 포함해 특정 벤더에 종속되지 않는 유연한 개발 환경을 제공한다.

 

오라클은 이번 GPU 인프라 도입과 함께 AMD의 차세대 AI NIC인 ‘폴라라(Pollara)’를 백엔드 네트워크에 최초로 배포한다. 이 네트워크 인터페이스는 RoCE(RDMA over Converged Ethernet) 기반의 고성능·저지연 통신을 지원하며, UEC(울트라 이더넷 컨소시엄) 표준 기반의 개방형 네트워크 설계를 구현한다.

 

오라클 OCI의 마헤쉬 티아가라얀 부사장은 “클라우드 상에서 가장 까다로운 AI 워크로드를 처리하기 위해 AMD와 협력해 최적의 인프라 구성을 제공하게 됐다”고 밝혔다. AMD 데이터센터 솔루션 비즈니스를 총괄하는 포레스트 노로드 부사장도 “오라클과의 협력을 통해 고성능, 유연성, 효율성 모두를 갖춘 AI 환경을 고객에게 제공하겠다”고 강조했다.

 

양사의 협업은 AI 도입 확대에 따른 인프라 수요에 전략적으로 대응하는 한편, 고객에게 더 많은 선택지를 제공한다는 점에서 의미가 크다. 특히 대형 LLM 훈련과 같은 대규모 작업을 신속하고 안정적으로 수행해야 하는 기업들에게 새로운 대안으로 주목받을 전망이다.

 

헬로티 서재창 기자 |









배너




배너

배너


배너


주요파트너/추천기업