저사양의 기기에서도 거대언어모델(LLM)을 구동하는 최적화 서비스 공식 오픈 기존 하드웨어 교체 없이 빠른 추론 속도와 높은 성능 구현 ‘눈길’ 노타가 거대언어모델(LLM) 최적화 서비스를 공개했다. 이번 서비스는 저사양의 기기에서도 거대언어모델(LLM)을 구현하는 기술로, 디바이스 사양에 관계 없이 LLM과 시각언어모델(VLM)을 최적화하는 점이 특징이다. 사측은 모델의 성능은 유지하면서도 빠른 추론 속도를 가능하게 하는 것을 핵심 강점으로 내세운다. 해당 기술은 생성형 AI(Generative AI)가 하드웨어에 빠르게 적용되는 시장 환경에 맞춰, 클라우드 및 온디바이스(On-device) 환경 등에서 자유롭게 구동된다. 노타 측은 가전제품·모빌리티 등 하드웨어 교체 비용이 부담되는 기업들이 최신 성능의 LLM 서비스를 도입하게 됐다고 강조했다. 또한 다양한 칩셋에서 호환이 가능하고, 복잡한 파라미터를 가진 LLM의 높은 최적화 난이도에 대응할 수 있다. 경량화를 통해 메모리·연산 효율을 향상시키고, LLM 사용에 따른 디바이스 전력 및 클라우드 운영 비용 절감 효과 또한 강점이다. 더불어 기존 하드웨어를 그대로 활용하기 때문에 별도의 인프라 투자 없이
[헬로티] AI 반도체 전문 기업인 그래프코어(Graphcore)는 그래프코어의 2세대 IPU(지능 처리 장치: Intelligence Processing Unit) 플랫폼인 ‘IPU-머신 M2000(IPU-Machine M2000)’을 출시했다. 해당 솔루션은 보다 큰 처리 능력과 메모리, 내장된 확장성을 바탕으로 극도의 머신 인텔리전스 워크로드를 처리 가능하며, 데이터센터급 연산 성능을 구현할 수 있다. IPU-머신 M2000은 플러그 앤 플레이 방식의 머신 인텔리전스 컴퓨팅 블레이드로, 간편한 구축을 위해 설계되었으며 대규모 확장이 가능한 시스템을 지원한다. 슬림한 블레이드 유닛 하나로 1 페타플롭(PetaFlop)에 달하는 머신 인텔리전스 컴퓨팅 성능을 구현하며, 인공지능(AI)의 스케일아웃(scale-out)에 최적화된 통합 네트워킹 기술을 탑재했다. ▲ IPU-머신 M2000 각각의 IPU-머신 M2000은 그래프코어의 새로운7나노미터(nm) 콜로서스 Mk2 GC200 IPU(Colossus Mk2 GC200 IPU) 프로세서 4개에 의해 구동되며, 그래프코어의 포플러(Poplar) 소프트웨어 스택의 완벽한 지원을 받는다. 기