ADVERTISEMENT

카카오, ‘GPU 확보 사업’ 인프라 구축…연내 목표 초과 달성

자체 DC 활용, GPU ‘B200’ 도입 및 안정적 운영
연내 목표 초과 255노드 구축, 전체 물량 84% 달성
내년 1월 2일 베타서비스, 산·학·연 최신 컴퓨팅 제공

카카오 데이터센터 안산 전경. [카카오 제공]

[헤럴드경제=고재우 기자] 카카오는 정부 주도 ‘그래픽처리장치(GPU) 확보 사업’의 최종 사업자 선정 이후, 최신 GPU 인프라 구축을 성공적으로 진행 중이라고 29일 밝혔다.

이를 통해 국내 인공지능(AI) 연구 및 개발 환경 지원에 본격적으로 나설 방침이다.

GPU 확보 사업은 정부가 AI 3대 강국을 위한 핵심 인프라인 GPU를 민간에 지원하는 국책사업이다. 지난 8월 카카오는 최종 사업자로 선정됐다. 이를 통해 카카오는 GPU ‘B200’ 2424장을 확보 및 구축하고, 이를 5년간 위탁 운영할 계획이다.

세부적으로 카카오는 경기도 안산시에 위치한 ‘카카오 데이터센터 안산’을 기반으로 대규모 GPU 인프라 구축을 진행하고 있다. 자체 데이터센터의 인프라 역량과 GPU 클러스터 구축 및 운영 노하우를 바탕으로, 당초 계획 대비 구축 일정을 앞당겼다. 현재 전체 할당량의 약 84%에 해당하는 255노드(GPU 2040장)의 인프라 구축을 완료했다. 연내 구축 목표치인 64노드 대비 4배를 상회한다.

조기 구축 성과는 카카오 데이터센터 안산의 고도화된 인프라 역량에 기인한다는 게 카카오 설명이다. 카카오는 GPU 확보부터 구축, 운영 준비에 이르는 전 과정에 거쳐 프로젝트 관리를 수행했다. 공급사와의 협력을 통해 핵심 장비를 조기에 확보했다. 사전 기술 검증(PoC)을 통해 실제 가동 단계에서 발생할 수 있는 리스크도 사전에 점검하고 최소화했다.

또 카카오 데이터센터 안산은 고집적 서버 운영에 필수적인 안정적인 전력 공급, 냉각 등 시스템을 선제적으로 마련했다. 특히 ‘열 복도 밀폐시스템’을 통해 고성능 GPU 서버에서 발생하는 열을 효과적으로 관리하는 등 냉각 효율을 극대화했다.

카카오 데이터센터 안산 전경. [카카오 제공]

이와 함께 이용자가 AI 모델 개발에 집중할 수 있는 소프트웨어 환경도 지원한다. 국가 AI 컴퓨팅 자원 지원 포털과 연동된 통합 플랫폼을 통해 이용자가 카카오클라우드로 손쉽게 진입할 수 있도록 했다. 카카오클라우드의 AI 플랫폼인 쿠브플로우도 제공했다.

카카오클라우드 쿠브플로우는 클라우드 네이티브 환경에서 보다 쉽고, 빠르게 머신러닝 워크플로우를 구축하고 실행할 수 있도록 지원하는 플랫폼이다. 이를 통해 연구자가 머신러닝 워크플로를 자동화하고, 클라우드 리소스를 효율적으로 관리할 수 있도록 돕는다.

현재 카카오는 구축을 완료한 255노드에 대해 네트워크 및 성능 테스트를 진행 중이다. 내년 1월 2일부터는 과학기술정보통신부가 베타서비스 공모를 통해 선정한 산·학·연 과제에 최신 컴퓨팅 자원을 제공할 예정이다.

김세웅 카카오 AI시너지 성과 리더는 “대규모 GPU 인프라를 안정적으로 구축하고 운영하는 것은 AI 경쟁력의 핵심” 이라며 “카카오의 데이터센터 및 클라우드 역량을 바탕으로 국내 AI 생태계 발전에 기여해 나가겠다”고 말했다.