“슈퍼컴퓨터”… 엑사스케일로 배우는 SW생태계

딥러닝은 대규모 데이터를 인공신경망 모델로 학습시켜 패턴 인식 NVIDIA는 독점수준의 딥러닝 가속기 공급기업 등극 AI가 엑사스케일 슈퍼컴퓨터 방향 제시

2022-10-16 김맹근 기자

슈퍼컴퓨터 자료 : https://www.flickr.com/photos/olcf/52117839159/in/photostream/자료 : pixabay의 두개 합성 사진임

[디지털비즈온 김맹근 기자] 2022년 5월 30일 독일에서 개최된 국제 슈퍼컴퓨팅 컨퍼런스(International Supercomputing Conference, ISC)에서는 최초의 엑사스케일 슈퍼컴퓨터인 미국의 프론티어(Frontier)가 공개됐다. 엑사스케일(Exascale)이란 1초에 100경번 연산을 처리할 수 있는 단일 시스템을 의미한다.

만약 전 세계 77억 인구가 1초에 한번의 연산을 수행한다고 가정할 때, 100경번 연산을 하기 위해서는 약 6년이 소요된다. 이러한 계산을 단 1초에 수행할 수 있는 엑사스케일 슈퍼컴퓨터는 페타(peta-, 1015)에서 엑사(exa-, 1018)로 계산의 스케일이 변경되는 상황이다.

대표적인 가속기에는 그래픽 연산처리장치(Graphical Processing Unit, GPU)가 있다. GPU는 각종 그래픽 작업, 3D 모델링 등에 활용하기 위해 반복적이고 규모가 큰 계산에 최적화된 하드웨어이다. GPU는 수천 개의 계산 가능한 코어를 갖는 시스템으로 병렬처리를 통한 막대한 계산량에 강점을 가지고 있어 슈퍼컴퓨터의 영역에서도 큰 주목을 받았다.

GPU는 2010년부터 본격적으로 슈퍼컴퓨터에 탑재되어 지속적인 성장세를 이어갔다. 특히 GPU를 생산하는 주요 기업인 NVIDIA에서는 GPU 프로그래밍 도구인 CUDA(Compute Unified Device Architecture)를 개발 및 보급하고, AMD와 Intel은 오픈소스 프레임워크인 OpenCL(Open Computing Language)를 지원하여 가속기 컴퓨팅 시대를 열었다.

GPU의 가능성이 정체되어있는 가운데 Intel은 2013년부터 본격적으로 자사의 SW생태계를 활용한 계산 전용 가속기인 Xeon Phi를 출시하게 된다. Xeon Phi는 CPU에서 사용되는 고성능 라이브러리를 그대로 활용할 수 있는 하드웨어로 구성되어, 기존에 슈퍼컴퓨터를 활용하던 연구진의 수요를 성공적으로 흡수했다.

우리나라 슈퍼컴퓨터 5호기인 누리온 역시 Xeon Phi를 선택했을 정도로 Xeon Phi는 슈퍼컴퓨터에서 GPU를 대체할 수 있는 계산자원으로 각광받았다.

Xeon Phi가 슈퍼컴퓨터에서 지분을 넓혀가던 중 2016년 알파고 대국이 개최된다. 알파고로 인해 인공지능(이하 AI)이 급격하게 확산됨에 따라, 알파고의 근간이 된 딥러닝 기술에 대한 폭발적인 수요가 발생했다. 딥러닝은 대규모 데이터를 깊은 인공신경망 모델로 학습시켜 패턴을 인식하거나 현상을 예측하는 기술이다.

특히 딥러닝은 계산적인 측면에서 큰 의미를 갖는다. 먼저 깊은 인공신경망을 대규모 데이터로 학습한다는 행위는 컴퓨팅 파워의 절대적인 수요로 이어지고, 최적의 결과를 도출하기 위해 다양한 모델을 학습시키는 귀납적 과정을 필요로 하기 때문이다.

이러한 딥러닝의 기술적 속성은 고성능 가속기의 수요로 이어졌다. 특히 가격대비 성능이 우수한 가속기인 GPU가 다시 주목을 받게 된다. GPU는 딥러닝 전용 하드웨어로 자리매김함에 따라 슈퍼컴퓨터의 가속기에도 영향을 미쳤다.

딥러닝 SW생태계를 착실하게 강화한 NVIDIA는 독점수준의 딥러닝 가속기 공급기업으로 등극하게 된다. 또한 슈퍼컴퓨터급 계산자원을 활용한 AI 연구 성과(신경망 구조 탐색, 거대 언어모델 등)가 등장함에 따라 슈퍼컴퓨터에서의 주요 응용 분야로 AI가 큰 주목을 받게 된다.

이렇게 AI로 향하는 환경의 변화는 전통적인 슈퍼컴퓨터의 수요를 충족시키려 했던 Xeon Phi의 단종(2020년)으로 이어진다. Xeon Phi는 딥러닝에서 가격대비 성능으로 GPU에 비교우위를 점할 수 없었기 때문이다.

슈퍼컴퓨터 가속기의 주류는 AI의 등장으로 Xeon Phi에서 다시 GPU로 향하고 있다. 특히 현재까지 공식적으로 개발을 발표한 엑사스케일 슈퍼컴퓨터는 모두 GPU를 탑재한 시스템으로 구성되어 있다. 이 사실은 바로 AI가 엑사스케일 슈퍼컴퓨터의 방향을 제시하고 있다는 것을 의미한다.

현재 우리가 흔하게 접할 수 있는 딥러닝 공개SW인 텐서플로우나 파이토치를 보면 자동으로 NVIDIA GPU를 사용하기 위한 라이브러리인 cuBLAS(CUDA Basic Linear Algebraic Subroutines)와 cuDNN(CUDA Deep Neural Network)이 설치되는 것을 알 수 있다. 이 라이브러리는 GPU 병렬처리에 대한 지식이 없어도 GPU를 최대한 활용할 수 있게 하기 때문에, 과거 Intel과 마찬가지로 사용의 편의성과 성능을 모두 확보했다.

엑사스케일 슈퍼컴퓨터로 다변화되는 GPU 업계도 바로 SW생태계에 주목해야 한다. 먼저 가격 경쟁력을 확보하여 보다 많은 사용자를 유입시키고, 사용자가 주는 피드백을 최대한 빠르게 처리하여 최적화하는 과정이 필수적일 것이다. 우리 나라가 중점적으로 투자하고 있는 AI 칩이나 반도체 역시 SW생태계의 힘을 간과해서는 안이 된다.

보다 많은 사용자를 유입시켜 지속적으로 개선해 나가 더 많은 사용자를 유입시키는 SW생태계의 선순환은 하드웨어의 우수성보다도 더 중요 하다는 사실을 반드시 기억해야 한다.