“반도체”… 고성능 AI 반도체의 기술적 이슈
하드웨어에 대한 기술적 과제, 다양한 모델 지원 가능한 유연성 ChatGPT 등장 이후 몇 개월 만에 초거대 언어 모델 추론을 높은 수준의 하드웨어 성능 요구 AI 반도체 등장은 효율적인 추론 가능하게 기계학습과 AI산업 엄청난 변화
[디지털비즈온 김맹근 기자] ChatGPT 등장 이후, 초거대 언어 모델을 중심으로 연구 영역에 있던 인공지능 모델들이 서비스 영역으로 빠르게 확산되고 있다. 구글의 연구에 따르면, 언어 모델이 일정 규모에 이르면 새로운 능력이 새롭게 밝혀내어 이루어 질 것이다.
초거대 언어 모델의 경우 사용자가 입력한 맥락으로부터 사고하는 능력인 인컨텍스트 러닝(In-Context Learning)이 창발적으로 발현되어, 특정한 태스크만 수행하는 것이 아니라 사용자가 입력한 맥락에 따라 다양한 태스크를 수행할 수 있게 된다.
하드웨어에 대한 기술적 과제
높은 메모리 대역폭 최근 각광받는 생성형 언어 모델 중 가장 대표적인 모델은 GPT-3로, 이는 사용자가 입력한 문장을 기반으로 다음 토큰(또는 단어)의 분포를 예측한다. GPT-3의 가장 큰 모델은 1750억 개의 파라미터를 가지며, 하나의 토큰을 생성할 때마다 이 모든 파라미터를 사용하여 연산을 한다.
일반적으로 사용자들은 서비스를 이용할 때 어느 정도의 서비스 요구 사항(Service Level Agreement)을 갖는다. 현재 OpenAI가 제공하는 ChatGPT의 서비스 수준이 명확히 명시되어 있 지 않지만, 몇몇 분석에 따르면 초당 50토큰 이상을 처리할 수 있는 것으로 알려져 있다.
ChatGPT가 사용하는 모델 중 하나인 GPT-3.5가 1750억 개의 파라미터를 갖고, 서버에서는 8비 트 정수 양자화를 기반으로 추론을 처리한다는 가정하에, 서버에서 제공해야 하는 메모리 대역폭은 초당 8.5TB이다. 서버 1개당 8개의 AI 반도체 칩이 사용된다면, 각 AI 반도체는 초당 1TB 이상의 메모리 대역폭을 제공해야 한다.
높은 연산 능력
최근에는 초거대 언어 모델의 컨텍스트 길이가 모델의 성능에 영향을 미치는 중요한 요소로 인 식 되고 있다. 사용자가 인컨텍스트 러닝 기능을 적극적으로 활용하는 것이 중요해짐에 따라, 초 기 컨텍스트 계산 시간은 전체 서비스 관점에서 중요한 요구사항이 되고 있다.
ChatGPT의 초기 버전인 GPT3.5 버전에서는 최대 문맥의 길이로 4000 토큰을 지원하였던 반면, 최근 버전인 GPT4에서는 최대 문맥의 길이를 3만 2000개 수준으로 크게 증가시켜 약 50페이지 분량의 글을 문맥으로 사용할 수 있다.
이후 다른 언어 모델들도 경쟁적으로 더 긴 문맥의 길이를 지원하고 있음을 발표하고 있다. 초거대 언어 모델이 기반을 둔 트랜스포머 모델들의 셀프 어텐션 계산량이 문맥 길이의 제곱에 비례하여 증가하므로, 이를 충족시키기 위해서는 현재 서비스가 수행되고 있는 GPU와 경쟁할 수 있는 수준인 최소 수백 TOPS 수준의 연산 처리능력이 필요하다.
다양한 숫자 형식 지원
초거대 언어 모델의 메모리 전송량과 연산 비용을 줄이기 위해 다양한 양자화 기법이 연구되고 있다. 현재 딥러닝 모델의 학습에 사용되는 가장 일반적 숫자 형식은 FP32이다. 하지만 다양한 연구와 프레임워크에 의해 BF16/FP16, INT8 등의 숫자 형식들이 모델의 정확도 손상을 최소화 하면서도 쉽게 도입되어 사용될 수 있도록 발전하여 왔다.
추론 비용을 낮추기 위해 널리 사용되고 있다. 나아가 FP8, INT4 혹은 4비트 이하의 양자화 기법들에 대한 연구도 적극적으로 진행되고 있으며, 성과가 점차 드러나고 있다.
다양한 모델 지원 가능한 유연성
AI 반도체는 높은 메모리 대역폭, 성능, 다양한 숫자 형식에 대한 연산 유닛을 갖춘 것은 물론, 최신 GPU보다 더 높은 에너지 효율성을 보여야 한다. 이를 위해서는 최첨단 공정을 사용해야 하며, 이러한 하드웨어 요구사항은 높은 NRE 비용을 필요로 한다.
반도체 산업의 특성상, 이러한 NRE 비용을 정당화하려면 충분히 큰 시장 규모가 필요하다. 그러므로 데이터센터용 AI 반도체는 특정한 모델에 과도하게 특화되지 않고, 최소한 일정 범위 이상의 초대형 언어 모델을 지원할 수 있는 프로그래밍 가능한 구조가 요구된다.
이종 AI 반도체를 포함한 시스템
초대형 언어 모델의 추론은 고대역폭 메모리를 필요로 하지만, 모든 딥러닝 모델이 동일한 요구조건을 가진 것은 아니다. HuggingGPT와 같은 프레임워크를 예로 들면, 다양한 태스크에 적합한 다양한 모델이 복합적으로 사용되기 때문에, 고대역폭 메모리가 필요 없고 연산이 중심인 모델에 대해서는 HBM 대신 저전력 DDR(LPDDR) 혹은 그래픽 DDR(GDDR)을 사용하는 비용 효율적 AI 반도체가 적합할 수 있다.
선제적 하드웨어 사양 결정
위에서 언급한 여러가지 하드웨어 요구사항들이 알고리즘의 빠른 발전에 의해 변화한다는 점이 하드웨어 개발을 위한 사양의 결정에 어려움을 더한다. 반도체 개발은 일반적으로 최소 2년이 상의 기간을 필요로 하므로, AI 반도체는 현재의 대표적인 딥러닝 모델들을 지원해야할 뿐 아니라, AI 반도체가 출시될 시점의 딥러닝 모델들도 지원할 수 있어야 한다.
GPT-3와 같은 초거대 언어 모델이 발표되고 상용화된 후에도 초거대 언어 모델을 추론하기 위한 AI 반도체에 대한 요구사항이 높지 않았던 반면, ChatGPT 등장 이후에는 몇 개월 만에 초거대 언어 모델을 추론하기 위한 높은 수준의 하드웨어 성능이 요구되는 현재의 상황도 반도체 시장의 이런 특성을 잘 보여준다.
결과적으로 AI 반도체의 등장은 더 빠르고 효율적인 추론을 가능하게 하면서 기계 학습과 AI 산업에 엄청난 변화를 일으켰다. ChatGPT와 같은 초거대 언어 모델의 등장과 폭발적인 확산으로 추론 인프라스트럭처의 중요성이 대두되고 있고, GPU 대비 높은 에너지 효율을 갖는 AI 반도체의 중요성을 더욱 두드러지게 만들었다.