데이터 센터와 AI 시대를 위한 네트워킹
미래를 형성하고 AI 시대를 촉진하기 위해 네트워킹 수행 AI 공장과 AI 클라우드라 두 가지 별개의 데이터 센터 클래스가 현재 등장 AI 실무자들은 분산 컴퓨팅과 분산 컴퓨팅으로 눈을 돌려 AI의 시대가 왔고, 네트워크는 성공의 초석이다
[디지털비즈온 김맹근 기자] 전통적인 클라우드 데이터 센터는 다양한 사용자와 애플리케이션을 수용하면서 10년 이상 컴퓨팅 인프라의 기반 역할을 해왔다. 그러나 최근 몇 년 동안 데이터 센터는 기술의 발전과 AI 기반 컴퓨팅에 대한 급증하는 수요에 발맞추기 위해 진화했다. 이 게시물은 데이터 센터의 미래를 형성하고 AI 시대를 촉진하기 위해 네트워킹이 수행하는 중추적인 역할을 엔비디아의 브라이언을 통해 살펴보자.
AI 공장 및 AI 클라우드
AI 공장과 AI 클라우드라는 두 가지 별개의 데이터 센터 클래스가 현재 등장하고 있다. 이 두가지 모두 가속 컴퓨팅에 의존하는 것이 특징인 AI 워크로드의 고유한 요구를 충족하도록 조정되었다.
AI 공장은 대규모의 대규모 워크플로우와 대형 언어 모델(LLM) 및 기타 기반 AI 모델 개발을 처리하도록 설계되었다. 이 모델은 보다 발전된 AI 시스템을 구축하는 구성 요소이다. 수천 개의 GPU에서 원활한 확장과 효율적인 리소스 활용을 가능하게 하려면 강력하고 고성능의 네트워크가 필수적이다.
AI 클라우드는 대규모 생성 AI 애플리케이션을 지원하기 위해 기존 클라우드 인프라의 기능을 확장한다. 생성 AI는 훈련된 데이터를 기반으로 이미지, 텍스트 및 오디오와 같은 새로운 콘텐츠를 생성하여 기존 AI 시스템을 뛰어 넘다. 수천 명의 사용자가 있는 AI 클라우드를 관리하려면 고도의 관리 도구와 다양한 워크로드를 효율적으로 처리할 수 있는 네트워킹 인프라가 필요한다.
AI 및 분산 컴퓨팅
AI 워크로드는 특히 ChatGPT 및 BERT와 같은 크고 복잡한 모델을 포함하는 계산 집약적이다. 모델 교육과 방대한 데이터 세트 처리를 신속하게 하기 위해 AI 실무자들은 분산 컴퓨팅으로 눈을 돌렸다. 이 접근 방식은 상호 연결된 여러 서버 또는 고속의 저지연 네트워크를 통해 연결된 노드에 워크로드를 분산하는 것을 포함한다.
분산 컴퓨팅은 AI의 성공에 중추적이며, 점점 더 많은 노드를 처리할 수 있는 네트워크의 확장성과 용량이 중요한다. 확장성이 뛰어난 네트워크를 통해 AI 연구자는 더 많은 계산 리소스를 활용하여 더 빠르고 향상된 성능을 얻을 수 있다.
AI 데이터 센터를 위한 네트워크 아키텍처를 만들 때는 분산 컴퓨팅을 최우선으로 하는 통합 솔루션을 만드는 것이 필수적이다. 데이터 센터 설계자는 네트워크 설계를 신중하게 고려하고 배치하려는 AI 워크로드의 고유한 요구에 맞게 솔루션을 조정해야 한다.
NVIDIA Quantum-2 InfiniBand와 NVIDIA Spectrum-X는 각각 고유한 기능과 혁신을 갖춘 AI 데이터 센터의 네트워킹 과제를 충족하도록 특별히 설계되고 최적화된 두 개의 네트워킹 플랫폼이다.
InfiniBand는 AI 성능을 주도
InfiniBand 기술은 복잡한 분산 과학 컴퓨팅을 위한 대규모 슈퍼컴퓨팅 배치의 원동력이 되었다. AI 공장의 사실상 네트워크가 되었다. 초저지연으로 InfiniBand는 오늘날의 주류 고성능 컴퓨팅(HPC) 및 AI 애플리케이션을 가속화하는 핵심 요소가 되었다. 효율적인 AI 시스템에 필요한 많은 중요한 네트워크 기능은 NVIDIA Quantum-2 InfiniBand 플랫폼을 기본으로 한다.
InfiniBand에 의해 구동되는 인-네트워크 컴퓨팅은 하드웨어 기반 컴퓨팅 엔진을 네트워크에 통합한다. 이를 통해 복잡한 작업을 대규모로 오프로드하고 네트워크 내 집계 메커니즘인 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)을 활용할 수 있다. SHARP는 여러 개의 동시 집합 작업을 지원하여 데이터 감소 및 성능 향상을 위해 데이터 대역폭을 두 배로 늘린다.
InfiniBand 혼잡 제어 아키텍처는 결정적인 대역폭과 지연 시간을 보장한다. 3단계 프로세스를 사용하여 혼잡을 관리하여 AI 워크로드의 성능 병목 현상을 방지한다. 이러한 고유의 최적화를 통해 InfiniBand는 AI 애플리케이션의 요구 사항을 충족할 수 있으며, 궁극적으로 우수한 성능과 효율성을 이끌어낸다.
AI 구축을 위한 탐색 이더넷
AI 인프라를 위해 이더넷 네트워크를 구축하려면 이더넷 프로토콜에 고유한 요구사항을 해결해야 한다. 시간이 지남에 따라 이더넷은 광범위하고 포괄적이며 복잡한 기능 세트를 통합하여 광범위한 네트워크 시나리오를 충족시켜 왔다.
여러 AI 작업이 동시에 실행되는 멀티 테넌트 환경에서는 성능 저하를 방지하기 위해 성능 격리가 중요한다. 링크 장애가 발생하면 기존 이더넷 패브릭으로 인해 클러스터의 AI 성능이 절반으로 떨어질 수 있다. 이는 기존의 이더넷이 주로 일상적인 엔터프라이즈 워크플로우에 최적화되었으며 NCCL(Navidia Collective Communications Library)에 의존하는 고성능 AI 애플리케이션의 요구를 충족하도록 설계되지 않았기 때문이다.
Spectrum-X 네트워킹 플랫폼은 이러한 문제 등을 해결한다. 스펙트럼-X는 RDCE(Converged Ethernet) 확장을 통한 RDMA를 갖춘 표준 이더넷 프로토콜을 기반으로 하여 AI의 성능을 향상시킵니다. 이러한 확장 기능은 InfiniBand 고유의 모범 사례를 활용하며 이더넷에 적응형 라우팅 및 혼잡 제어와 같은 혁신을 제공한다.
Spectrum-X는 NVIDIA BlueField-3 DPU와 긴밀하게 협력하여 작동하는 Spectrum-4 덕분에 멀티 테넌트 생성 AI 클라우드에 필요한 고효율 대역폭과 성능 격리를 제공하는 유일한 이더넷 플랫폼이다.
결과적으로 AI의 시대가 왔고, 네트워크는 성공의 초석이다. AI의 잠재력을 충분히 수용하려면 데이터 센터 설계자는 네트워크 설계를 신중하게 고려하고 이러한 설계를 AI 워크로드의 고유한 요구에 맞게 조정해야 한다. 네트워킹 고려 사항을 해결하는 것은 AI 기술의 잠재력을 최대한 발휘하고 데이터 센터 산업의 혁신을 이끄는 열쇠이다.
NVIDIA Quantum InfiniBand는 초저지연, 확장 가능한 성능 및 고급 기능 세트 덕분에 AI 공장에 이상적인 선택이다. NVIDIA Spectrum-X는 AI를 위해 특별히 개발된 기술 혁신을 통해 이더넷 기반의 AI 클라우드를 구축하는 조직에 획기적인 솔루션을 제공한다.