
Gen AI 시대에 적합하지 않은 컴퓨팅 자원
아마존 웹 서비스(AWS)는 2006년에 출시된 아마존의 클라우드 컴퓨팅 플랫폼으로, 전 세계의 개발자와 기업들에게 컴퓨팅 파워, 데이터베이스 스토리지, 콘텐츠 전송 등 다양한 서비스를 제공합니다. AWS는 수많은 기업과 개인들에게 클라우드 서비스를 제공하며, 기업용 클라우드 인프라 시장의 점유율에서 큰 차이를 보이고 있습니다.
AWS의 주요 서비스는 다음과 같습니다:
1. 컴퓨팅: 가상 서버(EC2), 컨테이너 관리(ECS, EKS), 서버리스 컴퓨팅(Lambda) 등 다양한 컴퓨팅 옵션을 제공합니다.
스토리지: 객체 스토리지(S3), 블록 스토리지(EBS), 파일 스토리지(EFS) 등의 스토리지 서비스를 제공하여 데이터를 안전하게 저장하고 관리할 수 있습니다.
2. 데이터베이스: 관계형 데이터베이스(RDS), NoSQL 데이터베이스(DynamoDB), 데이터 웨어하우스(Redshift) 등 다양한 데이터베이스 서비스를 제공합니다.
3. 인공지능 및 머신러닝: Amazon SageMaker를 통해 머신러닝 모델을 개발하고 배포할 수 있으며, 다양한 AI 서비스(예: Amazon Lex, Amazon Polly, Amazon Rekognition 등)를 제공하여 음성, 이미지 등의 데이터를 분석할 수 있습니다.
4. 인터넷 오브 띵(IoT): IoT 디바이스를 연결하고 관리할 수 있는 AWS IoT Core 및 다양한 IoT 서비스를 제공합니다.
5. 보안: AWS Identity and Access Management(IAM), AWS Key Management Service(KMS), AWS Certificate Manager(ACM) 등 다양한 보안 관리 서비스를 통해 클라우드 인프라의 보안을 강화할 수 있습니다.
이 외에도 AWS는 네트워킹, 개발자 도구, 관리 및 모니터링, 애플리케이션 통합, 분석, 미디어 서비스 등 다양한 분야에서 서비스를 제공하여 고객이 전체적인 IT 인프라를 효율적으로 관리하고 빠르게 개발할 수 있는 환경을 제공합니다.
지금까지는 ChatGPT (GPT 4)에게 "AWS의 사업 내용에 대해 설명해줘"라는 명령을 내렸을 때 나온 답입니다. 만약 AWS에 대해서 설명하는 것이 이 글의 요지였다면 제가 직접 글을 쓰지 않고도 상당히 괜찮은 퀄리티의 정보성 기사를 작성할 수 있었겠죠. 그만큼 경쟁력 없는 기자들의 일자리 또한 줄어들 것이라 짐작할 수 있습니다.
물론 오늘은 다가오는 Gen AI (생성형 AI)시대에 왜 AWS가 적합하지 않은지에 대해 설명해드리는 시간이기에 ChatGPT로 땜빵을 할 수는 없지만, 어웨어 같은 프리미엄 콘텐츠 제공자가 아닌 이상 앞으로 컴퓨터가 쓴 글들이 더 많은 세상을 살아가게 될 가능성이 높습니다.
현재 클라우드 시장에서 압도적인 점유율을 가지고 있는 AWS, 왜 Gen AI 시대에는 적합하지 않을까요?
그러기 위해서는 AWS가 어떤 역사를 가지고 있는지에 대해 살펴볼 필요가 있습니다.
아마존은 어떤 기업이죠? 네, 온라인으로 책을 팔기 시작했던 거의 최초의 기업입니다. 오프라인에는 없는 온라인 경험을 만드는것이 매우 중요했죠. 그런데 아마존에서는 마이크로소프트 (MSFT)와 마찬가지로 웹 서비스를 만들면서 다양한 문제에 직면했습니다.
SemiAnalysis의 Dylan Patel은 다음과 같이 말합니다:
아마존의 리테일 비즈니스의 규모가 커지면서 90년대의 획일적인 소프트웨어 관행의 한계에 부딪히기 시작했습니다. 서비스나 개발자가 추가될 때마다 복잡성은 n^2의 비율로 증가한다는 멧칼프의 법칙이 적용되기 시작했습니다. 간단한 변경이나 개선 사항도 많은 다운스트림 애플리케이션과 사용 사례에 영향을 미치므로 엄청난 양의 커뮤니케이션이 필요했습니다. 따라서 Amazon은 연말연시에는 버그 수정과 안정성에 집중할 수 있도록 대부분의 코드 변경을 특정 시점에 동결해야 했습니다.
아마존은 이 문제를 해결하기 위해서 오늘날에는 'Microservices'라고 불리는 개념의 초기 버전을 도입합니다.
"2001년으로 돌아간다면," 아마존 AWS의 제품 관리 부문의 시니어 매니저인 Rob Brigham은 말했습니다. "Amazon.com 리테일 웹사이트는 거대한 구조적 바위였습니다."
'거대한 구조적 바위'라는게 무슨 뜻 일까요? 웹사이트 전체가 하나로 거대하게 묶여있어서 한 쪽에서 변경을 가하면 다른쪽에서도 예상치 못한 변화가 일어나는, 그러한 구조를 지니고 있었다는 뜻 입니다.
아마존이 선택한 접근방식은 다음과 같았습니다:
"우리는 코드를 살펴보고, 단일 목적을 제공하는 기능 단위를 뽑아내고 웹 서비스 인터페이스로 감쌌습니다." 그는 말했습니다. 예를 들어, 소매업자의 상품 상세 페이지에 '구매' 버튼을 표시하는 단일 서비스가 있었습니다. 또 다른 서비스는 결제 시 정확한 세금을 계산하는 기능을 가지고 있었습니다.
즉, 단위 기능 하나마다 서비스의 성격을 부여했다는 뜻 입니다. 이는 창업자이자 당시 CEO인 Jeff Bezos의 'No communication 규칙'과도 일맥상통 했습니다. 서로간에 의사소통에 너무 많은 비용이 들자 아예 소통을 금지시키고 기능을 단위별로 나뉘어서 개발을 진행하면 웹 서비스를 블록 조립하듯이 만들어낼 수 있다는 방법론이었습니다.
이런식의 개발에서는 꼭 낭비가 생기기 마련입니다. 중앙화된 통제 아래서는 적절한 규모의 컴퓨팅 파워, 적절한 규모의 저장장치를 구비하여 개발에 임하면 되었지만 각자가 필요한 서버 및 스토리지를 사용하다 보니 전체로 보았을 때는 남는 컴퓨팅 파워와 스토리지가 생기게 된 것 입니다. 이를 외부에 판매하기 시작한게 바로 AWS의 역사입니다.
즉, AWS의 DNA는 '비용절감'에서 시작됩니다.
그런데 지금까지 AWS가 업계에서 경쟁력 있는 리더로 작용할 수 있게 도와준 해당 DNA는 Gen AI 시대에서는 발목을 잡는 요인으로 작용할 수도 있게 되었습니다.
아래의 기사를 한번 살펴보시죠:
'AI Developers Stymied by Server Shortage at AWS, Microsoft, Google'
AI 개발자들이 AWS, Microsoft, Google 등 클라우드 공급자들의 GPU 서버 쇼티지 때문에 제대로 개발을 진행하고 있지 못하는 문제점이 생긴겁니다.
현재 LLM (Large Language Model)등 AI 모델들의 학습과 추론에는 Nvidia의 A100 모델의 GPU가 집중적으로 사용되는데 (다른 GPU, NPU 등은 성능에 적합하지 않습니다) 대규모로 장비를 구축하는 클라우드 공급자들도 수요를 따라가고 있지 못하고 있다는 내용입니다. 어떤 고객들은 필요한 하드웨어를 임대하는데 수개월간의 대기기간을 고지 받았다고도 합니다.
문제는 AWS가 AI 시장에서도 컴퓨팅, 스토리지 서비스에서는 경쟁우위를 가져다 주었던 자사의 솔루션만을 고집하는데에 있습니다. 데이터 센터의 미래는 메모리 풀링 및 공유를 지원하여 메모리 벽을 돌파하는 스케일링 가능한 이종 컴퓨팅을 제공하는 구성 가능한 서버 아키텍처와 함께합니다.
메모리 풀링이 중요한 이유는 LLM과 같은 초거대 AI 모델들을 돌리는데 있어서 가장 큰 제약은 사용 가능한 메모리에 있기 때문입니다. 이 때문에 엔비디아는 GPU와 GPU 사이를 직접 연결해주는 NVLink라는 솔루션을 개발 및 판매하고 있습니다. 그런데 AWS는 NVLink를 사용하지 않고 비용절감을 위해 자사의 솔루션 (Nitro/EFA)을 쓰고 있습니다.
대부분의 컴퓨팅이 필요한 경우에는 Nitro/EFA가 비용 효율적이나, Gen AI에는 latency (지연)을 줄이는게 중요한데, AWS는 엔비디아의 NVLink를 사용하지 않고 Nitro/EFA를 고집하고 있습니다. 엔비디아 입장에서는 NVLink도 같이 사주는 타 클라우드 공급자에게 더 많은 최신 GPU 서버를 같이 묶어 파는게 합리적이고, 그러고 있습니다.
물론 아마존에게도 상당한 물량이 배정 되었지만, AWS의 전체 시장 점유율에는 턱없이 못미치는 물량 비중입니다.
현재 AI를 위한 GPU 시장은 엔비디아가 압도적 우위를 독점하고 있는 상황입니다. 따라서 타 클라우드와 달리 엔비디아 솔루션에 비협조적이고, 이를 대체할만한 솔루션이 있는 구글 (TPU)만큼의 인하우스 AI 실리콘이 없는 아마존 입장에서는 폭발적으로 성장하는 Gen AI를 위한 클라우드 시장에서 뒤쳐지고 있고, Gen AI 어플리케이션의 수요가 증가함에 따라 미래 점유율에도 악영향을 받을것으로 예상됩니다.