핵심 요약

Blackwell이 열 방정식을 바꾸다: NVIDIA GB200 NVL72 랙은 120~132 kW에서 작동하며, 이는 어떤 밀도에서도 공랭으로는 감당할 수 없는 수준입니다.
직접 칩 냉각이 새로운 기본값: Direct-to-Chip(DTC) 냉각은 2026년 액체 냉각 시장의 약 65%를 차지하고 있습니다.
AI 팩토리 CapEx가 구조적 종속을 만든다: 랙당 120 kW 이상에서는 운영자는 냉각 인프라만으로도 메가와트당 50만~200만 달러의 자본 비용을 부담해야 합니다. 이러한 종속은 하이퍼스케일러에게는 우위를, 기업과 개발자에게는 실질적인 진입 장벽을 만듭니다.
DePIN이 CapEx 장벽을 우회한다: Aethir의 분산형 GPU 네트워크는 전 세계에 분산된 노드를 통해 Blackwell급 GPU를 포함한 엔터프라이즈급 하드웨어를 집계합니다. 고객은 액체 냉각, CDU, 고밀도 랙 구축에 필요한 인프라 투자를 떠안지 않고도 해당 컴퓨팅에 접근할 수 있습니다.

Blackwell 밀도 문제: 공랭의 시대가 끝난 이유

NVIDIA Blackwell 아키텍처는 데이터센터 열 관리에 대한 모든 가정을 재설정했습니다. GB200 NVL72 구성은 72개의 Blackwell GPU와 36개의 Grace CPU를 단일 랙에 집적하여 120~132 kW의 열 부하를 발생시킵니다. 이 수치는 핫 아일 격리를 주요 냉각 전략으로 활용하던 시대의 종말을 의미합니다. 이러한 밀도에서는 공기가 열을 제거할 수 없습니다.

열 설계 전력이 인프라 스택을 재정의하다

각 Blackwell GPU는 최대 1,000와트의 열 설계 전력(TDP)을 발생시키며, 이는 불과 7년 전 GPU 세대 대비 3배 이상에 해당합니다. 랙 밀도가 120 kW 이상이 되면 기존의 핫 아일 격리 방식으로는 열을 충분히 빠르게 제거하지 못해 핫스폿이 발생하고, 이는 성능 저하와 하드웨어 손상으로 이어집니다. GB200 및 GB300 배포를 위한 NVIDIA 레퍼런스 아키텍처는 직접 칩 액체 냉각을 사양 요건으로 명시하고 있습니다.

핫 아일 격리는 공랭 전용 시대의 잔재

핫 에어 격리는 15~30 kW 랙을 운영하는 데이터센터에서 지배적인 열 관리 방식이었습니다. Blackwell 밀도에서는 한때 열을 관리했던 동일한 격리 구조가 이제 열을 가두는 역할을 합니다. 공랭 전용 아키텍처를 운영하는 시설은 현재의 어떠한 기술적 정의로도 AI 데이터센터로 인정받을 수 없으며, 액체 냉각 계획 없이 Blackwell 배포를 진행하는 운영자는 실패를 예약한 것이나 다름없습니다.

GB300 NVL72가 열 기준을 한층 더 끌어올린다

Blackwell 플랫폼의 차세대 모델인 GB300 NVL72는 Schneider Electric과 NVIDIA가 공동 개발한 레퍼런스 디자인에서 랙당 최대 142 kW를 지원합니다. AI 팩토리 아키텍처는 세대를 거듭할수록 랙 밀도를 끌어올리고 열 요구 사항을 더욱 엄격하게 만듭니다. 액체 냉각 인프라 업그레이드를 미루는 데이터센터 운영자는 효율성에서 뒤처질 뿐 아니라, Blackwell 및 그 이후 세대 배포의 경쟁 구도에서 완전히 밀려납니다.

직접 칩 냉각: AI 데이터센터를 위한 인프라 스택

2026년 AI 데이터센터의 아키텍처는 냉각 스택으로 정의됩니다. Direct-to-Chip(DTC) 냉각은 각 칩에 장착된 콜드 플레이트를 통해 발열 부품으로 냉매를 직접 전달합니다. 냉각수 분배 장치(CDU)가 루프를 관리하고, 매니폴드가 랙 전체에 유량을 분배합니다. 콜드 플레이트, CDU, 매니폴드로 구성된 이 스택은 AI 팩토리 규모의 고밀도 GPU 컴퓨팅을 운영하는 모든 시설의 표준이 되었습니다.

콜드 플레이트 기술이 열 인터페이스의 핵심

콜드 플레이트는 GPU 또는 CPU 위에 직접 장착되는 금속 블록으로, 그 내부를 액체 냉매가 흘러 발열원에서 열을 흡수합니다. 콜드 플레이트 냉각은 PUE(전력 사용 효율)를 1.10~1.25 수준까지 낮춰주며, 기존 공랭식 시설의 1.50~1.80과 비교됩니다. 또한 지속 가능성 목표를 가진 운영자에게는 수자원 사용 효율(WUE)도 그에 비례하여 개선됩니다. Direct-to-Chip은 현재 액체 냉각 방식에서 가장 지배적인 접근법으로, 2026년 액체 냉각 시장의 약 65%를 차지하고 있습니다.

단상 침지 냉각 대 이상 침지 냉각

직접 칩 냉각을 넘어, 단상 침지 냉각은 서버 전체를 비전도성 액체에 잠기게 해 PUE를 1.02~1.10 수준까지 낮춥니다. 냉매가 끓고 다시 응축되는 폐쇄 루프를 사용하는 이상 침지 냉각은 PUE 1.01~1.05를 달성하며, 140 kW를 넘는 극단적인 랙 밀도에는 필수적입니다. 두 방식 모두 특수한 시설 설계가 필요하고 직접 칩 냉각보다 큰 자본 투자를 요구하므로, 기존 인프라를 업그레이드하기보다는 신축 AI 데이터센터를 짓는 운영자에게 더 적합합니다.

하이브리드 전환 카드로서의 후면 도어 열교환기

후면 도어 열교환기(RDHx)는 기존 서버 랙 뒷면에 장착되어, 배기가 시설 내부로 재유입되기 전에 이를 냉각합니다. RDHx는 전면적인 재구축 없이 공랭에서 완전한 액체 냉각 인프라로 전환하려는 운영자에게 가교 기술 역할을 합니다. Blackwell 밀도에서는 RDHx만으로는 부족하지만, 단계적인 냉각 전환 과정에서 혼합 워크로드를 운영하는 부분 공랭식 시설의 가용 운영 범위를 연장해 줍니다.

AI 데이터센터 구축의 CapEx 현실

AI 데이터센터를 구축하는 것은 소프트웨어 문제가 아닙니다. 액체 냉각 인프라는 메가와트당 50만~200만 달러의 자본 비용을 더합니다. 10 MW 규모의 GPU 클러스터는 첫 번째 GPU를 켜기도 전에 500만~2,000만 달러의 냉각 인프라 비용이 필요합니다. 여기에 전력망 연결 일정, 하드웨어 조달 리드타임, 낮은 가동률까지 더해지면 비용은 더욱 가중됩니다.

전력망 연결 일정이 구조적 장벽이 되었다

신규 데이터센터를 전력망에 연결하는 데 일부 지역에서는 최대 7년이 걸리며, 여기에는 허가, 건설, 하드웨어 조달이 포함되어 있지 않습니다. 1군 하이퍼스케일러가 아닌 조직에게는 투자 결정부터 실제 운영 가능한 AI 인프라까지의 리드타임이 너무 길어 중앙 집중식 구축이 비현실적입니다. 2025년 Deloitte 조사에서 데이터센터 임원의 79%가 전력망 부담을 가장 큰 과제로 꼽았으며, AI가 2035년까지 전력 수요 급증을 주도할 것으로 전망됩니다.

GPU 공급망 제약이 CapEx 문제를 가중시킨다

NVIDIA H100과 H200 칩은 한 개당 4만 달러를 넘으며 여전히 심각한 공급 부족 상태입니다. Blackwell급 하드웨어 접근을 원하는 기업은 주요 클라우드 사업자로부터 프리미엄 GPU 인스턴스를 받기까지 18~24개월의 대기 기간에 직면합니다. 공급망 제약은 AI 데이터센터 구축에 자본을 투자할 의사가 있는 조직조차 예측 가능한 일정 안에서 하드웨어 가용성을 보장받을 수 없음을 의미합니다.

낮은 GPU 가동률이 사업성을 훼손한다

기존 데이터센터의 GPU 가동률은 30~50% 사이에 머물며, 이는 운영자가 절반 이상의 시간 동안 유휴 상태인 하드웨어 비용을 지불하고 있음을 의미합니다. 이러한 가동률 격차는 조달 관행, 워크로드 스케줄링의 비효율, 중앙 집중식 데이터센터 용량과 AI 추론 수요의 폭증-소강 패턴 사이의 구조적 불일치를 반영합니다. 중앙 집중식 AI 데이터센터 구축의 재무 모델은 하이퍼스케일러 미만의 규모로 운영되는 어떤 조직에도 더 이상 작동하지 않습니다.

DePIN 데이터센터: Aethir가 개척하는 분산형 대안

분산형 물리 인프라 네트워크(DePIN)는 AI 인프라에 근본적으로 다른 방식으로 접근합니다. Aethir는 엔터프라이즈 활용 사례를 위한 분산형 GPU 클라우드 컴퓨팅의 선구자입니다. 중앙 집중식 액체 냉각 시설을 짓는 대신, DePIN 네트워크는 전 세계에 분산된 노드를 통해 엔터프라이즈급 GPU 하드웨어를 집계합니다.

그 결과는 어떤 단일 운영자도 Blackwell 배포나 AI 데이터센터 구축에 따른 전체 CapEx를 떠안지 않고도 고밀도 GPU 인프라에 접근할 수 있는 컴퓨팅 계층입니다. Aethir의 DePIN 스택은 94개국 200여 개 지역에 전 세계적으로 분산된 430,000개 이상의 GPU 컨테이너를 보유하고 있으며, 분산형 클라우드 컴퓨팅을 활용하는 150여 개 이상의 파트너 및 엔터프라이즈 고객을 확보하고 있습니다.

Aethir의 보유 자원에는 수천 대의 H100, H200, GB200, B200이 포함되며, 향후 2,300대 이상의 B300 배포가 예정되어 있습니다.

분산 노드가 냉각 CapEx 요건을 우회한다

DePIN 데이터센터 모델에서는 개별 노드 운영자가 기존 하드웨어를 공유 네트워크에 기여합니다. 각 운영자는 직접 칩 시스템이 이미 포함되어 있을 수도 있는 자기 하드웨어의 냉각 요건을 직접 관리합니다. 네트워크는 그 용량을 집계하여 통합된 컴퓨팅 계층을 통해 노출함으로써, 어떤 단일 기업도 데이터센터 규모로 CDU, 매니폴드, 랙 밀도 업그레이드 비용을 부담할 필요를 없앱니다.

Aethir는 하이퍼스케일러 대비 큰 폭의 비용 절감을 제공한다

Aethir의 분산형 GPU 네트워크는 Blackwell급 GPU를 포함한 엔터프라이즈급 컴퓨팅을 제공하며, 동급 추론 워크로드 기준 AWS 요금 대비 상당한 할인된 가격에 접근할 수 있게 합니다. 이러한 비용 구조는 프로모션 가격이 아닌, 중앙 집중식 데이터센터 오버헤드의 제거에서 비롯됩니다.

온디맨드 접근으로 18개월의 조달 리드타임을 없앤다

중앙 집중식 AI 데이터센터 접근의 결정적 제약 중 하나는 조달 리드타임입니다. 주요 클라우드 사업자를 통해 H100 또는 Blackwell 인스턴스를 기다리는 기업은 18~24개월의 대기열을 마주합니다. Aethir는 분산형 GPU 인프라에 온디맨드로 접근할 수 있게 해주어, 기업과 개발자는 수년에 걸친 조달 사이클이나 AI 데이터센터의 자본 비용을 부담하지 않고도 추론 워크로드를 실행하고, 모델을 파인튜닝하며, AI 에이전트 작업을 수행할 수 있습니다.

AI 팩토리 시대와 컴퓨팅 접근의 의미

NVIDIA는 데이터센터가 수동적인 저장 시설에서 능동적인 컴퓨팅 생산 시스템으로 전환되는 흐름을 설명하기 위해 "AI 팩토리"라는 용어를 만들었습니다. 이 관점에서 데이터센터는 원시 데이터가 들어가고 지능이 나오는 공장 현장이 됩니다. GPU 클라우드 액체 냉각은 단순한 기능 업그레이드가 아니라 AI 팩토리 처리량 수준으로 운영하기 위한 전제 조건입니다. 대부분의 기업에게 질문은 이 패러다임을 채택할지 여부가 아니라, 액체 냉각 AI 데이터센터를 처음부터 구축하지 않고 어떻게 접근할지입니다.

추론 수요가 전체 GPU 부하의 70%를 차지한다

2026년 GPU 수요의 70%는 학습이 아닌 추론에서 발생합니다. 추론은 본질적으로 병렬화가 가능하고, 실행 시간이 짧으며, 지연 시간에 민감한 특성을 갖는데, 이러한 프로파일은 중앙 집중식 데이터센터의 대기열보다 분산형 컴퓨팅에 유리합니다. DePIN 네트워크는 주로 학습 작업을 위해 설계된 대규모 중앙 집중식 시설이 따라잡기 어려운 방식으로 추론 워크로드에 구조적으로 최적화되어 있습니다.

Aethir의 분산형 GPU 클라우드는 모든 규모의 개발팀, 스타트업, 대규모 기업의 추론 워크로드를 지원하도록 특별히 설계되었습니다.

AI 팩토리의 출력 이점은 분산 접근을 통해 전달된다

NVIDIA는 GB300 NVL72가 Hopper 세대 플랫폼 대비 50배 높은 AI 팩토리 출력을 제공한다고 발표했으며, 이는 10배의 지연 시간 감소와 메가와트당 5배 높은 처리량의 조합으로 이루어집니다. 이러한 이점은 기업이 실제로 하드웨어에 접근할 수 있을 때에만 실현됩니다. 분산형 컴퓨팅 네트워크는 AI 데이터센터 구축에 필요한 인프라 투자를 감당할 수 없는 조직에게도 AI 팩토리급 성능을 제공합니다.

Aethir는 세 가지 흐름의 교차점에 DePIN을 위치시킨다

Aethir는 Blackwell 세대 GPU 수요, 액체 냉각 전환, DePIN 인프라 모델이라는 세 흐름의 수렴점에서 운영됩니다. Aethir의 분산형 GPU 클라우드는 엔터프라이즈급 GPU 컴퓨팅에 접근할 수 있게 하고, 대규모 AI 추론 워크로드를 지원하며, 어떤 참여자도 액체 냉각된 AI 데이터센터를 짓거나 유지할 필요가 없습니다.

개발자, 엔터프라이즈 팀, AI 실무자에게 이러한 수렴은 분산형 GPU 클라우드 인프라가 제공하는 핵심 가치 제안입니다.

자주 묻는 질문

2026년에 데이터센터가 "AI 대응"으로 인정받으려면 무엇이 필요합니까?

2026년의 AI 데이터센터는 랙당 60 kW 이상의 고밀도 GPU 컴퓨팅을 지원할 수 있어야 하며, 직접 칩 액체 냉각 인프라를 갖춰야 합니다. 공랭이나 핫 아일 격리에만 의존하는 시설은 NVIDIA GB200 NVL72나 GB300과 같은 현행 세대 하드웨어의 열 요건을 충족할 수 없습니다.

직접 칩 냉각이란 무엇이며, 왜 Blackwell GPU에 필요합니까?

직접 칩 냉각은 GPU나 CPU 위에 직접 장착된 콜드 플레이트를 통해 액체 냉매를 흘려 보내, 주변 공기를 식히는 대신 발열원에서 직접 열을 제거합니다. Blackwell GPU는 칩당 최대 1,000와트의 열 설계 전력을 발생시키므로, Blackwell 배포에 필요한 랙 밀도에서는 공기 기반 냉각이 물리적으로 부족합니다. GB200 및 GB300 시스템에 대한 NVIDIA 레퍼런스 아키텍처는 직접 칩 냉각을 필수 사양으로 포함합니다.

랙 밀도란 무엇이며 데이터센터 설계에 어떤 영향을 미칩니까?

랙 밀도는 서버 랙당 전력 소비량을 킬로와트(kW) 단위로 측정한 값입니다. 15 kW로 작동하는 랙은 표준 공랭으로 관리할 수 있지만, 120~132 kW로 작동하는 Blackwell 랙은 CDU, 매니폴드, 각 GPU용 콜드 플레이트로 구성된 전용 액체 냉각 루프가 필요합니다. AI 워크로드가 점점 더 까다로워지면서, 랙 밀도는 AI 데이터센터를 구축하거나 업그레이드하는 모든 운영자에게 최우선 설계 제약이 되었습니다.

DePIN 인프라는 기존 AI 데이터센터와 어떻게 비교됩니까?

기존 AI 데이터센터는 단 하나의 GPU를 배치하기도 전에 냉각, 전력 인프라, 부동산에 막대한 자본 투자를 요구합니다. Aethir와 같은 DePIN 인프라는 전 세계 노드 운영자가 기여한 분산형 GPU 하드웨어를 집계하여, 어떤 단일 조직도 중앙 집중식 구축에 자금을 댈 필요가 없게 만듭니다.

기업이 액체 냉각 데이터센터를 짓지 않고도 Blackwell급 GPU에 접근할 수 있습니까?

가능합니다. Aethir는 어떤 기업도 액체 냉각 인프라를 직접 짓거나 유지할 필요 없이 Blackwell급 GB200, B200, B300 엔터프라이즈급 컴퓨팅에 접근할 수 있게 합니다. Aethir의 DePIN 모델은 이미 Blackwell 하드웨어를 운영 중인 클라우드 호스트 운영자가 해당 용량을 네트워크에 기여하고, 기업과 개발자가 이를 온디맨드로 사용하는 방식입니다. Aethir는 통합 플랫폼을 통해 접근 가능한 분산형 컴퓨팅으로 이 모델을 대규모로 운영하며, 수년에 걸친 조달 사이클이나 냉각 인프라 투자가 필요하지 않습니다.

AI 데이터센터: Blackwell GPU, 냉각, 그리고 Aethir의 DePIN