Ben Thompson — AI 인프라의 무게중심은 추론으로 이동한다

원문: https://stratechery.com/2026/the-inference-shift/ | Ben Thompson, 2026년 5월 11일

핵심 요약

Ben Thompson은 AI 인프라 경쟁의 핵심이 “훈련용 GPU를 누가 더 많이 확보하느냐”에서 “추론, 특히 에이전트형 추론을 어떤 시스템 구조로 처리하느냐”로 이동하고 있다고 본다. 그의 주장은 단순한 Nvidia 약세론이 아니라, AI가 사람에게 답을 주는 단계에서 컴퓨터가 컴퓨터에게 일을 시키는 단계로 넘어갈 때 병목이 달라진다는 분석이다. 커뮤니티 반응은 대체로 “메모리 계층이 중요해진다”는 문제의식에는 동의하지만, Cerebras 같은 특수 칩이 그 변화를 곧장 장악할지는 훨씬 더 회의적이다.

GPU 신화가 만들어진 이유

최근 몇 년간 AI 인프라 논의는 거의 Nvidia 중심으로 흘러왔다. 그럴 만한 이유가 있다. 대규모 모델 훈련은 병렬 계산, 대용량 HBM, 고속 칩 간 네트워킹을 동시에 요구한다. 모델이 커질수록 단일 칩 하나가 아니라 수천, 수만 개의 GPU가 하나의 거대한 시스템처럼 움직여야 하고, Nvidia는 CUDA 생태계와 네트워킹 투자로 이 문제를 가장 잘 풀었다.

Thompson이 흥미로운 지점을 짚는 것은 여기서부터다. 그는 GPU 시대가 끝난다고 말하지 않는다. 오히려 훈련은 계속 중요하고, 이 영역에서 Nvidia의 우위는 쉽게 사라지지 않는다고 본다. 다만 AI 사용량이 실제 제품과 업무 자동화로 확장되면 훈련보다 추론이 훨씬 더 큰 운영 비용과 설계 문제로 떠오른다. 지금까지 투자자와 언론이 “AI compute”라고 부른 것이 사실상 “훈련 클러스터”의 이미지에 갇혀 있었다면, 앞으로는 추론의 종류를 더 세밀하게 구분해야 한다는 것이다.

답변 추론과 에이전트 추론은 다른 시장이다

글의 핵심 구분은 “answer inference”와 “agentic inference”다. 전자는 사용자가 질문을 던지고 모델이 빠르게 답을 생성하는 방식이다. 이때 중요한 것은 토큰 속도와 지연 시간이다. 음성 비서, 코딩 보조, 검색형 챗봇처럼 사람이 기다리는 제품에서는 빠른 응답이 곧 사용자 경험이다. Cerebras나 Groq 같은 특수 추론 칩이 매력적으로 보이는 것도 이 지점이다. 사람이 보고 있는 화면에 더 빠른 토큰을 흘려보내면 곧바로 제품 가치로 연결된다.

하지만 Thompson이 더 크게 보는 시장은 후자다. 에이전트 추론은 사람이 매 단계 기다리는 작업이 아니다. 에이전트가 문서를 읽고, 저장소를 훑고, 도구를 호출하고, 결과를 검증하고, 다시 다음 작업을 계획한다. 여기서는 초당 토큰 수보다 컨텍스트, 상태, 기록, 도구 호출, 데이터베이스 접근, 로그와 임베딩 저장소까지 포함한 전체 메모리 계층이 중요해진다. 사람에게 답을 주는 모델은 “빠른 계산기”에 가깝지만, 일을 수행하는 에이전트는 “작업 기억과 외부 기억을 가진 운영체제”에 가까워진다.

이 구분은 비즈니스 전략에 직접적인 함의를 갖는다. 기업이 AI를 도입할 때 초기에는 “직원이 더 빨리 답을 얻는 도구”로 산다. 하지만 생산성의 큰 변화는 AI가 밤새 업무를 처리하거나, 다른 시스템이 요청한 일을 사람이 보지 않는 곳에서 수행할 때 나온다. 이 경우 낮은 지연 시간의 프리미엄은 줄어들고, 더 싸고 큰 메모리, 안정적인 저장소, CPU와 네트워크, 작업 큐와 권한 관리가 중요해진다. AI 인프라 시장의 가치가 GPU 카드 한 장의 성능에서 시스템 설계 전체로 이동한다는 뜻이다.

Cerebras는 상징이지 결론은 아니다

Thompson은 Cerebras IPO 열기를 출발점으로 삼는다. Cerebras의 웨이퍼 스케일 칩은 온칩 SRAM 대역폭이 매우 크기 때문에, 모델과 컨텍스트가 칩 안에 잘 들어맞는 추론에서는 압도적인 속도를 낼 수 있다. 그래서 “답변 추론” 시장에서는 분명한 쓰임새가 있다. 특히 긴 추론을 빠르게 보여줘야 하는 코딩 보조나 인터랙티브 제품에서는 사용자가 체감하는 차이가 크다.

그러나 이 글이 Cerebras 찬양으로 끝나지 않는 이유가 중요하다. Thompson은 에이전트 추론이 커질수록 필요한 것은 단순 속도가 아니라 더 큰 상태와 더 복잡한 메모리 계층이라고 본다. 커뮤니티 반응도 이 부분에서 갈린다. Hacker News의 Cerebras 관련 토론에서는 웨이퍼 스케일 칩의 속도에는 감탄하면서도, 지원 모델 범위, 소프트웨어 생태계, 긴 컨텍스트 처리, 전력과 가격 문제를 지적하는 목소리가 반복된다. Reddit의 하드웨어·투자 커뮤니티에서도 “메모리 벽”을 푸는 방향성은 인정하지만, 특수 칩 업체가 Nvidia의 범용 생태계와 hyperscaler 자체 칩을 동시에 이겨야 한다는 점을 부담으로 본다.

이 반응은 Thompson의 글을 보완한다. 그가 말하는 변화는 특정 회사가 승자가 된다는 예측이라기보다, 승부의 기준이 바뀐다는 주장이다. 답변 추론에서는 “얼마나 빨리 말하느냐”가 중요하고, 훈련에서는 “얼마나 거대한 GPU 군집을 효율적으로 묶느냐”가 중요했다. 에이전트 추론에서는 “작업 상태를 얼마나 싸고 안정적으로 오래 붙잡아두느냐”가 중요해진다. 이 기준에서는 Cerebras도, Nvidia도, AMD도, hyperscaler의 자체 ASIC도 모두 다른 방식으로 재평가받는다.

기업이 봐야 할 것은 칩이 아니라 작업 구조다

경영 관점에서 이 글의 가장 큰 시사점은 AI 도입 논의를 모델 성능이나 칩 브랜드에서 멈추면 안 된다는 점이다. 기업이 정말로 에이전트를 쓰게 된다면 비용 구조는 “질문 한 번당 토큰 가격”보다 더 복잡해진다. 에이전트가 얼마나 많은 문맥을 보관해야 하는지, 얼마나 자주 도구를 호출하는지, 실패한 작업을 어떻게 재시도하는지, 권한과 감사를 어디에 남기는지, 사람이 개입해야 하는 지점이 어디인지가 비용과 성능을 좌우한다.

이는 소프트웨어 기업에도 의미가 있다. 지금은 “AI 기능을 붙였다”는 발표가 제품 차별화처럼 보이지만, 에이전트가 실제 업무를 처리하는 단계에서는 인프라와 워크플로 설계가 제품 경쟁력이 된다. 컨텍스트를 잘 보존하는 데이터 모델, 작업 이력을 추적하는 로그, 외부 도구 호출의 권한 체계, 실패 시 되돌릴 수 있는 트랜잭션 구조가 곧 AI 제품의 품질이 된다. 모델 API를 호출하는 것만으로는 충분하지 않다.

투자자에게도 메시지는 비슷하다. AI 인프라 수요가 계속 커진다는 명제와, 그 수요의 대부분을 현재의 GPU 프리미엄 구조가 계속 흡수한다는 명제는 다르다. 훈련 시장, 빠른 답변 추론 시장, 대규모 에이전트 추론 시장은 서로 다른 마진과 공급망을 가질 수 있다. 그래서 “AI가 커지니 Nvidia가 무조건 더 커진다” 또는 “특수 칩이 나오니 Nvidia가 끝난다”는 식의 단순한 결론은 둘 다 위험하다.

남는 질문

Thompson의 글은 AI 인프라를 “훈련 대 추론”보다 더 정교하게 봐야 한다는 좋은 틀을 제공한다. 다만 아직 열려 있는 질문도 많다. 에이전트가 정말 사람의 시간 제약에서 벗어나 컴퓨터끼리 일을 시키는 시장으로 커질 것인가. 그런 시장에서 품질 검증과 책임 소재는 어떻게 관리될 것인가. 느리고 저렴한 메모리 계층이 충분하다면, 그 위에서 동작하는 소프트웨어 스택은 누가 장악할 것인가.

결국 이 논의는 칩 산업만의 이야기가 아니다. AI가 업무의 표면에 붙은 “답변 도구”로 남을지, 아니면 기업 운영의 내부 루프를 돌리는 “작업 시스템”이 될지에 관한 이야기다. 전자라면 속도가 왕이다. 후자라면 기억, 상태, 비용, 신뢰성이 왕이다. AI 비즈니스의 다음 국면은 아마 그 차이를 먼저 이해한 회사들이 가져갈 가능성이 높다.