엔비디아 재보 전 정밀 저격?이 유니콘은 AI 추리에 강하게 진출하여 HBM을 사용하지 않고 세계에서 가장 빨리 할 수 있다

茉莉707 · 发表于 2024-8-28 15:16:12

현지시간으로 수요일 장세후 엔비디아는 곧 전반 2급시장의 마지막 중량2계보를 발표하게 되는데 이로 하여 글로벌투자자들은 고도로 긴장하고있다.그리고 바로 전날 (현지 시간 8월 27일), 미국의 인공지능 프로세서 칩인 유니콘 Cerebras Systems는 자사의 칩 컴퓨팅 시스템을 기반으로 세계에서 가장 빠른 속도로 알려진 AI 추리 서비스를 발표하여 엔비디아 H100 GPU를 사용하여 구축한 시스템보다 10~20배 빠르다고 주장했다.
현재 엔비디아 GPU는 AI 훈련과 추리 두 방면에서 모두 시장 주도적 지위를 차지하고 있다.Cerebras는 2019년 첫 AI 칩을 출시한 이래 AI 칩과 컴퓨팅 시스템 판매에 집중하며 AI 훈련 분야에서 엔비디아에 도전하는 데 주력해 왔다.
미국 과학기술매체 더 인포메이션에 따르면 OpenAI는 AI 추리 서비스 덕분에 올해 34억 달러의 수입을 올릴 것으로 예상된다.AI 추리의 케이크가 이렇게 큰 이상 Cerebras 공동창업자 겸 최고경영자 앤드루 펠드먼은 Cerebras도 AI 시장에서 한 자리를 차지해야 한다고 말했다.
Cerebras의 이번 AI 추리 서비스 출시는 AI 칩과 컴퓨팅 시스템 외에 사용량에 기반한 두 번째 수입 곡선을 열었을 뿐만 아니라 엔비디아에 대한 전면적인 공격을 개시했다."엔비디아로부터 그들을 화나게 하기에 충분한 시장 점유율을 빼앗았다."라고 펠드먼이 말했다.
빠르고 싸다
Cerebras의 AI 추론 서비스는 속도와 비용 모두에서 상당한 이점을 보여줍니다.펠드먼에 따르면 초당 출력할 수 있는 토큰의 수로 따지면 Cerebras의 AI 추리 속도는 마이크로소프트 애저, 아마존 AWS 등 클라우드 서비스 업체가 운영하는 AI 추리 서비스의 20배에 달한다.
펠드먼은 발표회 현장에서 Cerebras와 아마존 AWS의 AI 추리 서비스를 동시에 시작했다. Cerebras는 순식간에 추리 작업을 완료하고 출력할 수 있다. 처리 속도는 초당 1832개의 tokens에 달한다. AWS는 초당 93개의 tokens에 불과하다.
펠드먼에 따르면 더 빠른 추리 속도는 실시간 대화형 음성 응답을 실현하거나 여러 차례의 결과, 더 많은 외부 출처, 더 긴 문서를 호출함으로써 더 정확하고 더 관련된 대답을 얻을 수 있어 AI 추리에 질적인 비약을 가져올 수 있다는 것을 의미한다.
Cerebras는 속도 이점 외에도 상당한 비용 이점을 가지고 있습니다.페어드먼은 Cerebras의 AI 추론 서비스성 가격이 AWS 등의 100배에 이른다고 밝혔다.메타를 실행하는 Llama 3.1 70B 오픈 소스 대형 언어 모델의 경우 이 서비스의 가격은 토큰당 60센트에 불과하지만 일반 클라우드 서비스 업체가 제공하는 동일한 서비스는 토큰당 2.90달러이다.
현재 최대 GPU 면적의 56배
Cerebras의 AI 추론 서비스가 빠르고 저렴한 이유는 WSE-3 칩의 설계에 있습니다.이것은 Cerebras가 올해 3 월에 출시 한 3 세대 프로세서 칩으로, 12 인치 반도체 웨이퍼의 표면 전체에 거의 해당하거나 책 한 권보다 더 크며 단일 면적은 약 462.25 평방 센티미터에 달하는 거대한 크기입니다.현재 최대 GPU 면적의 56배입니다.
WSE-3 칩은 엔비디아처럼 인터페이스를 통해 연결해야 액세스할 수 있는 독립형 고대역폭 메모리(HBM)를 채택하지 않았다.대신, 메모리를 칩에 직접 내장합니다.
칩 크기 덕분에 WSE-3의 슬라이스 메모리 (On-chip memory) 는 44G로 엔비디아 H100의 거의 900배, 메모리 대역폭은 엔비디아 H100의 7000배에 이른다.
펠드먼은 메모리 대역폭이 언어 모델의 추론 성능을 제한하는 근본적인 요소라고 말했다.Cerebras는 논리와 메모리를 하나의 거대한 칩에 통합하여 거대한 슬라이스 메모리와 매우 높은 메모리 대역폭을 가지고 있어 데이터를 신속하게 처리하고 추리 결과를 낼 수 있다."이것은 GPU가 도달할 수 없는 속도입니다."
속도와 비용 우위 외에도 WSE-3 칩은 AI 훈련과 추리 양면수로 각종 AI 임무를 처리할 때 탁월한 성능을 자랑한다.
계획에 따르면 Cerebras는 여러 장소에 AI 추리 데이터 센터를 구축하고 요청 횟수에 따라 추리 능력을 유료로 부과할 예정이다.이와 함께 Cerebras는 WSE-3 기반 CS-3 컴퓨팅 시스템을 클라우드 서비스 업체에 판매하려고 시도할 예정이다.

		自动登录	找回密码
密码			立即注册

엔비디아 재보 전 정밀 저격?이 유니콘은 AI 추리에 강하게 진출하여 HBM을 사용하지 않고 세계에서 가장 빨리 할 수 있다

相关帖子