메타, 최강 오픈 소스 대형 모델 발표 GPT-4 추격, 샤오자: 내년 역전

世雨8 · 发表于 2024-7-24 14:01:07

미국 태평양 시간으로 7 월 23 일 Meta (본명 Facebook) 는 8B, 70B, 405B 세 가지 크기로 컨텍스트 길이가 모두 128K로 향상된 Llama 3.1 대형 모델을 공식 발표했다.특히 메타가 제공한 벤치마크 데이터에 따르면 가장 주목받는 405B(4050억 매개변수)는 이미 OpenAI 산하 GPT-4와 인공지능 스타트업 앤트로픽 산하 클라우드3에 필적하는 성능이다.이것은 이미 최고 오픈 소스 모델의 성능이 정식으로 최고 오픈 소스 모델을 따라잡았다는 것을 의미하며, 오픈 소스 싸움은 일단락될 수 있을 것이다.
저커버그는 제품 발표 외에도'오픈 소스 인공지능은 전진의 길'이라는'오픈 소스 선언'을 발표했다.저커버그는 이 글에서"오늘날 몇몇 기술 회사들이 선도적인 폐쇄 모델을 개발하고 있다.그러나 오픈 소스는 빠르게 격차를 줄이고 있다"고 말했다.
오픈 소스 Llama 3.1-405B 성능은 오프소스 GPT-4를 따라잡았다
공식 자료에 따르면 Llama 3.1은 15 조 개 이상의 token의 데이터에서 훈련했으며 16000 개의 H100을 사용했습니다.사용된 사전 훈련 데이터는 2023년 12월까지.훈련 안정성을 보장하기 위해 현재 유행하는 하이브리드 전문가 모델 (MoE) 아키텍처 대신 Transformer 모델 아키텍처로만 조정했습니다.
현재 Llama 3.1은 각국의 언어 대화를 지원하고 있으며, 이번에 총 8B, 70B, 405B 세 개의 크기를 발표했으며, 컨텍스트 길이는 모두 128K로 향상되었다.실리콘 기반 스마트 창업자 스마화펑은 이에 대해 Llama 3.1 정보 처리 능력이 크게 향상됐다며"예를 들면 4000개의 중문자만 기억하는 것에서 64000개의 중문자를 기억할 수 있는 것으로 향상됐다"고 평가했다.
오랫동안 업계에서는 개폐원에 대한 논의가 끊이지 않았다.이달 세계인공지능대회에서 바이두 창업자이자 회장 겸 최고경영자인 리옌훙은 현장에서"상업화된 폐원 모델이 가장 잘 칠 수 있다"고 재차 말하기도 했다.리언굉은 다음과 같이 말했다. 개원모형은 일부 학술연구, 교수분야에서 존재가치가 있으며 대형모형의 사업메커니즘을 연구하는데 사용되여 리론을 형성할수 있다.그러나 치열한 비즈니스 환경에서 비즈니스 효율이 동업자보다 높고 비용이 동업자보다 낮게 하려면 상업화의 폐원 모델이"가장 잘 칠 수 있다."
그러나 메타가 제공한 벤치마크 데이터에 따르면 오픈 소스 모델도 이번에는"칠 수 있다."그 중 Llama 3.1에서 가장 주목받는 405B (4050억 매개변수) 는 성능면에서 GPT-4와 Claude 3에 필적할 수 있으며, 이는 이미 최고의 오픈 소스 모델성이 플래그십 오픈 소스 모델을 따라잡을 수 있다는 것을 의미한다.
주목할 만한 것은 이번 오픈소스가 더욱 철저하다는 것이다.메타는 지난 4월 제품인 Llama 3 8B와 Llama 3 70B를 출시했을 때도 개발자들이 이 모델을 이용해 다른 생성식 모델을 훈련하는 것을 금지했다.이번에 발표된 새로운 오픈 소스 프로토콜에서 Meta는 더 이상 새로운 모델로 다른 모델을 개선하는 것을 금지하지 않는다.
메타가 새로운 모델을 출시하는 동시에 엔비디아도 새로운 NVIDIA AI Foundry 서비스와 NVIDIA NIM 추리 마이크로 서비스를 출시한다고 발표했는데, 역시 방금 출시한 Llama 3.1 시리즈 오픈 소스 모델과 함께 글로벌 기업의 생성식 AI에 강력한 지원을 제공한다.NVIDIA AI Foundry를 통해 기업과 각국은 이제 Llama 3.1 및 NVIDIA 소프트웨어, 컴퓨팅 및 전문 지식을 사용하여 특정 분야의 업계 용례에 대한 사용자 정의"슈퍼 모델"을 만들 수 있는 것으로 알려졌다.
제품 발표와 함께 저커버그는'오픈 소스 인공지능은 나아갈 길'이라는 공개서한도 발표했다.저커버그는 초기 Linux (운영 체제 커널) 의 발전 과정을 예로 들었다.그는 고성능 컴퓨팅 초기에 여러 기술 회사들이 거액을 들여 자신의 폐원판 유닉스를 개발했는데, 당시에는 이렇게 선진적인 소프트웨어를 개발할 수 있는 어떤 다른 방법도 상상하기 어려웠다고 제기했다.그러나 결국 오픈 소스 Linux가 유행하기 시작했다. 처음에는 개발자가 코드를 마음대로 수정할 수 있고 가격이 저렴하기 때문이었다. 시간이 지남에 따라 더욱 진보되고 안전해졌으며 어떤 폐쇄 소스 Unix보다 더 많은 기능을 지원하는 더 광범위한 생태 시스템을 가지고 있었다.오늘날 Linux는 클라우드 컴퓨팅과 대부분의 모바일 장치를 실행하는 운영 체제의 업계 표준 기반입니다.
저커버그는 인공지능도 비슷한 방식으로 발전할 것이라고 믿는다고 말했다."오늘날 몇몇 기술 회사들이 선도적인 폐쇄 소스 모델을 개발하고 있지만, 오픈 소스는 빠르게 격차를 줄이고 있다.작년에 우리가 발표 한 Llama 2는 낙후된 이전 세대 모델과 비슷합니다.그리고 올해 들어 Llama 3는 최첨단 모델에 필적하며 일부 분야에서 선두를 달리고 있습니다.내년부터는 미래의 Llama 모델이 업계에서 가장 선진적인 모델이 될 것으로 예상한다"고 말했다.
Llama 3의 이미지, 비디오 및 음성 기능을 추가로 개발하고 있습니다.
왜 오픈 소스가 개발자에게 더 유리한지에 대해 저커버그는 자신이 조사 연구 과정에서 관찰한 현상들을 열거했다: 세계 각지의 개발업자, CEO, 정부 관리들에게 그들은 자신의 모델을 훈련하고 미세하게 조정하고 정제해야 할 뿐만 아니라,또한 폐쇄된 공급업체에 얽매이지 않고 모델에 대한 일정한 통제권이 필요하다.또한 자신의 데이터를 보호할 수 있기를 기대하며 데이터 클라우드 API를 폐쇄 소스 모델에 보내고 싶지 않다;장기적인 기준이 될 생태계에 투자할 수 있기를 더욱 기대하는 반면 오픈 소스 모델의 발전 속도가 폐쇄 소스 모델보다 더 빠르다는 의견이 적지 않다.
저커버그는 또 메타의 경우 오픈 소스 모델을 선택하는 것도 메타가 사용자를 위해 계속 최고의 경험을 만들 수 있는 비전에 도달하는 데 더 유리하다고 말했다.저커버그는 오픈 소스로 인해 Llama 시리즈의 큰 모델이 기술적 우위를 잃을 수 있는지에 대한 질문에 생태계의 개방 무결성, 큰 모델에서의 Meta의 상업화 경로 등에서 답변을 내놓았다.
"우선 우리가 가장 좋은 기술을 사용하고 오랫동안 폐쇄된 생태계에 갇히지 않도록 하기 위해 Llama는 도구, 효율성 개선, 칩 최적화 및 기타 통합을 포함한 완전한 생태계로 발전해야합니다.우리가 Llama를 사용하는 유일한 회사라면이 생태계는 발전하지 않을 것입니다.둘째, 나는 인공지능 개발이 계속 고도의 경쟁을 유지할 것으로 예상하는데, 이는 오픈 소스 어떠한 주어진 모델도 당시 다음 최고의 모델에 비해 큰 우위를 잃지 않는다는 것을 의미한다.Llama가 업계 표준이 되는 길은 한 세대 또 한 세대 경쟁력, 효율성 및 개방을 유지하는 것입니다.셋째, Meta와 폐쇄 소스 모델 공급자 간의 중요한 차이점은 AI 모델 액세스 권한을 판매하는 것이 우리의 비즈니스 모델이 아니라는 것입니다.이는 Llama를 공개적으로 발표하는 것이 폐쇄 공급자처럼 우리의 수입, 지속 가능성 또는 투자 연구 능력을 약화시키지 않는다는 것을 의미하며, 이는 일부 폐쇄 공급자들이 정부가 오픈 소스를 반대하도록 끊임없이 로비하는 이유 중 하나입니다."
Llama 내부 과학자 @ astonzhangAZ도 소셜네트워크서비스 (SNS) 에서 연구진이 현재 이미지, 동영상, 음성 기능을 Llama 3에 통합해 모델이 이미지와 동영상을 인식하고 음성을 통한 상호작용을 지원할 수 있도록 하는 방안을 고려하고 있다고 밝혔다.

		自动登录	找回密码
密码			立即注册

메타, 최강 오픈 소스 대형 모델 발표 GPT-4 추격, 샤오자: 내년 역전

相关帖子