|
북경시간으로 7월 23일 저녁, 메타는 정식으로 최신의 개원대모형 Llama 3.1 계렬을 발표하여 개원모형과 페원모형의 격차를 한층 더 줄였다.Llama 3.1은 8B, 70B, 450B 3개의 매개변수 규모를 포함하고 있으며, 이 중 450B 매개변수의 모델은 여러 벤치마크 테스트에서 OpenAI의 GPT-4o를 능가하여 Claude 3.5 Sonnet과 같은 선도적인 폐원 모델에 필적한다.
메타 창업자 CEO 저커버그는 같은 시간 홈페이지에 블로그를 올려 이번 발표를 위해 기세를 올렸다. 그는 Llama 3.1 버전이 업계의 전환점이 될 것이며 대부분의 개발자들이 주로 오픈 소스를 사용하기 시작할 것이며 오픈 소스 AI는 미래의 발전 방향이라고 말했다.
엔비디아의 고위 연구 과학자인 짐 팬은 X에 글을 올려 메타 팀을 축하했다. 그는"GPT-4의 힘은 바로 우리 손에 있다. (이것은) 진정으로 역사적인 순간이다."
구체적인 세부 사항에서 Llama 3.1 세 버전의 모델 컨텍스트 창은 모두 8k에서 128K로 16배 확대되었으며 8 개 언어를 지원합니다.이 중 Llama 3.1-405B 모델은 15조 개 이상의 tokens를 사용하여 훈련했으며, 이 훈련 규모를 달성하기 위해 팀은 1만6000개의 H100의 GPU를 사용했다.공식적으로는 405B 모델이 이런 규모로 훈련된 최초의 Llama 모델이라고 밝혔다.
오픈 소스 대형 언어 모델은 기능과 성능 면에서 대부분 오픈 소스 모델에 뒤처져 있다."그러나 이제 우리는 오픈 소스가 이끄는 새로운 시대를 맞이하고 있다."
공식 블로그에서 Meta는 150 개 이상의 벤치마크 데이터 세트의 성능을 평가하고 Llama 3.1과 다른 모델의 능력 표현을 비교했으며 플래그십 모델인 Llama 3.1-405B는 상식, 조작성, 수학 등 일련의 작업에서 GPT-4, GPT-4o 및 Claude 3.5 Sonnet에 필적할 수 있습니다.또한 8B 및 70B 소형 모델은 비슷한 수의 매개변수를 가진 닫힌 소스 및 오픈 소스 모델과 경쟁력이 있습니다.
실제 시나리오에서 Llama 3.1 405B는 GPT-4o 및 Claude 3.5 Sonnet보다 전반적으로 우수한 인공 평가와 비교했습니다.
이번 메타는 개발자가 처음으로 Llama 모델(405B 포함)의 송출을 사용하여 다른 모델을 개선할 수 있도록 오픈 소스 라이센스도 업데이트했다.GPT-4o를 표시하는 것에 대해 공식적으로, 그들은 또한 조합 방식으로 이미지, 비디오 및 음성 기능을 Llama 3에 통합하여 모델이 이미지와 비디오를 인식하고 음성을 통해 상호 작용을 지원할 수 있도록 할 것이라고 밝혔다.그러나 현재 이 기능은 개발 중이며 출시 준비가 되지 않았습니다.
공식 블로그에서 메타는 지금까지 모든 Llama 버전의 총 다운로드 수가 3억 건을 넘어섰다고 밝혔다.
저커버그는 이번 모델 발표 외에도 홈페이지에 장문의'Open Source AI Is the Path Forward'를 함께 게재했다. 이 중 오픈 소스의 중요성을 언급하며 오픈 소스가 모든 개발자, 메타, 세계에 좋은 일이라고 주장했다.
저커버그는 오픈 소스 시스템인 리눅스가 오픈 소스 시스템인 유닉스를 이긴 것을 예로 들며 인공지능이 비슷한 방식으로 발전할 것으로 내다봤다."몇몇 기술 회사들이 선도적인 폐쇄 모델을 개발하고 있지만, 오픈 소스는 곧 격차를 좁히고 있다."그는 작년에 Llama 2가 구세대 모델과 비교될 수밖에 없었다고 언급했다.올해 Llama 3는 일부 분야에서 경쟁력을 갖추고 있으며 심지어 어떤 면에서는 최첨단 모델보다 앞서고 있습니다.
저커버그는 오픈 소스가 혁신을 촉진하고 비용을 절감하며 보안을 향상시킬 수 있다고 생각한다.개발자의 경우, 오픈 소스를 이용하여 자신의 모델을 훈련, 미세 조정 및 증류할 수 있으며, 각 조직은 서로 다른 요구를 가지고 있으며, 특정 데이터를 통해 훈련 또는 미세 조정을 수행하는 다른 크기의 모델을 사용하는 것이 좋습니다.
이와 동시에 개발자는 페쇄된 공급업체에 잠기지 않고 데터를 보호할수 있다."개발 소스 소프트웨어는 종종 더 안전하다. 왜냐하면 그것의 개발은 더욱 투명하고 광범위하게 검토될 수 있기 때문이다."라고 저커버그는 생각한다.
저커버그는 동시에 오픈 소스 모델의 원가가 더 낮고 효율이 높으며, 개발자는 그들 자신의 인프라에서 Llama 3.1 405B의 추리를 실행할 수 있으며, 원가는 GPT-4o와 같은 폐쇄 모델의 약 50% 를 사용하여 사용자 인터페이스와 오프라인 추리 임무에 적용된다고 언급했다.
"개원 인공지능은 세계 최고의 기회를 대표한다."저커버그가 보기에 이 기술을 이용하면 가장 큰 경제적 기회와 안전 보장을 창출할 수 있다. |
|