|
OpenAI가 갑자기"작은 모델"GPT-4o mini를 오픈한 데 이어 Meta는 초대형 매개변수의 큰 모델 폭발장을 던지기로 결정했다.
7월 24일, Meta는 오픈 소스 대형 모델 시리즈 Llama 3.1 405B와 업그레이드된 70B와 8B 두 치수 모델을 발표했다.
Llama 3.1 405B는 현재 가장 강력한 오픈 소스 모델로 간주됩니다.메타가 발표한 정보에 따르면, 이 모델의 컨텍스트 길이는 128K를 지원하며, 8개 언어에 대한 지원을 추가하여 범용 지식, 조종 가능성, 수학, 도구 사용 및 다국어 번역 등에서 GPT-4o와 Claude 3.5 sonnet과 같은 플래그십 모델에 필적할 수 있으며, 심지어 인공 평가 (Human Evaluation) 비교에서도 이 두 모델보다 전체적인 표현이 더 좋다.
또한 8B와 70B 두 모델의 업그레이드 버전도 다국어이며 모두 128K 컨텍스트 길이로 확장되었습니다.
Llama 3.1 405B는 지금까지 Meta에서 가장 큰 모델입니다.메타는 이 모델의 훈련은 15조 tokens 이상을 다루고 있으며, 합리적인 시간 내에 이상적인 효과를 얻기 위해 팀은 전체 훈련 스택을 최적화하고 16000개 이상의 H100 GPU를 사용했다고 밝혔다. 이렇게 대규모 계산력으로 훈련을 마친 최초의 Llama 모델이기도 하다.
이 어려운 훈련 목표는 팀에 의해 여러 가지 중요한 단계로 분할됩니다.메타는 훈련 안정성을 극대화하기 위해 MoE 아키텍처(하이브리드 전문가 아키텍처)를 선택하지 않고 표준 디코더만 사용하는 Transformer 모델 아키텍처를 적용해 소폭 조정했다.
메타에 따르면 팀도 반복적인 후훈련과정을 사용하여 매 라운드에 대해 감독미세조정과 직접선호최적화를 진행하여 매 라운드에 최고품질의 합성수치를 만들어 각 능력의 성능을 제고시켰다.이전 버전의 Llama에 비해 팀은 훈련 전, 후에 사용되는 데이터의 양과 질을 향상시키고 개선했습니다.
Llama 3.1 405B 폭파장과 함께 마크 저커버그는"오픈 소스 AI는 나아갈 길"이라는 제목의 선언문을 발표하여 오픈 소스 대형 모델의 의미와 가치를 재차 강조했으며, 검봉은 OpenAI 등 폐쇄 소스 노선을 걷고 있는 대형 모델 회사를 가리켰다.
저커버그는 오픈 소스 Linux와 오픈 소스 Unix의 이야기를 다시 언급하면서 전자는 더 많은 기능과 더 광범위한 생태계를 지원하며 클라우드 컴퓨팅과 대부분의 모바일 장치 운영 체제를 실행하는 업계 표준 기반이라고 주장했다."나는 인공지능도 비슷한 방식으로 발전할 것이라고 믿는다."
그는 다음과 같이 지적했다. 몇개 과학기술회사는 앞선 페원대모형을 개발하고있지만 개원대모형은 재빨리 이 격차를 줄이고있다.가장 직접적인 증거는 Llama 2가 그동안 낙후된 구세대 모델과 비교할 수밖에 없었지만 Llama 3는 이미 최신 모델과 비교할 수 있으며 일부 분야에서 선두를 달리고 있다는 것이다.
그는 내년부터 Llama 3가 업계에서 가장 진보된 모델이 될 수 있을 것으로 전망했다. 이에 앞서 Llama는 개방성, 수정 가능성, 비용 효율성에서 선두를 달리고 있다.
저커버그는 많은 이유를 인용하여 왜 이 세계가 오픈 소스 모델을 필요로 하는지를 설명하면서, 개발자에게 더 투명한 개발 환경은 그들 자신의 모델을 더 잘 훈련하고, 미세하게 조정하고, 추출하는 것 외에 또 다른 중요한 요소는"효율적이면서도 부담스러운 모델이 필요하다"고 말했다.
그는 사용자와 오프라인을 대상으로 하는 추리 작업의 경우 개발자가 자체 인프라에서 Llama 3.1 405B를 실행할 수 있으며 비용은 GPT-4o 등 폐원 모델의 약 50% 라고 설명했다.
오픈 소스, 오픈 소스 두 가지 노선을 둘러싼 논쟁은 이전에 업계에서 이미 여러 차례 토론되었지만, 당시의 주요 기조는 양자가 각각 가치가 있고, 오픈 소스는 높은 가격 비율의 방식으로 많은 개발자에게 혜택을 줄 수 있으며, 또한 큰 언어 모델 자체의 기술 교체와 발전에 유리하며, 오픈 소스는 자원을 더 빨리 집중하고 성능 병목 현상을 더 깊이 돌파할 수 있으며, 오픈 소스보다 먼저 AGI (범용 인공 지능) 를 달성할 수 있을 것이라는 것이었다.
즉, 모델의 성능 수준에서 오픈 소스가 닫힌 소스를 따라잡기 어렵다는 것이 업계의 일반적인 견해입니다.Llama 3.1 405B의 출현은 업계로 하여금 이 결론을 다시 생각하게 할 수도 있으며, 이미 폐원 모델 서비스를 사용하는 경향이 있는 많은 기업과 개발자 집단에 영향을 줄 가능성이 높다.
현재 메타의 생태계는 매우 방대하다.Llama 3.1 모델이 출시되면 아마존 AWS, 엔비디아,Databricks、Groq、Dell, Microsoft Azure 및 Google Cloud 등
다만 저커버그는 Llama 시리즈 모델이 선두를 달리고 있다는 예상이 내년인 만큼 중간에 폐원 모델에 의해 지붕이 다시 뒤집힐 가능성도 배제할 수 없다.이 기간 동안 Llama 3.1 405B를 따라잡을 수 없는 성능 수준의 폐쇄 소스 모델에 대한 관심이 높아질 수 있는데, 그들의 현재 처지는 확실히 좀 난감하다.
그는 특히 중국과 미국의 대형 모델 분야에서의 경쟁에 대해 언급하면서 미국이 이 방면에서 중국을 수년 동안 영원히 앞서는 것은 비현실적이라고 주장했다.그러나 몇 달간의 미세한 선두조차도 시간이 지남에 따라"적은 것이 많아져"미국이"뚜렷한 우세"를 얻게 될 것이다.
"미국의 강점은 탈중심화와 개방형 혁신이다.어떤 사람들은 우리가 중국이 이러한 모델을 획득하는 것을 막기 위해 우리의 모델을 폐쇄해야 한다고 생각하지만, 나는 이것이 통하지 않고 미국과 그 동맹국들을 불리하게 만들 뿐이라고 생각한다."저커버그가 보기에 폐쇄된 모델만 있는 세계는 소수의 대기업과 지정학적 상대가 선도적인 모델을 얻을 수 있는 반면 스타트업, 대학, 소기업은 기회를 놓칠 수 있다.또 미국 혁신을 폐쇄 개발로 제한해 전혀 앞서지 못할 가능성을 높였다.
"오히려 우리의 가장 좋은 전략은 우리의 선두 회사들이 정부 및 동맹국들과 긴밀히 협력하여 최신 진전을 가장 잘 활용하고 장기적으로 지속 가능한 선발 우위를 달성할 수 있도록 강력한 개방형 생태계를 구축하는 것이라고 생각합니다."라고 저커버그는 말했다. |
|