오픈 소스 커뮤니티 분기점: Meta 대형 모델 Llama 3 출시 매개변수 최대 또는 최대 4000억

真不是我干的的 · 发表于 2024-4-19 16:12:28

소셜 거물 메타는 AI (인공지능) 오픈 소스 대형 모델 분야에서 회사의 지위를 유지하기 위해 자사의 최신 오픈 소스 모델을 선보였다.
4월 18일 (현지 시각) 메타는 공식 홈페이지를 통해 자사의 최신 대형 모델인 Llama 3를 발표했다고 밝혔다.현재 Llama 3는 80억 (8B) 과 700억 (70B) 의 두 개의 이터레이션 버전을 개방했으며 컨텍스트 창은 8k입니다.메타는 더 높은 품질의 훈련 데이터와 명령 미세 조정을 사용하여 Llama 3가 이전 세대 Llama 2보다"크게 향상되었다"고 밝혔다.
앞으로 메타는 4000억 개 이상의 매개변수를 보유하게 될 Llama 3의 더 큰 매개변수 버전을 출시할 것이다.메타도 더 긴 컨텍스트 창과 Llama 3 연구 논문을 포함한 Llama 3를 위한 다중 모드 등 새로운 기능을 후속으로 출시할 예정이다.
메타는 공지문에서 "Llama 3를 통해 오늘날 최고의 독점 모델에 필적할 수 있는 오픈 소스 모델 구축에 전념하고 있다"며 "개발자의 피드백을 처리하고 Llama 3의 전반적인 실용성을 높이는 동시에 LLM(대형 언어 모델)을 책임감 있게 사용하고 배치하는 데 선도적인 역할을 계속하고자 한다"고 밝혔다.
18일 이날 메타주가(Nasdaq: META)는 주당 501.80달러로 1.54% 오른 1조2천800억 달러에 거래를 마쳤다.
"현재 시장에서 가장 좋은 오픈 소스 모델"
메타에 따르면 Llama 3는 이미 다양한 업계 벤치마킹에서 최첨단 성능을 보여주며 개선된 추리력을 포함한 새로운 기능을 제공해 현재 시장에서 가장 좋은 오픈 소스 모델이다.
아키텍처 측면에서 Llama3는 128K token 어휘표를 포함하는 디코딩 전용(decoder-only) 방식의 표준 Transformer 아키텍처를 선택했습니다.Llama 3는 Meta가 자체 제작한 2개의 24K GPU 클러스터에서 사전 훈련을 실시하여 15T 이상의 공개 데이터를 사용하였는데, 그중 5% 가 비영문 데이터로 30여 개 언어를 포함하며, 훈련 데이터량은 이전 세대 Llama 2의 7배, 포함된 코드 수는 Llama 2의 4배이다.
메타의 테스트 결과에 따르면 Llama 3 8B 모델은 MMLU, GPQA, HumanEval 등 여러 성능 기준에서 젬마 7B와 미스트랄 7B 인스트럭트를 앞질렀고, 70B 모델은 명성이 자자한 폐원 모델인 Claude 3의 중간 버전인 Sonnet을 제치고 구글의 제미니 프로 1.5에 비해 3승 2패를 기록했다.
Llama 3는 여러 성능 벤치마크에서 뛰어난 성능을 발휘합니다.출처: 메타 홈페이지
메타는 일반적인 데이터 세트 외에도 실제 장면에서 Llama 3의 성능을 최적화하기 위해 고품질의 인공 테스트 세트를 전문적으로 개발했습니다.이 테스트 세트에는 1800 개의 데이터가 포함되어 있으며 제안 요청, 폐쇄적 인 질문 답변, 브레인스토밍, 코딩, 쓰기 등 12 개의 주요 사용 사례를 포함하고 있으며 개발 팀에게는 비밀을 유지합니다.
이 테스트집에서 결과를 보면 Llama 3의 성적은 Llama 2를 크게 앞질렀고 Claude 3 Sonnet, Mistral Medium, GPT-3.5 등 유명 모델도 앞질렀다.
Llama 3는 인공 테스트 세트에서 우수한 성적을 거두었습니다.출처: 메타 홈페이지
Llama 3의 400B + 모델은 여전히 훈련 중이지만 Meta는 Claude 3의 가장 강력한 버전인 Opus를 표적하기 위한 것으로 보이는 테스트 결과의 일부를 보여준다.그러나 메타는 Llama 3의 더 큰 매개변수 모델과 GPT-4와 같은 사양 선수들의 비교 성과를 발표하지 않았다.
여전히 훈련 중인 Llama 3의 400B+ 모델.출처: 메타 홈페이지
Llama 3 모델은 곧 아마존 AWS, Databricks, 구글 클라우드, Hugging Face, Kaggle, IBM WatsonX, 아마존 Azure, 엔비디아 NIM 및 Snowflake에서 개발자에게 제공되며 AMD, AWS, Dell, 인텔, 엔비디아, 퀄컴이 제공하는 하드웨어 플랫폼 지원을 받게 됩니다.Llama 3가 책임 있게 개발될 수 있도록 Meta는 Llama Guard 2, Code Shield 및 CyberSec Eval 2를 포함한 새로운 신뢰 및 보안 도구도 제공합니다.
이와 함께 메타는 Llama3 기반의 공식 웹 버전인 메타 AI를 발표했다.현재 이 플랫폼은 여전히 초급 단계에 있으며 대화와 회화 두 가지 기능만 있다.사용자가 대화 기능을 사용하려면 등록을 통과할 필요가 없고, 그림 기능을 사용하려면 사용자가 로그인 계정을 등록해야 한다.
오픈 소스 커뮤니티에 활력 불어넣기
메타의 AI 도로는 줄곧 오픈 소스와 밀접하게 연결되어 있으며, Llama 3가 출시되자 오픈 소스 커뮤니티의 열렬한 환영을 받았다.
Llama 3의 8k 컨텍스트 창이 너무 작다는 일부 구설도 있지만, 곧 Llama 3의 컨텍스트 창을 확충할 것이라고 메타 측은 밝혔다.이메일 스타트업 오더사이드 AI의 CEO 겸 공동 창업자인 매트 슈머도 이를 낙관하며 "우리는 새로운 세계로 나아가고 있다. 여기서 GPT-4 수준의 모델은 오픈 소스이며 무료로 접근할 수 있다"고 말했다.
엔비디아의 수석 연구 과학자 짐 판 (Jim Fan) 은 곧 출시 될 더 큰 매개 변수 인 Llama 3 모델은 많은 학술 연구와 신생 기업의 의사 결정 방식을 바꿀 수있는"분수령"을 상징하며"전체 생태계에서 활력이 급증 할 것으로 예상된다"고 말했다.
그러나 메타는 Llama 3의 훈련 데이터를 공개하지 않고 모두 공개 데이터에서 나왔다고 밝힌 점에 주목할 필요가 있다.그리고 엄격한 의미에서 말하자면, 이른바'오픈 소스'소프트웨어는 개발과 배포 과정에서 소프트웨어 제품을 포함한 소스 코드, 훈련 데이터 등 내용을 대중에게 완전히 개방해야 한다.앞서 데이터 회사 Databricks가 발표한'최강 오픈 소스 모델'DBRX는 일반 컴퓨터를 훨씬 뛰어넘는 표준 구성을 보유하고 있는 것 외에도 이런 문제가 있었다.
Llama 3의 출시는 Meta의 자체 연구 칩이 진보한 후에 뒤따랐다.바로 지난주, 메타는 자체 개발 칩인 MTIA의 최신 버전을 발표했다.MTIA는 메타가 AI 훈련과 추론 작업을 위해 특별히 설계한 맞춤형 칩 시리즈다.작년 5월 관선의 메타 1세대 AI 추리 가속기 MTIA v1과 비교했을 때, 최신 버전 칩은 메타 산하 소셜 소프트웨어의 순위와 추천 시스템을 위해 특별히 설계된 성능에서 현저하게 향상되었다.메타의 목표는 엔비디아와 같은 칩 제조업체에 대한 의존도를 낮추는 것으로 분석됐다.

		自动登录	找回密码
密码			立即注册

오픈 소스 커뮤니티 분기점: Meta 대형 모델 Llama 3 출시 매개변수 최대 또는 최대 4000억

相关帖子

浏览过的版块