Meta发布“最强开源大模型” 开源与闭源之争翻开新一页 大模型或迎重新洗牌
瞬间遗失梢
发表于 2024-7-28 10:40:17
1201
0
0
一直以来,OpenAI因为ChatGPT的封闭性遭到了外界不少诟病,称其虽名为“Open”但实际上做着“Close”的事情,而以ChatGPT-4o为代表的闭源大模型的实力却也常常让业界望而却步,似乎“闭源大模型性能一定强于开源大模型”的观念已成默认。
但是本次Llama3.1的发布似乎会改写这一格局。本次Meta发布了Llama3.1的三个版本,分别为8B、70B和405B,其中405B为“顶配”版本,Meta号称其性能可与最好的闭源模型相媲美。
“最强开源大模型”
Llama3.1 405B凭什么能够与最好的闭源模型一争高下?发布Llama3.1的同时,Meta也发布了一篇题为《The Llama 3 Herd of Models》的论文,其中详细阐述了Llama3模型的研发细节。
首先,在使用上,Llama3.1 支持8种语言,并且三个版本的上下文窗口都扩展到了128K,与GPT-4 Turbo相同;同时Llama3.1 405B拥有4050亿个模型参数,训练规模是Llama2的50倍,采用密集Transformer架构,以保持更稳定的性能。这样一来,Llama一次性可以处理的文本数量高达9.6万字,同时无论是长文本还是短文本,都可以进行“得心应手”的处理。
在论文中,Meta也公布了Llama3.1 405B与ChatGPT-4o和Claude3.5 Sonnet这些头部闭源大模型的性能对比数据。测试结果显示,Llama3.1 405B在通用性能、长文本处理与多语言处理的多个方面,得分都处于领先地位。例如在ZeroSCROLLS项目测试中,Llama3.1 405B的得分为95.2,后两者皆为90.5。
表现优异的性能与庞大的训练基数让Llama3.1拥有“最强开源大模型”的称号,但目前的Llama3.1仍然是一个以语言处理为主的大模型,并不支持处理图像、视频或语音,这也就意味着在多模态任务处理上,ChatGPT依然拥有突出的能力。
“开源AI是未来之路”
或许Llama的实际使用体验还没有达到完美的程度,但此次Llama3.1 405B的发布,对全世界AI工作者来说最大的意义还是在于大模型的开源与闭源之争又翻开了新的一页。
在Meta官网,扎克伯格发布了一封公开信,坚定地对外宣称“开源AI是通往未来的道路”。信中他表示,尽管多家公司正在开发领先的闭源模型,但开源正在迅速缩小差距。以Llama为例,去年Llama2只能与通用大模型的老旧版本相媲美,今年Llama3就做到了与最先进的大模型相竞争,并在一些领域领先。
因此,扎克伯格希望把Llama做成大模型时代的Linux,成为开源AI的行业标准。“在高性能计算的早期,主要技术公司都投入巨资开发自己的闭源Unix版本……今天,开源的Linux成为了云计算和运行大多数移动设备的操作系统的工业标准基础,我相信人工智能将以类似的方式发展。”
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.