阿里开源千问3,参数量为DeepSeek-R1三分之一
风雨中行走
发表于 6 시간전
2474
0
0
千问3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,对简单需求可低算力“秒回”答案,对复杂问题可多步骤“深度思考”,节省算力消耗。
阿里巴巴表示,千问3系列支持119种语言,并基于近36万亿个token(标记)进行训练,使用的数据量是千问2.5的两倍。
千问3系列包括两个专家混合(MoE)模型和另外六个模型。阿里巴巴开源了两个MoE模型的权重:拥有2350多亿总参数和220多亿激活参数的Qwen3-235B-A22B,以及拥有约300亿总参数和30亿激活参数的小型MoE 模型Qwen3-30B-A3B。
阿里巴巴表示,Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,可媲美DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型。
此外,六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0许可下开源。
阿里巴巴表示,千问3代表了该公司在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。未来,阿里计划从多个维度提升模型,包括优化模型架构和训练方法,以实现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等关键指标。
阿里巴巴集团CEO吴泳铭在今年2月的业绩会上表示,阿里集团在AI战略里面的首要目标是AGI(通用人工智能)的实现,可能远远超过现在可见的任何一个应用场景。
阿里巴巴预判如果实现AGI,人工智能相关产业大概率将会是全球最大的产业,有可能影响或者替代现在50%左右的GDP构成。
目前,包括谷歌在内的多家科技巨头推出了开源模型。今年3月,谷歌开源多模态大模型Gemma 3正式发布。这款仅需单块H100 GPU即可运行的27B参数模型,不仅性能对标谷歌闭源大模型Gemini 1.5 Pro,更以“低成本、高性能”的标签重新定义了行业标准。这一举措被业界视为谷歌在开源AI领域的一次重大战略升级。
今年3月底,OpenAI 宣布计划在今年发布自GPT-2以来的首个“开源”语言模型。据媒体报道,OpenAI的开源模型将采用“输入文本,输出文本”的模式,并可能允许开发者自由开启或关闭其“推理”功能。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 阿里瘦身再切割!银泰“试验田”十年沉浮:下一个被抛售的是谁
- 通义将从阿里云剥离 吴嘉或带队整合阿里AI To C业务?
- 卷在银泰百货里的浙商大佬:雅戈尔李如成74亿豪赌,阿里预亏93亿离场
- 阿里以74亿元出清 银泰百货易主雅戈尔
- 亏损千亿元级别:阿里投资交了多少“学费”
- “国外一开源,国内就创新?” 阿里巴巴提供AI治理新范式
- 宝尊电商与阿里续签关联交易
- 阿里云本年度第三轮大模型降价
- 美股年终收官,三大指数齐跌;比特币全年翻倍;今起存量房公积金贷款利率下调;雷军:2025年交付目标30万辆;降价80%!阿里宣布丨财经早参
- 扶持外贸转内销:阿里奔赴100个产业带 京东接洽近3000家 美团超50家进入流程