李彦宏戳破大模型“跑分”假象:榜单不代表所有实力 未来模型的差距会变大
海田1
发表于 2024-9-11 19:00:42
127
0
0
但在近日百度董事长李彦宏和内部员工的一场交流中,捅他破了大模型行业跑分的"窗户纸"。"每次新模型发布,都要和GPT-4o做比较,说我的得分已经跟它差不多了,甚至某些单项上得分已经超过它了,但这并不表明和最先进的模型就没有差距了。"
他进一步解释道,模型之间的差距是多维度的。一个维度是能力方面,不管是理解能力、生成能力、逻辑推理能力还是记忆能力等这些基本能力上的差距;另一个维度是成本方面,有些模型虽能达到同样效果,但成本高、推理速度慢,其实还是不如先进模型。
"还有就是对于测试集的over-fitting,每一个想证明自己能力的模型都会去打榜,打榜时他就要猜别人到底在测什么、哪些题我用什么样的技巧就能做对,所以从榜单或者测试集上看,你觉得能力已经很接近了,但到实际应用中还是有明显差距的。"李彦宏说。
一位大模型从业者告诉记者,李彦宏提到的测视集的over-fitting(过拟合),主要是指模型训练过程中,模型对训练数据的学习过于精细,以至于模型在训练数据上的表现非常好,但在没见过的测试数据上表现较差的现象。这通常意味着模型过于复杂,以至于它能够"记住"训练数据中的噪声和细节,但这些细节和噪声并不具有普遍性,因此,模型无法很好地推广到更多新数据上。
上述人士认为,打榜跑分确实存在局限性,例如由于评测数据集的公开性,模型可以有针对性地训练来提升排名,出现"刷榜"现象,但并非完全没有意义,榜单还是相对提供了一个量化的评估标准,帮助人们快速了解不同大模型的性能,促使大家通过竞争不断优化大模型的技术水平,也有一定宣传和推广的作用。
在李彦宏看来,"部分自媒体的炒作,再加上每个新模型发布的时候都有宣传的动力,使得大家有一种印象,认为模型之间的能力差别已经比较小了,其实真不是这样。"李彦宏说,在实际使用过程当中,百度不允许技术人员去打榜,真正衡量大模型能力,应该是在具体应用场景中,看是否能满足用户需求、产生价值增益。
而对于大模型行业常常提到的"领先12个月或者落后18个月",他认为也没有那么重要。因为每个公司都处在完全竞争的市场环境中,不管做什么方向都有很多竞争对手。"如果你能永远保证领先对手12~18个月,那是天下无敌的,不要觉得12—18个月是很短的时间,哪怕你能保证永远领先竞争对手6个月,那就赢了,你的市场份额可能是70%,而对手可能仅为20%甚至10%的份额。"
他判断,未来大模型之间的差距可能会越来越大。因为大模型的天花板很高,现在距离理想情况还相差非常远,所以模型要不断快速迭代、更新和升级;需要能几年、十几年如一日地投入,不断满足用户需求,降本增效。
除了讨论大模型竞争还有没有壁垒,在交流中,李彦宏还提到外界对大模型有相当多的误解,包括开源闭源模型效率、AI Agent等话题。
李彦宏是闭源大模型的坚定支持者,"在大模型时代之前,大家习惯了开源意味着免费、意味着成本低。" 他解释说,比如开源的Linux,因为已经有了电脑,所以使用Linux是免费的。但这些在大模型时代不成立,大模型推理是很贵的,开源模型也不会送算力,还得自己买设备,无法实现算力的高效利用。
"效率上开源模型是不行的。" 他表示," 闭源模型准确讲应该叫商业模型,是无数用户分摊研发成本、分摊推理用的机器资源和GPU,GPU的使用效率是最高的,百度文心大模型3.5、4.0的GPU使用率都达到了90%多。"
李彦宏分析,在教学科研等领域,开源模型是有价值的;但在商业领域,当追求的是效率、效果和最低成本时,开源模型是没有优势的。
关于大模型的应用演进方式,他也表达了自己的观点,首先出现的是Copilot,对人进行辅助;接下来是Agent智能体,有一定的自主性,能自主使用工具、反思、自我进化;这种自动化程度再发展,就会变成AI Worker,能独立完成各方面的工作。
当前,智能体已经受到越来越多的大模型公司及客户的关注,李彦宏认为,虽然有很多人看好这个发展方向,但是到今天为止,智能体还不是共识。
"智能体的门槛确实很低", 他说,很多人不知道怎么把大模型变成应用,而智能体是一个非常直接、高效、简单的方式,在模型之上构建智能体相当方便。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 何小鹏:小鹏车端大模型明年目标实现百公里接管1次
- 何小鵬:小鵬車端大模型来年100キロ接収1回を目標
- 撞上数据墙?OpenAI模型提升速度放缓 着手调整开发策略
- 李彦宏:文心大模型日均调用量超15亿 较一年前增长30倍
- 李彦宏:文心大模型の1日平均使用量が15億を超え、1年前より30倍増加
- DeepMind开源生物分子预测模型 诺奖成果将掀起AI制药浪潮?
- 百度李彦宏:过去24个月,AI行业最大变化是大模型基本消除了幻觉
- 「AI新世代」大模型厂商齐“卷”智能体,李彦宏称将迎来“靠想法就能赚钱时代”
- 李彦宏说大模型幻觉基本消除了 实测文心一言到底怎么样?
- 百度发布两款“超级有用”应用,李彦宏:大模型变得可用可信
-
11월 14일, 세계예선 아시아지역 제3단계 C조 제5라운드, 중국남자축구는 바레인남자축구와 원정경기를 가졌다.축구 국가대표팀은 바레인을 1-0으로 꺾고 예선 2연승을 거두었다. 특히 이번 경기 국내 유일한 중계 ...
- 我是来围观的逊
- 어제 15:05
- Up
- Down
- Reply
- Favorite
-
계면신문기자 장우발 4분기의 영업수입이 하락한후 텐센트음악은 다시 성장으로 돌아왔다. 11월 12일, 텐센트음악은 최신 재보를 발표했다.2024년 9월 30일까지 이 회사의 3분기 총수입은 70억 2천만 위안으로 전년 ...
- 勇敢的树袋熊1
- 3 일전
- Up
- Down
- Reply
- Favorite
-
본사소식 (기자 원전새): 11월 14일, 다다그룹 (나스닥코드: DADA) 은 2024년 3분기 실적보고를 발표했다. 수치가 보여준데 따르면 고품질발전전략에 지속적으로 전념하고 사용자체험을 끊임없이 최적화하며 공급을 ...
- 家养宠物繁殖
- 그저께 15:21
- Up
- Down
- Reply
- Favorite
-
11월 12일 소식에 따르면 소식통에 따르면 아마존은 무료스트리밍서비스 Freevee를 페쇄하고 일부 종업원과 프로를 구독서비스 Prime Video로 이전할 계획이다. 올해 초 아마존이 내놓은 몇 편의 대형 드라마의 효 ...
- 度素告
- 3 일전
- Up
- Down
- Reply
- Favorite