첫 페이지 美股新闻 본문
  每当有新版本的大模型发布时,业界总是热衷于引用第三方榜单数据,拿自家大模型和GPT-4一起"跑个分",声称已经在某些指标上实现了超越,以此来证明自己的大模型技术实力。

  但在近日百度董事长李彦宏和内部员工的一场交流中,捅他破了大模型行业跑分的"窗户纸"。"每次新模型发布,都要和GPT-4o做比较,说我的得分已经跟它差不多了,甚至某些单项上得分已经超过它了,但这并不表明和最先进的模型就没有差距了。"
  他进一步解释道,模型之间的差距是多维度的。一个维度是能力方面,不管是理解能力、生成能力、逻辑推理能力还是记忆能力等这些基本能力上的差距;另一个维度是成本方面,有些模型虽能达到同样效果,但成本高、推理速度慢,其实还是不如先进模型。
  "还有就是对于测试集的over-fitting,每一个想证明自己能力的模型都会去打榜,打榜时他就要猜别人到底在测什么、哪些题我用什么样的技巧就能做对,所以从榜单或者测试集上看,你觉得能力已经很接近了,但到实际应用中还是有明显差距的。"李彦宏说。
  一位大模型从业者告诉记者,李彦宏提到的测视集的over-fitting(过拟合),主要是指模型训练过程中,模型对训练数据的学习过于精细,以至于模型在训练数据上的表现非常好,但在没见过的测试数据上表现较差的现象。这通常意味着模型过于复杂,以至于它能够"记住"训练数据中的噪声和细节,但这些细节和噪声并不具有普遍性,因此,模型无法很好地推广到更多新数据上。
  上述人士认为,打榜跑分确实存在局限性,例如由于评测数据集的公开性,模型可以有针对性地训练来提升排名,出现"刷榜"现象,但并非完全没有意义,榜单还是相对提供了一个量化的评估标准,帮助人们快速了解不同大模型的性能,促使大家通过竞争不断优化大模型的技术水平,也有一定宣传和推广的作用。
  在李彦宏看来,"部分自媒体的炒作,再加上每个新模型发布的时候都有宣传的动力,使得大家有一种印象,认为模型之间的能力差别已经比较小了,其实真不是这样。"李彦宏说,在实际使用过程当中,百度不允许技术人员去打榜,真正衡量大模型能力,应该是在具体应用场景中,看是否能满足用户需求、产生价值增益。
  而对于大模型行业常常提到的"领先12个月或者落后18个月",他认为也没有那么重要。因为每个公司都处在完全竞争的市场环境中,不管做什么方向都有很多竞争对手。"如果你能永远保证领先对手12~18个月,那是天下无敌的,不要觉得12—18个月是很短的时间,哪怕你能保证永远领先竞争对手6个月,那就赢了,你的市场份额可能是70%,而对手可能仅为20%甚至10%的份额。"
  他判断,未来大模型之间的差距可能会越来越大。因为大模型的天花板很高,现在距离理想情况还相差非常远,所以模型要不断快速迭代、更新和升级;需要能几年、十几年如一日地投入,不断满足用户需求,降本增效。
  除了讨论大模型竞争还有没有壁垒,在交流中,李彦宏还提到外界对大模型有相当多的误解,包括开源闭源模型效率、AI Agent等话题。
  李彦宏是闭源大模型的坚定支持者,"在大模型时代之前,大家习惯了开源意味着免费、意味着成本低。" 他解释说,比如开源的Linux,因为已经有了电脑,所以使用Linux是免费的。但这些在大模型时代不成立,大模型推理是很贵的,开源模型也不会送算力,还得自己买设备,无法实现算力的高效利用。
  "效率上开源模型是不行的。" 他表示," 闭源模型准确讲应该叫商业模型,是无数用户分摊研发成本、分摊推理用的机器资源和GPU,GPU的使用效率是最高的,百度文心大模型3.5、4.0的GPU使用率都达到了90%多。"
  李彦宏分析,在教学科研等领域,开源模型是有价值的;但在商业领域,当追求的是效率、效果和最低成本时,开源模型是没有优势的。
  关于大模型的应用演进方式,他也表达了自己的观点,首先出现的是Copilot,对人进行辅助;接下来是Agent智能体,有一定的自主性,能自主使用工具、反思、自我进化;这种自动化程度再发展,就会变成AI Worker,能独立完成各方面的工作。
  当前,智能体已经受到越来越多的大模型公司及客户的关注,李彦宏认为,虽然有很多人看好这个发展方向,但是到今天为止,智能体还不是共识。
  "智能体的门槛确实很低", 他说,很多人不知道怎么把大模型变成应用,而智能体是一个非常直接、高效、简单的方式,在模型之上构建智能体相当方便。
您需要登录后才可以回帖 登录 | Sign Up

本版积分规则

  • 11월 14일, 세계예선 아시아지역 제3단계 C조 제5라운드, 중국남자축구는 바레인남자축구와 원정경기를 가졌다.축구 국가대표팀은 바레인을 1-0으로 꺾고 예선 2연승을 거두었다. 특히 이번 경기 국내 유일한 중계 ...
    我是来围观的逊
    어제 15:05
    Up
    Down
    Reply
    Favorite
  • 계면신문기자 장우발 4분기의 영업수입이 하락한후 텐센트음악은 다시 성장으로 돌아왔다. 11월 12일, 텐센트음악은 최신 재보를 발표했다.2024년 9월 30일까지 이 회사의 3분기 총수입은 70억 2천만 위안으로 전년 ...
    勇敢的树袋熊1
    3 일전
    Up
    Down
    Reply
    Favorite
  • 본사소식 (기자 원전새): 11월 14일, 다다그룹 (나스닥코드: DADA) 은 2024년 3분기 실적보고를 발표했다. 수치가 보여준데 따르면 고품질발전전략에 지속적으로 전념하고 사용자체험을 끊임없이 최적화하며 공급을 ...
    家养宠物繁殖
    그저께 15:21
    Up
    Down
    Reply
    Favorite
  • 11월 12일 소식에 따르면 소식통에 따르면 아마존은 무료스트리밍서비스 Freevee를 페쇄하고 일부 종업원과 프로를 구독서비스 Prime Video로 이전할 계획이다. 올해 초 아마존이 내놓은 몇 편의 대형 드라마의 효 ...
    度素告
    3 일전
    Up
    Down
    Reply
    Favorite
海田1 注册会员
  • Follow

    0

  • Following

    0

  • Articles

    34