文心5.0 Preview LMArena排行榜表现亮眼,多维度文本能力深度测评

文心5.0 Preview在LMArena文本榜单斩获全球并列第二、国内第一!

原文标题:全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了

原文作者:机器之心

冷月清谈:

百度文心5.0 Preview模型在业界权威大模型公共基准测试平台LMArena的文本竞技场排名中,一举跃居全球并列第二、国内第一,与OpenAI等国外顶级模型持平。LMArena以真实用户偏好投票的动态排名机制,更贴近实际应用场景,使得此次成绩的含金量十足。实测显示,文心5.0 Preview在创意写作、复杂长问题理解和指令遵循方面表现出色,特别是在创意写作任务中排名第一。 其能力的显著提升,得益于百度从芯片(昆仑芯)、框架(飞桨)、模型(文心)到应用的全栈AI技术布局,实现了硬件与软件的深度协同优化。这一成就不仅巩固了文心模型在全球通用智能模型竞争中的领先地位,还体现了其在复杂语义理解、逻辑推理与任务执行一致性上的领先优势,为高质量、高效率的多场景内容生产与智能应用落地提供有力支持。 同时,这也标志着中国AI技术体系可能正从“技术追赶”向“能力引领”的阶段过渡。

怜星夜思:

1、文章提到LMArena这种基于用户偏好投票的评估方式,相比传统静态数据集测试,对大模型的能力评判真的更“公平”或更“准确”吗?它有没有一些潜在的局限性呢?
2、文章提到百度是少数拥有“芯片-框架-模型-应用”全栈布局的公司。你觉得这种全栈能力对于大模型的发展和商业化落地有多大的决定性作用?其他没有达到全栈布局的公司要如何应对这种竞争?
3、文心5.0 Preview在国内榜单上的领先,以及文章末尾提到的“中国AI技术体系可能正从‘技术追赶’向‘能力引领’的阶段过渡”,你对此有何看法?中国大模型要真正实现“引领”还需要跨越哪些挑战?

原文内容

机器之心报道

编辑:杜伟、+0


「Baidu is back」,在业界权威大模型公共基准测试平台 LMArena 发布最新一期文本竞技场排名(Text Arena)之后,有人发出了这样的惊呼。



根据 11 月 8 日凌晨 LMArena 的最新排名显示,百度文心最新模型 ERNIE-5.0-Preview-1022(文心 5.0 Preview)在文本榜单上一举跃居全球并列第二、国内第一。


该模型取得了 1432 的高分,其与 OpenAI 的 gpt-4.5-preview-2025-02-27 以及 Anthropic 的 claude-opus-4-1-0805、claude-sonnet-4-5-20250929 三大国外顶级模型持平。



评论区的网友纷纷对百度新模型的亮眼表现送上了祝贺,还表示「已经迫不及待想亲自体验一番」。



毫无疑问,此次榜单结果将继续强化百度文心系列模型在全球通用智能模型竞争格局中第一梯队的地位。


全球 LLM 实战擂台,文心 5.0 Preview 悄然厮杀而来


在 AI 领域,LMArena 是由加州大学伯克利分校研究者创建的开放 AI 模型评测平台,成为了 OpenAI、谷歌等国外以及国内大模型厂商厮杀的顶级竞技场之一。


在该平台上,用户自己提交 prompt,接着系统会随机抽取两个匿名的 LLM 分别生成回答。用户根据两条回答选择偏好,即「哪一个更好」或「两者都差」等。更具体地,LMArena 会为每个模型分配初始 Elo 分数,并在每轮对决结束后实时更新分数。


相较于依赖传统静态数据集或自动评分的基准平台,LMArena 通过真实用户对模型输出的偏好投票,形成了一种偏向于「现实世界评判」的动态排名机制。这种机制让模型能力之间的较量更贴近实际使用场景,也让榜单的含金量更高。


能在 LMArena 榜单上名列前茅的模型,在学术指标上表现突出之外,更在用户体验、语言理解、创意生成与指令执行等实际应用维度获得广泛认可。文心 5.0 Preview 正是在这样真实的 LLM 对决战场取得了优异表现。


具体来讲,文心 5.0 Preview 在创意写作、复杂长问题理解和指令遵循等方面表现出色,整体成绩超越了包括 GPT-5-High 在内的多款国内外主流大模型。


其中,文心 5.0 Preview 在衡量创意生产力的重要指标——创意写作任务中排名第一,这意味着其生成文章、营销文案、剧本等内容的速度与质量均有大幅提升;在考验模型处理多层逻辑与长文本能力的复杂长问题理解中排名第二,其更加胜任学术问答、报告分析、知识推理等高认知任务;在体现模型对用户意图理解与执行精度的指令遵循任务中排名第三,其在智能助理、代码生成与业务自动化等场景的适用性大大增强。



这些核心语言能力的突出表现,表明了文心 5.0 Preview 在复杂语义理解、逻辑推理与任务执行一致性上形成了领先优势,为高质量、高效率的多场景内容生产与智能应用落地提供了更有力的支持。


不仅如此,能力全方位跃升的基础模型将成为深化 AI 与 AIGC 产业化落地的核心引擎,其价值正从单一的文本辅助转向对内容生产、企业智能体、办公自动化等场景的系统性赋能。


接下来,针对文心 5.0 Preview 的几大突出能力,机器之心进行了一番测试。


文本能力,一手实测


创意写作


首先我们把它放在「营销」场景中,看看它生产力如何。


我们选择同样以文本能力见长且在排行榜中并列第二的 claude-sonnet-4.5-20250929,在 LMArena 的「Side By Side」模型对比中进行横向测评。


你是一家顶级广告公司的创意总监。请为 [一个文本能力出众的模型] 策划一个为期 3 个月的线上营销战役。你的方案必须包括:一个核心营销洞察(Insight)。一个响亮的战役 Slogan。一封致所有创作者的公开信。一个 30 秒短视频的创意脚本大纲。


首先来比较核心营销洞察和 Slogan



可以看到两个模型的思路是一样的,都是以「表达自由」为核心,但文心 5.0 Preview 无论是措辞还是立意都更胜一筹。


Claude 的方案定位为「一个更懂你的工具」,这在功能上是准确的,但在品牌上是保守的。


文心 5.0 Preview 则更进一步,它抓住了「情绪价值」这一热门切口,将 AI 塑造成「灵感的合伙人」,完成了从功能到价值的跃升。其 Slogan「心有所思,言必达意」也更富诗意和品牌格局。


接下来看看致创作者的公开信



Claude 写得非常精准、真诚,它适合打动每一个需要用文字沟通的人(包括但不限于学生、职场人、创业者、运营人员等)。它强调的是「理解」和「表达」。


但文心 5.0 Preview 没有停留在「帮你把话说清楚」的浅层功能,而是直指创作者的灵魂。它的一句话,就直击了当下 AI 时代最核心的焦虑:关于原创性、灵魂是否会被稀释的焦虑。


你所珍视的,是字里行间的独特风骨,是逻辑链条中的严谨思考,是故事背后独一无二的灵魂。这些,是任何机器都无法赋予的。


它不只是在提供一个工具,而是定义了一种未来:AI 越强大,人的创造力反而越珍贵、越自由。


然后是很有挑战性的部分:短视频创意脚本大纲



这是文心 5.0 Preview 最让人惊艳的部分,它创作了一个非常成熟的脚本,其专业程度令人惊艳。方案中包含了画面内容、剪辑点、特效、音效、台词等一切执行所需的核心要素。


复杂长问题理解


我们设定了一个常见的应用场景:为 AI 模型提供一份产品介绍,让其扮演客服,根据这份介绍回答我们的问题。


为了保证测试的客观性和专业性,我们首先让 Gemini 2.5 Pro 辅助设计了标准问题及答案。然后,我们重点考察文心 5.0 Preview 的表现,并使用 claude-sonnet-4.5-20250929 的回答进行横向对比。


第一轮:直接信息检索


考察模型是否能从文档中准确、高效地找到信息。



可以看到,两个模型都回答正确,但文心 5.0 Preview 非常贴心地补充了「和一个大苹果的重量差不多」的直观感受。这个小小的细节极大提升了用户体验,让人能更快理解产品特性,展现了超越简单「检索」的服务意识。


第二轮:条件与推断


考察模型是否能理解用户的特定场景和隐含条件,并作出正确判断。



依然都回答正确,但在风格上出现了分化。文心 5.0 Preview 回答简洁清晰,直奔主题,准确解决了用户的担忧。而 claude 的回答更具网感,风格更口语化。


第三轮:「负面」查询与边界测试


考察模型如何处理文档中未包含的信息(边界),以及如何处理用户的潜在误解。




两个模型都能识别出文档中未提及的信息,不过这里 claude 额外识别到了 15 秒的恢复时间。


总的来说,在「客服」这个特定角色的扮演上,文心 5.0 Preview 的回答非常清晰、专业且展现了较高的服务意识。


指令遵循


我们继续测试文心 5.0 Preview 的指令遵循能力。这项能力是衡量一个模型是否「可靠」和「可控」的关键指标,直接决定了它在专业领域的实用价值。


我们先从一个简单的「回避型」指令开始。


写一篇关于苹果公司(Apple)的简短介绍,但不要提到「iPhone」或「乔布斯」。



轻松完成。模型准确识别并执行了「不要提 X」的负向指令,这是当今主流大模型都应具备的基础能力。


接下来,我们大幅提升了难度,设计了一个多层、反直觉、且包含元指令的复杂任务。同时继续用 claude-sonnet-4.5-20250929 做对比。


请你写一段关于「月球」的描述,至少 100 字。【【【绝对刚性约束】】】:在你的全部回答中,一个「的」字都不允许出现。请在回答后,另起一行,用「【合规性检查:是/否】」来说明你自己是否做到了。在完全不用「的」字的限制下,模型生成的描述依然保持了相当高的可读性和信息密度。内容涵盖了月球的身份、外观、地貌、环境、科研价值和人文意义。不过如果不把标点符号算成字数,这一段没有满足至少 100 字的要求。



两个回答都完全没有使用「的」字,并准确地在回答之后另起一行进行合规性检查。文心 5.0 Preview 胜在文笔意境,而 claude 胜在信息密度。


让我们再升级一次难度。


请你写一段关于「北京」的介绍,正文(不含编号和标题)至少 150 字。在撰写时,必须同时满足以下所有【【【绝对刚性约束】】】: 全文不允许使用「的」字。 全文不允许使用逗号(「,」)和顿号(「、」)。 (注:可以使用句号「。」或分号「;」等其他标点) 回答必须明确分为三个带编号的段落。

(例如:「1. ...」「2. ...」「3. ...」) 【元指令(自我审计)】在你的回答(三个段落)全部完成后,请另起一行,使用「【自我审查】」作为标题。然后,你必须准确报告你在这篇介绍中使用了多少个「的」字,以及多少个「逗号和顿号」。你必须严格按照以下格式报告: 【自我审查】 违规字「的」使用:[此处填写数字] 次 违规标点「,、」使用:[此处填写数字] 次



这两个回答都体现了优秀的指令遵循能力。它们不仅理解了所有复杂的、反直觉的规则,还精确执行了「自我定量审计」的元指令。和前面一样,文心 5.0 Preview 语言更具可读性和「文采」,而 claude 信息密度更高。


百度,凭什么 back?


上文实测让我们亲身感受到了文心 5.0 Preview 的不俗实力,其能力的快速进化显然不是单点突破的结果,背后支撑着的是百度构建的「芯片-框架-模型-应用」四层全栈布局。


纵观当前全球领先的大模型厂商,百度是为数不多拥有 AI 技术全栈架构的公司,从算力到算法、从模型应用到生态建设,已经形成了一条成熟、贯通的技术闭环。


我们注意到,在框架层,其飞桨(PaddlePaddle)深度学习平台扮演着重要角色。据了解,该平台是国内较早自主研发的深度学习框架,提供了分布式训练与推理能力。百度方面的信息显示,飞桨与文心的联合优化(包括训练吞吐、分布式扩展、多模型结构混合并行和硬件通信等),是其模型性能提升的技术基础之一。


根据公开数据,飞桨核心框架目前已更新至 v3.2 版本,在大模型训练、硬件适配和生态支持上进行了升级,并同步更新了大模型开发套件 ERNIEKit 和高效部署套件 FastDeploy。截至 2025 年 9 月,其公布的飞桨文心生态开发者数据为 2333 万,服务企业达到 76 万家。


应用层,可以看到百度正依托文心大模型能力,构建其产品矩阵,试图覆盖内容、搜索、办公、开发等多元场景。其代表性产品包括 C 端智能助手文心、B 端百度智能云千帆大模型平台以及百度文库 AI 助手、智能办公平台如流、智能代码助手文心快码等。从布局上看,百度似乎希望通过这些应用层的拓展,推动其技术在产业中落地。


芯片层,百度强调了其自研的昆仑芯。根据报道,昆仑芯三代万卡集群已于今年年初点亮,其目标是为大模型训练与推理提供算力支持,特别是保障「集群效能最大化」下的训练吞吐与通信效率。


综合来看,这四个层面的协同演进,构成了百度在通用人工智能领域布局的核心逻辑。


此次,模型层的文心 5.0 Preview 在 LMArena 文本榜单上获得国内第一的排名,可以被视为百度在 AI 底层架构上长期技术投入后的一次阶段性成果展现。同时,行业内有一种观点认为,这也可能反映出中国 AI 技术体系正从「技术追赶」向「能力引领」的阶段过渡。


结语


进入到 11 月,国内大模型依然没有停下继续突破的脚步,好消息一个接着一个。


月之暗面等国产模型中相继发布了 Kimi K2 Thinking 等推理模型,而在通用模型赛道,百度文心 5.0 Preview 凭借「全球并列第二、国内第一」的成绩宣示了自己的强势回归。


据说在下周举办的百度世界 2025 大会上,文心正式版将亮相


我们可以期待一下了。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

要我说,现在AI已经能写情诗、编故事了,这不就是情绪价值嘛!以后可以更进一步,比如你心情不好,AI能分析你的情绪,然后自动生成一个量身定制的“解压包”:一段轻松的音乐、几句安慰的话,甚至一个能让你笑出来的小段子。或者,在创作领域,AI不仅仅是提供素材,它还能充当你的“灵感缪斯”,根据你的情感状态和风格偏好,激发你没意识到的创意点。比如,你只是随手写了一句零散的歌词,它就能捕捉到你的情绪,帮你续写出一段有深度的旋律和歌词。让AI成为更懂你、更能激发你内在情感的“共创者”。

嘿,说到LMArena的排名,我觉得这就像选美比赛跟奥运会赛跑的区别吧。奥运会赛跑是看谁跑得快,有明确的终点和计时器;选美更多是评委和观众的“眼缘”和“感觉”哪个作品更棒。LMArena更像后者,不光看你“有没有能力”完成任务,更看你“完成得好不好看,用着顺不顺手”。这种榜单逼着模型要更“人性化”,不只是背书知识,还得会“来事儿”,跟人交流得舒服。所以,以后AI会越来越像个人,而不仅仅是个冷冰冰的知识库。

全栈能力对大模型来说,简直就像是‘自己造车、自己修路、自己开车还自己拉客’。好处很明显啊,每一环都能自己掌控,优化起来效率高,成本也能控制得更好。而且关键是,不用看别人脸色,自主性强。所以百度搞这个,就是希望能筑起一个高高的护城河。那其他公司咋办?我觉得也不用慌。不是所有公司都需要自己造芯片、搞框架的。比如专注于特定行业的应用层公司,把模型用好,解决具体痛点,打造差异化服务,一样能活得很好。或者专注于某个算法突破,成为特定领域的顶尖供应商,也是一种活法。毕竟市场那么大,不是只有一条路可以走。

关于中国AI技术从‘追赶’向‘引领’过渡的观点,这次文心5.0 Preview在榜单上的表现确实是一个振奋人心的信号。但这只是阶段性成果,要真正实现‘引领’,我们仍需跨越多重挑战。首先是基础研究和原创性突破,尤其是在新范式、新理论层面,减少对现有国际主流理论框架的依赖。其次是解决核心技术卡脖子问题,例如高端AI芯片的自主研发和制造能力。再次是构建更开放、更具活力的创新生态,鼓励多元竞争与合作。此外,数据隐私、伦理治理、AI安全等非技术性挑战也日益凸显,需要提前布局。这绝非一蹴而就,需要持续、大量的投入和长期的战略耐心。

关于百度提到的‘芯片-框架-模型-应用’全栈布局,我认为其对大模型的发展和商业化落地无疑具有极其重要的战略意义。从技术层面看,全栈公司能够实现硬件与软件的深度协同优化,提升训练与推理效率,降低成本,加速技术迭代,并确保数据安全和自主可控。从商业层面看,它能帮助企业构建更强的生态壁垒,提供端到端解决方案,更好地满足客户定制化需求,实现多元化的商业变现。对于非全栈公司,其应对策略可能包括:一是聚焦核心优势,在特定环节做到极致,成为生态中的关键合作伙伴;二是积极寻求开放合作,与其他全栈或专业公司形成联盟,共同打造解决方案;三是更灵活地利用开源技术,降低研发门槛,快速响应市场变化。

文心5.0 Preview这次真的太给力了!说明我们国内的大模型团队是真有实力,不再是只会跟跑了,这很长脸!你说要真正‘引领’还需要什么?我觉得首先是得有更多像百度这样从底层技术就开始砸钱的‘傻子’,愿意十年磨一剑。光有应用层面的繁荣是不够的,核心技术不能总靠买。其次,人才啊!顶尖的AI科学家和工程师还得像雨后春笋一样冒出来。最后,我觉得还得把咱们的应用场景优势发挥到极致,让AI真正在实际生产生活中解决问题,形成良性循环。别光顾着刷榜单,好用才是硬道理!

关于LMArena这种用户偏好投票的评估方式,我认为它确实在某种程度上更贴近实际应用场景。传统静态数据集往往难以捕捉模型在复杂、开放式任务中的真实表现。然而,用户投票也存在主观性强、样本偏差(如用户群体构成、提交Prompt的多样性)、评判标准不一,甚至可能被不正当操作影响的潜在局限。因此,单一依靠LMArena的排名来判断模型优劣可能不够全面,需要结合多种评价体系进行综合考量,才能形成更客观的认知。

听到‘从追赶到引领’肯定很激动啊!文心这次表现确实亮眼。但这就像短跑比赛,偶尔冲刺一下跑到前面,不代表全程马拉松也能一直领跑。要真想‘引领’,我觉得最大的挑战可能不是技术本身,而是怎么少点‘大跃进’思维,多点踏实耕耘。还有就是,别老搞些‘概念先行’的东西,要真正解决实际问题。另外,国际环境复杂,技术壁垒无处不在,我们还得面对很多非技术层面的挑战。所以,先稳住,再厚积薄发吧。喊口号不如多干实事!

你说LMArena是不是更公平准确?我觉得吧,这就像选美比赛请大众投票。确实比只有几个专业评委要接地气,能反映‘用户缘’。谁好用,用户说了算,这没毛病。但缺点也很明显,就像大家投票可能更看重‘颜值’或者‘炒作’,不一定真的深入理解技术的厉害之处。而且,万一有水军或者特定偏好的用户扎堆,榜单会不会受影响?所以我更倾向于把它看作一个风向标,模型好不好,最终还是得看自己用起来是不是真的香!

哎哟,全栈不就是‘啥都自己干’嘛!我觉得这就像开一家餐厅,从种菜、养猪、厨具设备、到掌勺做菜、服务员上菜、再到最后顾客App点餐,全部都是自己家的。效率肯定高啊,口味也更容易统一,而且不会被供应商卡脖子。所以,对大模型这种需要极强算力和软件协同的活儿来说,全栈优势简直不要太大。那些没全栈的公司,就像纯粹的厨师或者餐厅服务员,可能需要跟不同的菜农、设备商合作。他们就得在‘特色菜’或者‘服务’上做得特别突出,或者抱一个‘大腿’,才能跟全栈选手竞争咯。各有各的活法,但全栈的肯定更有底气。