GLM-4-Plus在SuperCLUE基准测评和司南Compass Arena榜单均位居国内第一

[复制链接]
查看: 33|回复: 0

8

主题

24

帖子

24

积分

新手上路

Rank: 1

积分
24
发表于 2024-11-26 05:21:49 | 显示全部楼层 |阅读模式
11月8日,中文大模型测评基准SuperCLUE发布《中文大模型基准测评202410月报告》,智谱GLM-4-Plus凭借出色的能力表现,在43个国内外大模型中位居第一梯队,总得分位列国内大模型首位。

ChMkK2c6obyIZJKiAAN-HiHQuYMAAlwVgEKfOYAA342299.jpg

ChMkK2c6obyIZJKiAAN-HiHQuYMAAlwVgEKfOYAA342299.jpg



ChMkK2c6obyIEKLzAAHHsnl0sHkAAlwVgEGTfAAAcfK679.jpg

ChMkK2c6obyIEKLzAAHHsnl0sHkAAlwVgEGTfAAAcfK679.jpg


SuperCLUE中文大模型基准测评旨在通过多维度综合性测评,对国内外大模型的发展趋势和综合效果进行实时跟踪。本次10月报告聚焦通用能力测评,选取了国内外有代表性的43个大模型,采用多维度、多层次的综合性测评方案进行测评。测评结果显示,o1-preview的推出进一步拉大了与其他模型的差距,国内大模型第一梯队竞争激烈,持续迭代表现不俗。其中国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异,与ChatGPT-4o-latest相距2分以内。基于大模型在基础能力和应用能力的表现,共有23个国内大模型入选SuperCLUE模型象限。智谱GLM-4-Plus位居【卓越领导者】,代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。

ChMkK2c6obyIGdtXAAGz3cjaYPUAAlwVgED5skAAbP1153.jpg

ChMkK2c6obyIGdtXAAGz3cjaYPUAAlwVgED5skAAbP1153.jpg


11月14日,在司南OpenCompass公布的大语言模型对战榜单Compass Arena中,智谱GLM-4-Plus的竞技场评级分数位列榜首,领先GPT-4o-20240513。
Compass Arena 大语言模型对战榜单致力于构建一个完全基于用户真实反馈的公正、开放、透明的榜单。用户根据与大模型的真实对话体验进行投票,依据投票结果,使用 Elo 评分系统对大模型进行排名。

ChMkLGc6obyIe7YHAACzGknwCF4AAlwVgEFmr4AALMy664.jpg

ChMkLGc6obyIe7YHAACzGknwCF4AAlwVgEFmr4AALMy664.jpg


据悉,GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本,它标志着智谱继续瞄准通用人工智能,持续推进大模型技术的独立自主创新。作为智谱最新旗舰模型,在语言理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。GLM-4-Plus 成为智谱全模型家族坚实的能力底座,在代码计算、数据分析、图像/视频特征识别等领域均实现性能的大幅提升,及成本的大幅下降,目前已上线智谱开放平台bigmodel.cn。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩图文

Copyright   ©2015-2024  华夏营  ·  陕ICP备2024040538号