上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。
Judge Copilot功能利用强大的评价模型Compass-Judger-1-32B-Instruct,为用户提供全方位对比分析对话模型表现的能力,从多维度评价、实时对比到智能决策辅助,使主观评测更精准、高效。此外,榜单算法进行了全新升级,对原始的Bradley-Terry统计算法进行改进,引入控制变量降低混淆因素的影响,使模型排名更科学、精准。新增的模型涵盖国内外商业模型及开源模型,丰富了对战体验。
豆包等,为用户提供更丰富的对战选择。
体验地址:https://www.modelscope.cn/studios/opencompass/CompassArena