当前位置:站长百科 > 文章资讯> 实时热点> 大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能

大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能

2024-12-19 18:00:05来源:AIbase基地

上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。

Judge Copilot功能利用强大的评价模型Compass-Judger-1-32B-Instruct,为用户提供全方位对比分析对话模型表现的能力,从多维度评价、实时对比到智能决策辅助,使主观评测更精准、高效。此外,榜单算法进行了全新升级,对原始的Bradley-Terry统计算法进行改进,引入控制变量降低混淆因素的影响,使模型排名更科学、精准。新增的模型涵盖国内外商业模型及开源模型,丰富了对战体验。

豆包等,为用户提供更丰富的对战选择。

体验地址:https://www.modelscope.cn/studios/opencompass/CompassArena

声明:《大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能》内容参考资料AIbase基地,不代表本站观点或立场。如有关于作品内容、版权或其它问题,可与本站联系反馈