大模型评测平台CompassArena升级推出全新 Judge Copilot 功能

2024-12-19 18:00:05来源：AIbase基地

上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena（大模型竞技场）近日迎来了新升级，旨在为用户提供更科学、全面的模型评估体验。自上线以来，该平台吸引了大量社区用户参与并贡献数据，基于这些数据，CompassArena不断优化，此次升级包括全新Judge Copilot功能和榜单算法的改进，以及新增20多个全新模型。

Judge Copilot功能利用强大的评价模型Compass-Judger-1-32B-Instruct，为用户提供全方位对比分析对话模型表现的能力，从多维度评价、实时对比到智能决策辅助，使主观评测更精准、高效。此外，榜单算法进行了全新升级，对原始的Bradley-Terry统计算法进行改进，引入控制变量降低混淆因素的影响，使模型排名更科学、精准。新增的模型涵盖国内外商业模型及开源模型，丰富了对战体验。

</p><p>CompassArena高度重视Judge模型在实际应用中的表现，并积极收集用户反馈以进一步提升Judge模型的综合能力和对齐效果。用户可以通过点击“赞”和“踩”按钮来表达他们对Judge模型的评价。通过拟合包含控制变量的Bradley-Terry统计模型，CompassArena能够估计众多外在因素的影响程度，具体影响程度可以通过几率比的形式表达。</p><p>此次升级，CompassArena迎来了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等国内商业模型，以及claude-3.5-sonnet-20241022、gemini-exp-1121等国外商业模型和一系列开源模型的加入。新增模型所属机构包括360、DeepSeek、<a href= 豆包等，为用户提供更丰富的对战选择。

体验地址：https://www.modelscope.cn/studios/opencompass/CompassArena

大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能

热门文章

大模型评测平台CompassArena升级推出全新 Judge Copilot 功能