阿里巴巴达摩院联合魔搭社区ModelScope近期宣布开源一项新的多语言基准测试集P-MMEval,旨在全面评估大型语言模型(LLM)的多语言能力,并进行跨语言迁移能力的比较分析。这一测试集覆盖了基础和专项能力的高效数据集,确保了所有挑选的数据集中多语言覆盖的一致性,并提供了跨多种语言的并行样本,最高支持来自8个不同语族的10种语言,包括英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语和越南语。
P-MMEval的推出响应了开发和迭代大型语言模型时对准确且并行评估结果的需求,这对于识别模型的多语言能力和量化性能至关重要。早期工作主要集中在单一任务评估上,而近期研究提出了一些大规模多语言多任务评估基准,统一了多个具有代表性的独立基准任务。然而,这些大规模基准测试集在覆盖多语言种类上并不一致。
第一时间接入了OpenCompass的评测体系,可使用司南OpenCompass开源工具完成评测任务。
研究人员评估了几种代表性的指令调优模型的性能,包括闭源模型GPT-4o、Claude-3.5和开源模型LLaMA3.1、LLaMA3.2、Qwen2.5等。实验结果表明,除了LLaMA3.2系列外,所有模型的多语言能力随着模型规模的增加而提高。Qwen2.5在理解和专项能力任务上表现出强大的多语言性能,而Gemma2在生成任务上表现出色。闭源模型总体上优于开源模型。
P-MMEval的推出为大模型的多语言能力评估提供了新的工具和方法,有助于推动多语言NLP技术的发展和应用。
数据集链接:
https://www.modelscope.cn/datasets/modelscope/P-MMEval