ACL2025主会中稿

题目:CoreEval: Automatically Building Contamination-Resilient Datasets with Real-World Knowledge toward Reliable LLM Evaluation

作者:Jingqian Zhao*, Bingbing Wang*, Geng Tu, Yice Zhang, Qianlong Wang, Bin Liang, Jing Li, Ruifeng Xu

简介:数据污染通过训练过程中测试数据的有意或无意泄露,对大语言模型(LLM)评估的公平性构成了重大挑战。现有研究试图通过修改现有数据集或基于新收集信息生成新数据来缓解此问题,但这些方法既未能完全消除模型中的先验知识,也未能保留原始数据的语义复杂性。为突破上述局限,论文提出CoreEval,一种结合现实世界知识的数据自动更新策略。该框架首先从原始数据中提取实体关系,借助GDELT数据库检索相关的最新知识,将检索知识进行重构并与原始数据深度融合,通过精细化重组确保语义连贯性并提升任务相关性。论文还采用反思机制,通过迭代式验证与优化标注,保障更新数据与原始数据集间的语义一致性与标注一致性。基于更新数据集的大规模实验验证了CoreEval的鲁棒性,证明其能有效缓解数据污染导致的模型性能高估问题。

CoreEval


移动端用户请使用PC打开链接查看PPT

查看完整PPT


ACL2025主会中稿
http://zhaojingqian.github.io/2025/05/25/ACL2025主会中稿/
作者
Zhao Jingqian
发布于
2025年5月25日
更新于
2025年6月30日
许可协议