能通过对benchmark数据集做重写来避免作弊吗？

qzero · 2026 年4 月 12 日 10:42

起因是某天看到了这篇文章

后面仔细想了想之后，感觉可能是评测数据集里的问题被用于训练了，比如模型只是学会了不同种类问题的答案分布，然后也能取得不错的分数

（其实感觉这种事也确实没法避免，现在训练模型的数据太多了，要把评测数据完全洗掉是挺困难的）

既然如此的话，那如果我们在评测的时候把问题的内容改一下，改成一个语义相同，但是看起来完全不同的问题，是不是就能避免这种benchmark hacking的情况了呢？

基于此，我有一个实验构想：先找一个benchmark数据集，然后对每个问题，都用大模型重写一遍（也就是对于同一个问题换一种不同的表述方式），然后再去对一些之前有过这个benchmark分数的模型进行重新测试，看看分数有没有明显下降。

（可能大模型的改写不一定正确，但是如果这个方法论成立的话，完全可以成立一个第三方评测公司，付费请人工来每三个月重写一次评测数据集）

没事了，原来已经有相关的论文做过这个实验了，实验结论和上面也挺符合的

既然如此的话，做个自动化框架定期更新benchmark会不会有搞头呢？毕竟现在benchmark都快成笑话了，人人都是sota，但是大家又都需要一个客观一些的指标作为选模型时候的参考，这个矛盾是存在的。