起因是某天看到了这篇文章
后面仔细想了想之后,感觉可能是评测数据集里的问题被用于训练了,比如模型只是学会了不同种类问题的答案分布,然后也能取得不错的分数
(其实感觉这种事也确实没法避免,现在训练模型的数据太多了,要把评测数据完全洗掉是挺困难的)
既然如此的话,那如果我们在评测的时候把问题的内容改一下,改成一个语义相同,但是看起来完全不同的问题,是不是就能避免这种benchmark hacking的情况了呢?
基于此,我有一个实验构想:先找一个benchmark数据集,然后对每个问题,都用大模型重写一遍(也就是对于同一个问题换一种不同的表述方式),然后再去对一些之前有过这个benchmark分数的模型进行重新测试,看看分数有没有明显下降。
(可能大模型的改写不一定正确,但是如果这个方法论成立的话,完全可以成立一个第三方评测公司,付费请人工来每三个月重写一次评测数据集)
没事了,原来已经有相关的论文做过这个实验了,实验结论和上面也挺符合的
既然如此的话,做个自动化框架定期更新benchmark会不会有搞头呢?毕竟现在benchmark都快成笑话了,人人都是sota,但是大家又都需要一个客观一些的指标作为选模型时候的参考,这个矛盾是存在的。
