【仿生】线性注意力vs平方注意力

悲报:结果真的很好,我做了好久
现在发现这么厉害的提升已经在25年被人发表过了 :smiling_face_with_tear:
过几天我大概会整理一个实验报告发我们这里,靠这个投稿不大行了((
不过我有两手准备,因为我被启发后有两个方向的工作计划,现在只是ML方向的发不了了,我还有个方向(原本打算做姊妹文的 :innocent:

预览一下这个结果有多好:BLA是我提出的架构,LinAtt是原版线性注意力:


啊啊啊越想越伤心 :sob: 最开始文献工作时没想到会发展到这一步,所以没差这个方向的(大悲