金狮牛配资APP下载 Transformer瘦身新招：前厚后薄让AI更聪明

你可能不知道，从2017年Transformer横空出世以来，所有大模型都像标准化生产的千层蛋糕——每层厚度完全一致。但MIT和谷歌的研究团队最近发现：把模型前面几层做得更“厚实”，后面逐渐变薄，居然能让AI变得更聪明！

实验结果相当惊艳：在4.4亿参数的模型里，把前1/3层的“工作记忆”扩容50%，后1/3层压缩一半，语言预测准确率直接提升11%。研究者尝试了线性、余弦、S形三种“瘦身曲线”，发现余弦曲线最妙——像熨衣服般自然过渡，既保留开头的爆发力，又避免结尾的臃肿。这种“锥形语言模型”在760M到13亿参数的模型上通杀，连处理长文本的能力都没打折。

为什么前层要更“壮实”？扒开模型内部发现：越到后面，神经网络输出的内容越像“复读机”，新鲜信息少得可怜。好比人脑处理信息时，前面负责抓重点，后面只是机械搬运。现在把算力精准投向前线，就像给侦察兵配望远镜，自然事半功倍。这项研究彻底颠覆了“参数平均分配”的传统思路——AI进化不是堆参数，而是学会“把钱花在刀刃上”。

查查配提示：文章来自网络，不代表本站观点。