
实验结果相当惊艳:在4.4亿参数的模型里,把前1/3层的“工作记忆”扩容50%,后1/3层压缩一半,语言预测准确率直接提升11%。研究者尝试了线性、余弦、S形三种“瘦身曲线”,发现余弦曲线最妙——像熨衣服般自然过渡,既保留开头的爆发力,又避免结尾的臃肿。这种“锥形语言模型”在760M到13亿参数的模型上通杀,连处理长文本的能力都没打折。 为什么前层要更“壮实”?扒开模型内部发现:越到后面,神经网络输出的内容越像“复读机”,新鲜信息少得可怜。好比人脑处理信息时,前面负责抓重点,后面只是机械搬运。现在把算力精准投向前线,就像给侦察兵配望远镜,自然事半功倍。这项研究彻底颠覆了“参数平均分配”的传统思路——AI进化不是堆参数,而是学会“把钱花在刀刃上”。
查查配提示:文章来自网络,不代表本站观点。