
这项由清华大学、香港大学、好意思团LongCat团队、厦门大学、密歇根大学和俄亥俄州立大学联开展的推测,以预印本时势发布于2026年4月,论文编号为arXiv:2604.10098。这是该域篇系统综述,感有趣有趣的读者可通过上述编号查询完竣论文。
---
每当你使用ChatGPT、文心言或其他AI助手时,背后齐有套叫作念"Transformer"的架构在驱动。这套架构的中枢智商,是让AI能够"关心"输入信息中要紧的部分——就像你读篇著作时,眼睛会当然停留在要害词和中枢句子上,而不是把每个字齐盯雷同长的时刻。这种"选定关心"的智商,学术上叫作念"注见地机制"(Attention Mechanism)。
关联词,有个耐久被冷漠的怪容许躲闪在这套机制里:AI就怕会把多数的注见地采集在某些毫本体意旨的词上——比如句子起头的惊叹词、标点标记,致使是个什么语义齐莫得的占位符。这些词就像黑洞样,把本该分派给信得过要紧内容的注见地透顶"吸走"。推测者们给这个容许起了个形象的名字:**注见地千里积(Attention Sink,简称AS)**。
这篇综述系统梳理了过180篇相干推测,从三个维度——怎样哄骗它、怎样解说它、怎样抹杀它——为通盘域提供了份的学问舆图。
---
、先从新提及:AI的"注见地"到底是什么
步调会注见地千里积,得先搞明晰AI的注见地是怎样使命的。
以个简便的句子"苹果很甜"为例。当AI处理这个句子时,它会让每个词齐去"斟酌"其他词:"你对我相识我方有多大匡助?"这个"斟酌"的经过,等于注见地打算。后,每个词会得到份"分案"——比如"甜"这个词,会对"苹果"给以较的注见地,因为"是什么甜"这个信息对相识"甜"至关要紧。
这套机制有个数学上的硬顾问:整个注见地权重加起来须等于1。就像你有100元费钱,须一齐花完,不成存下来,也不成透支。这个顾问来自于个叫作念**Softmax**的数学函数——它把堆原始分数更动成加和为1的概率散播。
问题就藏在这个"须花完"的端正里。
---
二、"须花完"的钱,花到那儿去了
回到那100元费钱的譬如。假定某天你逛市,发现货架上确实莫得任何你想买的东西。但端正章程你须花完这100元——你会怎样办?或者率你会应酬持包薯片或者瓶矿泉水,把钱凑完。
AI的注见地机制濒临调换的窘境。当个词处理它的险阻文时,要是险阻文中莫得任何词对它"信得过有效",Softmax函数一经会免强它把一齐的注见地分派出去。那过剩的注见地去哪了?就堆积到了那些"害"的地——句子起头的词、标点标记、或者什么语义齐莫得的占位符。
这些被堆积了多数过剩注见地的词,等于注见地千里积词(sink token)。它们有两个致的特征:,接收到的注见地远平均水平,就怕达平素词的数百致使上千倍;二,它们自己捎带的语义信息少,对AI信得过相识内容莫得本体孝顺。
在不同类型的模子里,这些"垃圾桶词"的具体形态有所不同。在像BERT这样的双向言语模子中,充任"垃圾桶"的常常是特殊分隔符[SEP]和分类标记[CLS]。在像GPT、LLaMA这样的生成式言语模子中,序列开动的阿谁词(常常是句子肇端标记[BOS])险些长期是大的"注见地黑洞"——推测发现,在LLaMA等主流大模子中,个词在98的注见地头中齐是得到多注见地的阿谁。在视觉Transformer中,充任"垃圾桶"的则是图片布景区域的图像块,那些地说念是天外、墙壁等信息内容的区域。在多模态大模子中,笔墨侧和图像侧各有我方的"垃圾桶"。
---
地址:大城县广安工业区三、这个"垃圾桶"有多严重管道保温施工队电话
你可能会想:注见地分派略略不均匀,大不了AI相识稍差点,有那么严重吗?
推测者们发现,恶果远比你想象的远。
先是**理率**的问题。当代大言语模子处理长文本时,需要把之前看过的信息存储在个叫作念KV缓存的地(不错相识为AI的使命挂念)。这个缓存是有上限的——就像你的书桌空间有限,放不下整个的书。因此工程师们需要如期计帐,删掉"不要紧"的内容。但要是不保留那些注见地千里积词,AI的阐扬会急剧恶化,就像把书桌上个看似空缺但推行上保管着通盘书桌次序的"底座"移走样,通盘结构会坍塌。
其次是**幻觉问题**。多模态AI(同期处理图文的模子)中,注见地千里积会致AI把本该关心图中要紧物体的注见地,挥霍品在图片布景上。收场是AI"看见"了布景,却"忽略"了远景中的要害信息,进而在形色图瞬息瞎掰八说念。
再者是**量化部署**的贫苦。为了让大模子跑在手机或镶嵌式招引上,工程师需要压缩模子精度(比如从32位浮点数压到8位致使4位整数)。注见地千里积词会产生端的数值颠倒——个词的某个特征维度数值可能达几千,而其他词的同维度只消个位数。这种端不均匀致量化误差急剧放大,压缩后模子能大幅下落。
后还有**安全隐患**。由于注见地千里积词的位置固定、注见地采集,短处者不错把坏心触发器植入这些位置,让模子在正常情况下阐扬正常,但旦出现特定触发词就"回生"被删除的无益学问——这是种难以察觉的后门短处。
---
四、推测者们是怎样"哄骗"这个容许的
这篇综述把推测者对注见地千里积的哄骗式归纳为四大类。
类是**保留千里积词**(Sink Token Preservation)。既然注见地千里积词是模子自如运行的"锚点",简便的办法等于长期别删它们。以StreamingLLM为例,这个系统让AI不错处理限长的著作,中枢手段等于在每次新使命挂念时,保留起头那几个千里积词,再加上近的个滑动窗口内的内容——其余中间部分不错勇猛删除。实验标明,这样作念能赔本小,但不错相沿表面上限长的文本流。雷同地,在生成域,推测者发现保留初几帧的挂念手脚"全局锚点",不错让长达几分钟的保持前后致的作风和内容,不然越到后头越像在"别辟门户"。在量化时刻中,将千里积词保持在精度(16位或32位),其余词压缩到低精度(2位或4位),既浅近了内存,又避了能坍塌。
二类是**注见地从新分派**(Attention Redistribution)。既然千里积词"走"了本该给要紧内容的注见地,那就把这部分注见地讲求,从新分派给信得过有价值的词。这类法在多模态AI的幻觉理上果显赫。个典型例子是VAR法:它先识别出哪些图像块是"垃圾桶"(被过多注见地盯着却莫得语义的布景块),然后把这部分注见地从新向远景中的要紧物体。收场是AI形色图瞬息准确,幻觉彰着减少。另个真谛的应用是ZeroTuning:它发现调通盘词(大的注见地千里积词)的注见地得分,就像调养个旋钮样,能障碍甘休通盘模子的注见地散播。通过这个单旋钮,不错在不从新检修模子的情况下,化模子在种种任务上的阐扬。
三类是**可学习的前缀词**(Learnable Prefix Tokens)。既然当然产生的千里积词位置不固定、行为难以预计,为什么不胜利东说念主为插入个门遐想的"收受词"?这等于寄存器词(register token)的主见。在视觉Transformer中,在图片patch序列前插入几个可检修的寄存器词,检修时模子会学会把整个"过剩的"注见地齐倾倒到这些寄存器词上,而不是马上选定布景图像块。收场是注见地争变得干净,信得过的语义结构廓清走漏,模子在种种视觉任务上的阐扬齐有普及。VGGT这个用于三维视觉相识的Transformer也接管了雷同的战略。
四类是**从新哄骗千里积词**(Sink Token Repurposing)。注见地千里积词有些特的几何和数学质,推测者发现不错把这些质用于不同的宗旨。比如KeyDiff法发现,千里积词的"键向量"(key vector,不错相识为该词的"身份标签")在维空间里处于个相配特的位置——它和整个其他词的平均位置险些垂直,余弦相似度接近0。这个特色不错用来快速识别哪些词是信得过要紧的信息词(和千里积词越不像的词,常常越要紧),从而地管理AI的使命挂念。另个应用是OrthoRank:它胜利用千里积词手脚参考点,通过测量其他词与千里积词的"垂直进程"来评估每个词的信息含量,垂直进程越,讲明这个词和千里积词越不样,也就越有可能包含信得过有效的信息。
---
五、这个容许到底从哪来:五种解说表面
相识了注见地千里积的阐扬和用途,接下来要问个的问题:这个容许到底为什么会出现?推测者们从不同角度提倡了多种表面,每种齐照亮了容许的个侧面。
**Softmax局限与操作表面**是早亦然胜利的解说。它说的是:Softmax的"总额须为1"顾问,使适合AI某个注见地头想要"什么齐不作念"时,它法信得过作念到什么齐不作念。唯的替代案是把整个注见地采集到某个固定的词上,同期把阿谁词的"值向量"(value vector,也等于该词能孝顺给输出的信息)压缩到接近——这样注见地固然采集了,但因为值险些是,终的信息孝顺也接近。这就已毕了"口头上分派了注见地,推行上什么也没孝顺"的操作行为。
推测者通过个要害不雅察考据了这个表面:千里积词接收到多数注见地,但它们的值向量幅度远小于平素词。换句话说,它们就像是个很大的容器里装着少的液体——容器看起来很要紧,推行上里面险些是空的。当推测者修改Softmax函数,让注见地权重不再强制加和为1时,注见地千里积容许尽然大幅减少致使消灭。
**颠倒值电路表面**提供了底层的数值机制解说。推测者发现,在Transformer模子的权重和激活值中,存在类系统的"颠倒值"——某些特征维度的数值比其他维度出几个数目,就像群东说念主中有东说念主身两米而其他东说念主齐在米七傍边。这些颠倒值通过条固定的因果链制造出注见地千里积:先,某些MLP层的权重矩阵中存在颠倒大的值;这些大值被激活时管道保温施工队电话,产生颠倒大的激活值;这些激活值通过残差联结传播,使得特定词在特定特征维度上的暗示变得端隆起;这种隆起使得这个词的"键向量"与险些整个词的"查询向量"齐能产生颠倒的点积;Softmax于是把多数注见地权重分派给这个词,变成注见地千里积。
在混模子(MoE,种让不同""模块处理不同类型信息的架构)中,推测者还发现了个惊东说念主容许:通盘模子中只消少数几个""(Super Experts)——比如在Qwen3-30B-A3B这个模子的6144个中,只消3个——是产生颠倒激活值的主要来源。删掉这3个,通盘模子的注见地千里积就会崩溃,铁皮保温模子能急剧下落。这讲明注见地千里积容许是由模子里面少数几个要害组件保管的,具有度采集。
**隐式注见地偏置表面**从角度解说了注见地千里聚集在的意旨。这个表面发现,注见地千里积词对整个位置的输出孝顺险些是恒定的、与输入关的——非论你输入什么句子,千里积词给每个词的孝顺值基本齐是同个固定向量。换句话说,千里积词推行上在上演个"隐式偏置项"的角,就像神经网罗每个层齐有的偏置参数,只不外这个偏置是被避讳在注见地机制里、通过个词来已毕的。
考据这个表面胜利的式是:给注见地机制添加显式的偏置参数(个可检修的向量,不依附于任何词)。当GPT-2在这种修改后的架构上从新检修时,注见地千里积容许消灭——模子胜利使用阿谁显式偏置参数来已毕调换的,不再需要"劫持"某个词来充任偏置。
**几何锚定表面**则从维空间的几何结构角度提供了解说。在Transformer里面,每个词齐被暗示为个维向量(比如4096维),跟着层数加,这些向量会笔据语境握住新。推测者发现,注见地千里积词的向量相配特殊:它在通盘处理经过中险些不变,就像个固定在原点的锚点;而其他词的向量则会从容向这个锚点靠近,被它"拉着走"。这种几何上的自如使得千里积词成为通盘暗示空间的参照系,匡助模子保管里面暗示的自如。
除了以上四种主要表面,还有几种补助的解说视角。其是**结构偏置**:由于因果掩码(causal mask,种确保AI处理现时词时只可看到它之前的词而非后头的词的机制)的存在,序列开动的词是唯个能被整个后续词"看见"的词,这种的可见势使它成为注见地的集聚点。其二是**反过度混表面**:注见地千里积词通过"吸走"过剩的注见地,止了不同词的暗示在层网罗中彼此沾污到难以分别的进程——千里积词是个信息"减压阀",保管了暗示的种种。其三是**主动-睡觉注见地头表面**:模子检修经过中,各个注见地头会从容分化,部分头门认真接收注见地(主动头),另部分头则主要把注见地倾倒给千里积词(睡觉头),这种单干是在检修中通过梯度反应当然演化出来的。
这些表面并非彼此抹杀,而是从不同表率、不同角度形色同个容许的不同侧面。
---
六、怎样抹杀这个"垃圾桶"
要是注见地千里积是个问题,能不成从根源上抹杀它?推测者提倡了四类战略。
类是**门控注见地机制**(Gated Attention Mechanisms)。中枢念念路是:既然Softmax免强注见地头"不得不分派注见地",那就给注见地头加个"总闸门"——个可学习的开关,不错胜利把某个注见地头的举座输出乘以个接近的悉数,从烦懑毕信得过的"什么齐不作念",而需依赖注见地千里积词来已毕这个果。
简便的时势是给每个注见地头加个标量门控值:输出 = sigmoid(门控参数) × 注见地输出。当模子学到某个注见地头在某种情境下不需要新信息时,门控值会缩小到接近,通盘头的输出就被阻碍了。这样就破了注见地须分派给某个词的轮回。
实验标明,这个改革果罕见显赫。在过30种变体的系统对比实验中,在标度点积注见地(SDPA)之后加门控是果好的位置,能把检修赔本裁汰,减少检修时的赔本峰(种检修不自如的阐扬),并把个词得到的平均注见地从46.7压低到4.8。这个遐想已被Qwen3等家具模子接管。
另个变体是值现象门控注见地(VGA),它把门控加在值向量上而非输出上,不错从根源上堵截"注见地但孝顺"的轮回。
二类是**修改Softmax函数**(Modified Softmax Functions)。这条路激进——胜利改变Softmax的数学质,让注见地权重不再强制加和为1。
编订Softmax(Clipped Softmax)把正常Softmax的输出范围从[0,1]推广后再编订,使得模子在打算时不错得到精准的值,不需要靠端的logit值来压制不想关心的词。Softmax-1在分母上加了个常数1,允许整个注见地权重之和小于1,给"注见地不需要花完"留出了空间。在GPT-2畛域的模子上,这个改革把个词得到的注见地从65降到了3.3,同期把激活值的"峰度"(种权衡颠倒值进程的宗旨)从1657降到了3.1。
Softpick则:它先算出平素Softmax值,然后减去个阈值并作念ReLU截断,允许输出精准为——这意味着模子不错忽略某些词,而不给它们任何注见地。在3.4亿参数的模子上,注见地千里积率从有到,降到0。
Sigmoid注见地则毁灭了Softmax,对每个词的得分立使用sigmoid函数,词与词之间莫得"竞争"关系,当然也就莫得Softmax强制分派带来的问题。
三类是**可学习的注见地偏置**(Learnable Attention Bias)。既然千里积词在充任"隐式偏置",那就胜利把这个偏置明确化、参数化,让模子胜利学习个与词关的偏置向量。
参数的版块是在Softmax的分母里加个可学习标量b,变成个"假造千里积"——出正常词上限的注见地会被这个假造位置收受,而不是强加给某个的确词。MiMo-V2和GPT-OSS等家具模子齐接管了这种遐想。稍复杂的版块是胜利在键矩阵和值矩阵上拼接组可学习的偏置向量,实考据明加上这个显式偏置后,注见地千里积和大畛域激活值齐会消灭。
四类是**预检修纷扰**(Pre-training Interventions)。这条路不修改模子结构,而是通过改变检修经过来从源流止注见地千里积的变成。
推测发现,表率的Adam化器(大多数模子检修使用的算法)有个避讳的作用:它倾向于在权重矩阵中"偏"某些特定向,使得这些向的参数被过度新,终产生颠倒大的权重值,进而激励激活值颠倒和注见地千里积。Muon化器通过正交变换预处理梯度,抹杀了这种向偏好,从而大幅减少颠倒激活值。
在赔本函数层面,胜利添加个处分激活值尾部端值的正则项,不错将激活值的大值从过10000压缩到20以下,同期让正本在FP8精度下会不霸道失的检修(因为FP8能暗示的数值范围相配有限,装不下这样大的颠倒值)变得可行,检修隐约量还普及了36。
系统的案是"颠倒值安全预检修框架"(OSP),它组了三个互补的改革:使用Muon化器抹杀权重中的特权向;把RMSNorm中每个通说念立的缩放悉数改为整层统的单悉数,止某些通说念被过度放大;在镶嵌层后加个可学习的投影矩阵,从新分派激活值幅度。在14亿参数的模子上用万亿token检修考据,产生了迄今为止个莫得端激活值颠倒的家具大模子。
---
七、这个推测对咱们的糊口意味着什么
这篇综述不仅仅份学术清单,它推行上刻画了AI工程履行的张道路图。
对于每天神用AI助手的平素用户来说,这些推测胜利影响到AI回复是否准确、是否会瞎掰八说念(即幻觉问题),以及AI能否在手机等资源有限的招引上通顺运行。注见地千里积的理,是让AI从"实验室玩物"变成"可靠助手"的说念佛关隘。
对于AI应用开发者来说,这篇综述提供了份廓清的有研究指南:要是你在作念理加快,不错用保留千里积词的式压缩KV缓存而不赔本能;要是你在理多模态AI的幻觉,不错通过注见地从新分派把过剩注见地向信得过要紧的图像区域;要是你在检修新模子,门控注见地或修改Softmax是抹杀激活值颠倒、相沿低精度部署的有选定。
对于AI推测者来说,这篇综述还指出了几个尚未处理的中枢问题。如安在不从新检修通盘模子的前提下,把注见地千里积抹杀时刻引入已有的大模子(比如通过LoRA微调或适配器法),是遑急的工程挑战之。怎样诞生表率化的评测基准,让不同的抹杀法不错在统表率下自制比拟,亦然动域卓绝的要紧基础要津。
说到底,注见地千里积这件事告诉咱们个对于AI的刻事实:AI的许多行为背后,避讳着简便但巨大的数学顾问。相识这些顾问,能力有针对地革命AI、信任AI,乃至预计AI在端情况下会出什么岔子。这篇综述走过了这个域三年的发展历程,把洒落各处的拼图整理成幅完竣的图景。
有有趣有趣入了解的读者,不错通过arXiv编号2604.10098获取完竣论文,或者拜谒论文团队在GitHub上保重的不时新的论文列表:https://github.com/ZunhaiSu/Awesome-Attention-Sink。
---
Q&A
Q1:注见地千里积(Attention Sink)是什么?
A:注见地千里积是指Transformer模子中,多数注见地权重被采集分派到某些语义信息少的词上(如句子起头的标记、标点标记)的容许。这是由于Softmax函数强制让注见地权重之和为1,当莫得信得过相干的内容不错关心时,过剩的注见地就被"倾倒"到这些固定位置,就像须把预算花完却找不到值得买的东西,只可应酬买些用物品。
Q2:注见地千里积会致AI出现哪些具体问题?
A:注见地千里积会带来多面的问题。在多模态AI中,它会致模子忽略图片中的要害物体,把注见地猝然在布景上,从而产生幻觉(形色图中莫得的东西)。在模子压缩时,千里积词产生的端数值颠倒会让低精度量化失败,致模子能崩溃。在安全层面,短处者不错哄骗千里积词的固定位置植入后门触发器,使模子在特定条目下归附被删除的无益学问。
Q3:抹杀注见地千里积有哪些主要法?
A:当今主要有四类法。是门控注见地机制,给注见地头加个可学习的开关,让它不错胜利阻碍通盘输出而需依赖千里积词,Qwen3等家具模子已接管此案。二是修改Softmax函数,破注见地权重须加和为1的顾问,让模子不错选定信得过"什么齐不关心"。三是添加可学习的注见地偏置参数,用显式的参数替代千里积词充任的隐式偏置。四是预检修纷扰,通过改变化器或赔本函数,在检修阶段就止颠倒激活值和千里积容许的变成。
相关词条:铝皮保温 隔热条设备 钢绞线厂家玻璃棉 泡沫板橡塑板专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述管道保温施工队电话,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
