管道保温施工队电话清华大学等机构联揭秘Transformer的"注见地陷坑"问题

这项由清华大学、香港大学、好意思团LongCat团队、厦门大学、密歇根大学和俄亥俄州立大学联开展的推测，以预印本时势发布于2026年4月，论文编号为arXiv:2604.10098。这是该域篇系统综述，感有趣有趣的读者可通过上述编号查询完竣论文。

---

每当你使用ChatGPT、文心言或其他AI助手时，背后齐有套叫作念"Transformer"的架构在驱动。这套架构的中枢智商，是让AI能够"关心"输入信息中要紧的部分——就像你读篇著作时，眼睛会当然停留在要害词和中枢句子上，而不是把每个字齐盯雷同长的时刻。这种"选定关心"的智商，学术上叫作念"注见地机制"（Attention Mechanism）。

关联词，有个耐久被冷漠的怪容许躲闪在这套机制里：AI就怕会把多数的注见地采集在某些毫本体意旨的词上——比如句子起头的惊叹词、标点标记，致使是个什么语义齐莫得的占位符。这些词就像黑洞样，把本该分派给信得过要紧内容的注见地透顶"吸走"。推测者们给这个容许起了个形象的名字：**注见地千里积（Attention Sink，简称AS）**。

这篇综述系统梳理了过180篇相干推测，从三个维度——怎样哄骗它、怎样解说它、怎样抹杀它——为通盘域提供了份的学问舆图。

---

、先从新提及：AI的"注见地"到底是什么

步调会注见地千里积，得先搞明晰AI的注见地是怎样使命的。

以个简便的句子"苹果很甜"为例。当AI处理这个句子时，它会让每个词齐去"斟酌"其他词："你对我相识我方有多大匡助？"这个"斟酌"的经过，等于注见地打算。后，每个词会得到份"分案"——比如"甜"这个词，会对"苹果"给以较的注见地，因为"是什么甜"这个信息对相识"甜"至关要紧。

这套机制有个数学上的硬顾问：整个注见地权重加起来须等于1。就像你有100元费钱，须一齐花完，不成存下来，也不成透支。这个顾问来自于个叫作念**Softmax**的数学函数——它把堆原始分数更动成加和为1的概率散播。

问题就藏在这个"须花完"的端正里。

---

二、"须花完"的钱，花到那儿去了

回到那100元费钱的譬如。假定某天你逛市，发现货架上确实莫得任何你想买的东西。但端正章程你须花完这100元——你会怎样办？或者率你会应酬持包薯片或者瓶矿泉水，把钱凑完。

AI的注见地机制濒临调换的窘境。当个词处理它的险阻文时，要是险阻文中莫得任何词对它"信得过有效"，Softmax函数一经会免强它把一齐的注见地分派出去。那过剩的注见地去哪了？就堆积到了那些"害"的地——句子起头的词、标点标记、或者什么语义齐莫得的占位符。

这些被堆积了多数过剩注见地的词，等于注见地千里积词（sink token）。它们有两个致的特征：，接收到的注见地远平均水平，就怕达平素词的数百致使上千倍；二，它们自己捎带的语义信息少，对AI信得过相识内容莫得本体孝顺。

在不同类型的模子里，这些"垃圾桶词"的具体形态有所不同。在像BERT这样的双向言语模子中，充任"垃圾桶"的常常是特殊分隔符[SEP]和分类标记[CLS]。在像GPT、LLaMA这样的生成式言语模子中，序列开动的阿谁词（常常是句子肇端标记[BOS]）险些长期是大的"注见地黑洞"——推测发现，在LLaMA等主流大模子中，个词在98的注见地头中齐是得到多注见地的阿谁。在视觉Transformer中，充任"垃圾桶"的则是图片布景区域的图像块，那些地说念是天外、墙壁等信息内容的区域。在多模态大模子中，笔墨侧和图像侧各有我方的"垃圾桶"。

---

地址：大城县广安工业区

三、这个"垃圾桶"有多严重管道保温施工队电话

你可能会想：注见地分派略略不均匀，大不了AI相识稍差点，有那么严重吗？

推测者们发现，恶果远比你想象的远。

先是**理率**的问题。当代大言语模子处理长文本时，需要把之前看过的信息存储在个叫作念KV缓存的地（不错相识为AI的使命挂念）。这个缓存是有上限的——就像你的书桌空间有限，放不下整个的书。因此工程师们需要如期计帐，删掉"不要紧"的内容。但要是不保留那些注见地千里积词，AI的阐扬会急剧恶化，就像把书桌上个看似空缺但推行上保管着通盘书桌次序的"底座"移走样，通盘结构会坍塌。

其次是**幻觉问题**。多模态AI（同期处理图文的模子）中，注见地千里积会致AI把本该关心图中要紧物体的注见地，挥霍品在图片布景上。收场是AI"看见"了布景，却"忽略"了远景中的要害信息，进而在形色图瞬息瞎掰八说念。

再者是**量化部署**的贫苦。为了让大模子跑在手机或镶嵌式招引上，工程师需要压缩模子精度（比如从32位浮点数压到8位致使4位整数）。注见地千里积词会产生端的数值颠倒——个词的某个特征维度数值可能达几千，而其他词的同维度只消个位数。这种端不均匀致量化误差急剧放大，压缩后模子能大幅下落。

后还有**安全隐患**。由于注见地千里积词的位置固定、注见地采集，短处者不错把坏心触发器植入这些位置，让模子在正常情况下阐扬正常，但旦出现特定触发词就"回生"被删除的无益学问——这是种难以察觉的后门短处。

---

四、推测者们是怎样"哄骗"这个容许的

这篇综述把推测者对注见地千里积的哄骗式归纳为四大类。

类是**保留千里积词**（Sink Token Preservation）。既然注见地千里积词是模子自如运行的"锚点"，简便的办法等于长期别删它们。以StreamingLLM为例，这个系统让AI不错处理限长的著作，中枢手段等于在每次新使命挂念时，保留起头那几个千里积词，再加上近的个滑动窗口内的内容——其余中间部分不错勇猛删除。实验标明，这样作念能赔本小，但不错相沿表面上限长的文本流。雷同地，在生成域，推测者发现保留初几帧的挂念手脚"全局锚点"，不错让长达几分钟的保持前后致的作风和内容，不然越到后头越像在"别辟门户"。在量化时刻中，将千里积词保持在精度（16位或32位），其余词压缩到低精度（2位或4位），既浅近了内存，又避了能坍塌。

二类是**注见地从新分派**（Attention Redistribution）。既然千里积词"走"了本该给要紧内容的注见地，那就把这部分注见地讲求，从新分派给信得过有价值的词。这类法在多模态AI的幻觉理上果显赫。个典型例子是VAR法：它先识别出哪些图像块是"垃圾桶"（被过多注见地盯着却莫得语义的布景块），然后把这部分注见地从新向远景中的要紧物体。收场是AI形色图瞬息准确，幻觉彰着减少。另个真谛的应用是ZeroTuning：它发现调通盘词（大的注见地千里积词）的注见地得分，就像调养个旋钮样，能障碍甘休通盘模子的注见地散播。通过这个单旋钮，不错在不从新检修模子的情况下，化模子在种种任务上的阐扬。

三类是**可学习的前缀词**（Learnable Prefix Tokens）。既然当然产生的千里积词位置不固定、行为难以预计，为什么不胜利东说念主为插入个门遐想的"收受词"？这等于寄存器词（register token）的主见。在视觉Transformer中，在图片patch序列前插入几个可检修的寄存器词，检修时模子会学会把整个"过剩的"注见地齐倾倒到这些寄存器词上，而不是马上选定布景图像块。收场是注见地争变得干净，信得过的语义结构廓清走漏，模子在种种视觉任务上的阐扬齐有普及。VGGT这个用于三维视觉相识的Transformer也接管了雷同的战略。

四类是**从新哄骗千里积词**（Sink Token Repurposing）。注见地千里积词有些特的几何和数学质，推测者发现不错把这些质用于不同的宗旨。比如KeyDiff法发现，千里积词的"键向量"（key vector，不错相识为该词的"身份标签"）在维空间里处于个相配特的位置——它和整个其他词的平均位置险些垂直，余弦相似度接近0。这个特色不错用来快速识别哪些词是信得过要紧的信息词（和千里积词越不像的词，常常越要紧），从而地管理AI的使命挂念。另个应用是OrthoRank：它胜利用千里积词手脚参考点，通过测量其他词与千里积词的"垂直进程"来评估每个词的信息含量，垂直进程越，讲明这个词和千里积词越不样，也就越有可能包含信得过有效的信息。

---

五、这个容许到底从哪来：五种解说表面

相识了注见地千里积的阐扬和用途，接下来要问个的问题：这个容许到底为什么会出现？推测者们从不同角度提倡了多种表面，每种齐照亮了容许的个侧面。

**Softmax局限与操作表面**是早亦然胜利的解说。它说的是：Softmax的"总额须为1"顾问，使适合AI某个注见地头想要"什么齐不作念"时，它法信得过作念到什么齐不作念。唯的替代案是把整个注见地采集到某个固定的词上，同期把阿谁词的"值向量"（value vector，也等于该词能孝顺给输出的信息）压缩到接近——这样注见地固然采集了，但因为值险些是，终的信息孝顺也接近。这就已毕了"口头上分派了注见地，推行上什么也没孝顺"的操作行为。

推测者通过个要害不雅察考据了这个表面：千里积词接收到多数注见地，但它们的值向量幅度远小于平素词。换句话说，它们就像是个很大的容器里装着少的液体——容器看起来很要紧，推行上里面险些是空的。当推测者修改Softmax函数，让注见地权重不再强制加和为1时，注见地千里积容许尽然大幅减少致使消灭。

**颠倒值电路表面**提供了底层的数值机制解说。推测者发现，在Transformer模子的权重和激活值中，存在类系统的"颠倒值"——某些特征维度的数值比其他维度出几个数目，就像群东说念主中有东说念主身两米而其他东说念主齐在米七傍边。这些颠倒值通过条固定的因果链制造出注见地千里积：先，某些MLP层的权重矩阵中存在颠倒大的值；这些大值被激活时管道保温施工队电话，产生颠倒大的激活值；这些激活值通过残差联结传播，使得特定词在特定特征维度上的暗示变得端隆起；这种隆起使得这个词的"键向量"与险些整个词的"查询向量"齐能产生颠倒的点积；Softmax于是把多数注见地权重分派给这个词，变成注见地千里积。

在混模子（MoE，种让不同""模块处理不同类型信息的架构）中，推测者还发现了个惊东说念主容许：通盘模子中只消少数几个""（Super Experts）——比如在Qwen3-30B-A3B这个模子的6144个中，只消3个——是产生颠倒激活值的主要来源。删掉这3个，通盘模子的注见地千里积就会崩溃，铁皮保温模子能急剧下落。这讲明注见地千里积容许是由模子里面少数几个要害组件保管的，具有度采集。

**隐式注见地偏置表面**从角度解说了注见地千里聚集在的意旨。这个表面发现，注见地千里积词对整个位置的输出孝顺险些是恒定的、与输入关的——非论你输入什么句子，千里积词给每个词的孝顺值基本齐是同个固定向量。换句话说，千里积词推行上在上演个"隐式偏置项"的角，就像神经网罗每个层齐有的偏置参数，只不外这个偏置是被避讳在注见地机制里、通过个词来已毕的。

考据这个表面胜利的式是：给注见地机制添加显式的偏置参数（个可检修的向量，不依附于任何词）。当GPT-2在这种修改后的架构上从新检修时，注见地千里积容许消灭——模子胜利使用阿谁显式偏置参数来已毕调换的，不再需要"劫持"某个词来充任偏置。

**几何锚定表面**则从维空间的几何结构角度提供了解说。在Transformer里面，每个词齐被暗示为个维向量（比如4096维），跟着层数加，这些向量会笔据语境握住新。推测者发现，注见地千里积词的向量相配特殊：它在通盘处理经过中险些不变，就像个固定在原点的锚点；而其他词的向量则会从容向这个锚点靠近，被它"拉着走"。这种几何上的自如使得千里积词成为通盘暗示空间的参照系，匡助模子保管里面暗示的自如。

除了以上四种主要表面，还有几种补助的解说视角。其是**结构偏置**：由于因果掩码（causal mask，种确保AI处理现时词时只可看到它之前的词而非后头的词的机制）的存在，序列开动的词是唯个能被整个后续词"看见"的词，这种的可见势使它成为注见地的集聚点。其二是**反过度混表面**：注见地千里积词通过"吸走"过剩的注见地，止了不同词的暗示在层网罗中彼此沾污到难以分别的进程——千里积词是个信息"减压阀"，保管了暗示的种种。其三是**主动-睡觉注见地头表面**：模子检修经过中，各个注见地头会从容分化，部分头门认真接收注见地（主动头），另部分头则主要把注见地倾倒给千里积词（睡觉头），这种单干是在检修中通过梯度反应当然演化出来的。

这些表面并非彼此抹杀，而是从不同表率、不同角度形色同个容许的不同侧面。

---

六、怎样抹杀这个"垃圾桶"

要是注见地千里积是个问题，能不成从根源上抹杀它？推测者提倡了四类战略。

类是**门控注见地机制**（Gated Attention Mechanisms）。中枢念念路是：既然Softmax免强注见地头"不得不分派注见地"，那就给注见地头加个"总闸门"——个可学习的开关，不错胜利把某个注见地头的举座输出乘以个接近的悉数，从烦懑毕信得过的"什么齐不作念"，而需依赖注见地千里积词来已毕这个果。

简便的时势是给每个注见地头加个标量门控值：输出 = sigmoid(门控参数) × 注见地输出。当模子学到某个注见地头在某种情境下不需要新信息时，门控值会缩小到接近，通盘头的输出就被阻碍了。这样就破了注见地须分派给某个词的轮回。

实验标明，这个改革果罕见显赫。在过30种变体的系统对比实验中，在标度点积注见地（SDPA）之后加门控是果好的位置，能把检修赔本裁汰，减少检修时的赔本峰（种检修不自如的阐扬），并把个词得到的平均注见地从46.7压低到4.8。这个遐想已被Qwen3等家具模子接管。

另个变体是值现象门控注见地（VGA），它把门控加在值向量上而非输出上，不错从根源上堵截"注见地但孝顺"的轮回。

二类是**修改Softmax函数**（Modified Softmax Functions）。这条路激进——胜利改变Softmax的数学质，让注见地权重不再强制加和为1。

编订Softmax（Clipped Softmax）把正常Softmax的输出范围从[0,1]推广后再编订，使得模子在打算时不错得到精准的值，不需要靠端的logit值来压制不想关心的词。Softmax-1在分母上加了个常数1，允许整个注见地权重之和小于1，给"注见地不需要花完"留出了空间。在GPT-2畛域的模子上，这个改革把个词得到的注见地从65降到了3.3，同期把激活值的"峰度"（种权衡颠倒值进程的宗旨）从1657降到了3.1。

Softpick则：它先算出平素Softmax值，然后减去个阈值并作念ReLU截断，允许输出精准为——这意味着模子不错忽略某些词，而不给它们任何注见地。在3.4亿参数的模子上，注见地千里积率从有到，降到0。

Sigmoid注见地则毁灭了Softmax，对每个词的得分立使用sigmoid函数，词与词之间莫得"竞争"关系，当然也就莫得Softmax强制分派带来的问题。

三类是**可学习的注见地偏置**（Learnable Attention Bias）。既然千里积词在充任"隐式偏置"，那就胜利把这个偏置明确化、参数化，让模子胜利学习个与词关的偏置向量。

参数的版块是在Softmax的分母里加个可学习标量b，变成个"假造千里积"——出正常词上限的注见地会被这个假造位置收受，而不是强加给某个的确词。MiMo-V2和GPT-OSS等家具模子齐接管了这种遐想。稍复杂的版块是胜利在键矩阵和值矩阵上拼接组可学习的偏置向量，实考据明加上这个显式偏置后，注见地千里积和大畛域激活值齐会消灭。

四类是**预检修纷扰**（Pre-training Interventions）。这条路不修改模子结构，而是通过改变检修经过来从源流止注见地千里积的变成。

推测发现，表率的Adam化器（大多数模子检修使用的算法）有个避讳的作用：它倾向于在权重矩阵中"偏"某些特定向，使得这些向的参数被过度新，终产生颠倒大的权重值，进而激励激活值颠倒和注见地千里积。Muon化器通过正交变换预处理梯度，抹杀了这种向偏好，从而大幅减少颠倒激活值。

在赔本函数层面，胜利添加个处分激活值尾部端值的正则项，不错将激活值的大值从过10000压缩到20以下，同期让正本在FP8精度下会不霸道失的检修（因为FP8能暗示的数值范围相配有限，装不下这样大的颠倒值）变得可行，检修隐约量还普及了36。

系统的案是"颠倒值安全预检修框架"（OSP），它组了三个互补的改革：使用Muon化器抹杀权重中的特权向；把RMSNorm中每个通说念立的缩放悉数改为整层统的单悉数，止某些通说念被过度放大；在镶嵌层后加个可学习的投影矩阵，从新分派激活值幅度。在14亿参数的模子上用万亿token检修考据，产生了迄今为止个莫得端激活值颠倒的家具大模子。

---

七、这个推测对咱们的糊口意味着什么

这篇综述不仅仅份学术清单，它推行上刻画了AI工程履行的张道路图。

对于每天神用AI助手的平素用户来说，这些推测胜利影响到AI回复是否准确、是否会瞎掰八说念（即幻觉问题），以及AI能否在手机等资源有限的招引上通顺运行。注见地千里积的理，是让AI从"实验室玩物"变成"可靠助手"的说念佛关隘。

对于AI应用开发者来说，这篇综述提供了份廓清的有研究指南：要是你在作念理加快，不错用保留千里积词的式压缩KV缓存而不赔本能；要是你在理多模态AI的幻觉，不错通过注见地从新分派把过剩注见地向信得过要紧的图像区域；要是你在检修新模子，门控注见地或修改Softmax是抹杀激活值颠倒、相沿低精度部署的有选定。

对于AI推测者来说，这篇综述还指出了几个尚未处理的中枢问题。如安在不从新检修通盘模子的前提下，把注见地千里积抹杀时刻引入已有的大模子（比如通过LoRA微调或适配器法），是遑急的工程挑战之。怎样诞生表率化的评测基准，让不同的抹杀法不错在统表率下自制比拟，亦然动域卓绝的要紧基础要津。

说到底，注见地千里积这件事告诉咱们个对于AI的刻事实：AI的许多行为背后，避讳着简便但巨大的数学顾问。相识这些顾问，能力有针对地革命AI、信任AI，乃至预计AI在端情况下会出什么岔子。这篇综述走过了这个域三年的发展历程，把洒落各处的拼图整理成幅完竣的图景。

有有趣有趣入了解的读者，不错通过arXiv编号2604.10098获取完竣论文，或者拜谒论文团队在GitHub上保重的不时新的论文列表：https://github.com/ZunhaiSu/Awesome-Attention-Sink。

---

Q&A

Q1：注见地千里积（Attention Sink）是什么？

A：注见地千里积是指Transformer模子中，多数注见地权重被采集分派到某些语义信息少的词上（如句子起头的标记、标点标记）的容许。这是由于Softmax函数强制让注见地权重之和为1，当莫得信得过相干的内容不错关心时，过剩的注见地就被"倾倒"到这些固定位置，就像须把预算花完却找不到值得买的东西，只可应酬买些用物品。

Q2：注见地千里积会致AI出现哪些具体问题？

A：注见地千里积会带来多面的问题。在多模态AI中，它会致模子忽略图片中的要害物体，把注见地猝然在布景上，从而产生幻觉（形色图中莫得的东西）。在模子压缩时，千里积词产生的端数值颠倒会让低精度量化失败，致模子能崩溃。在安全层面，短处者不错哄骗千里积词的固定位置植入后门触发器，使模子在特定条目下归附被删除的无益学问。

Q3：抹杀注见地千里积有哪些主要法？

A：当今主要有四类法。是门控注见地机制，给注见地头加个可学习的开关，让它不错胜利阻碍通盘输出而需依赖千里积词，Qwen3等家具模子已接管此案。二是修改Softmax函数，破注见地权重须加和为1的顾问，让模子不错选定信得过"什么齐不关心"。三是添加可学习的注见地偏置参数，用显式的参数替代千里积词充任的隐式偏置。四是预检修纷扰，通过改变化器或赔本函数，在检修阶段就止颠倒激活值和千里积容许的变成。

相关词条:铝皮保温隔热条设备钢绞线厂家玻璃棉泡沫板橡塑板专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述管道保温施工队电话，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

管道保温施工队电话 清华大学等机构联揭秘Transformer的&quot;注见地陷坑&quot;问题

推荐资讯

热点资讯

推荐资讯

管道保温施工队电话清华大学等机构联揭秘Transformer的"注见地陷坑"问题