大型模型怎么看?
栏目:媒体新闻 发布时间:2025-06-25 10:15
作者简介:本文作者的作者来自美国的四所著名大学:佐治亚大学西北大学,新泽西大学技术学院和乔治·梅森大学...
作者简介:本文作者的作者发表于美国的四所著名大学:西北大学,佐治亚大学,新泽西理工学院和乔治·梅森大学。第一作者Shu Dong和联合夫作家Wu Xuansheng和Zhao Haiyan是上述大学的医生学生。他们长期以来一直专注于大语言模型的解释性,并致力于揭示其内部机制和“思考”过程。与现场相对应的是新泽西理工学院的杜曼教授。如今,当像Chatgpt这样的大型语言模型(LLM)席卷世界时,更多的研究人员意识到,我们不仅需要“说话” LLM,而且还需要“发光”的LLM。我们想知道这些大型模型在收到输入后如何“思考”?直到今天,一项称为稀疏自动编码器(SAE)的新兴技术已经迅速出现,并且已成为最受欢迎的路线之一。f机制的解释。最近,我们撰写并发表了第一本系统的SAE评论文章,该文章理解了该领域的技术,演变和未来挑战,用于参考专门针对大型透明度,控制和解释性的研究人员。纸张标题:稀疏自动编码器中的调查:翻译内部机制模型纸张地址:https://arxiv.org/pdf/2503.05613(图1):此图显示了SAE的主要框架。什么是广泛的自动编码器?换句话说,LLM中的许多神经元可能是“多性性的”,这意味着它们正在同时处理许多无关的信息。在处理输入时,LLM将在内部产生高维矢量表示,这通常很难直接理解。然后,如果我们将其放入经过训练的散落自动编码器中,它否认了许多稀疏激活的“功能”,并且每个功能通常都可以解释为可读的自然语言概念。示例:假设功能(功能1)代表“钢制建筑物”,而另一个功能(功能2)表示“关于历史的问题”。当LLM收到输入“此交叉桥梁令人惊奇”时,SAE激活了没有功能2的功能1。它表明该模型“认可”了桥梁是钢结构建筑,并且不将其理解为历史主题。所有主动特征都像拼图碎片,可以绘制并修复原始隐藏表示形式,这使我们能够在模型中看到“思维轨迹”。这也是我们理解大型模型内部机制的重要一步。 (图2):此图显示了SAE发展的历史。为什么每个人都在学习SAE?过去,主流解释的方法主要取决于“间接信号”,例如纪念,梯度检查,注意力重量等。尽管这些方法易于理解,但它们通常是缺乏的G结构和控制能力。 SAE的独特优势是它提供了结构化,操作和语义解释的新概述。它可以在一组杂乱的,明确的语义激活功能中分解模型中的黑匣子表示。更重要的是,SAE不仅是一种工具解脱性,而且还可以用来控制模型的思考,发现模型问题并改善模型安全性。当前,SAE被广泛用于许多基本任务:概念检测:模型的自动语义特征,例如时间耗费,情感倾向,语法结构等;模型操作:通过激活或抑制特定功能以实现更精致的控制控制,模型的直接输出指南;异常检测和安全分析:确定模型中隐藏的高风险功能单元,以帮助发现潜在的偏见,幻觉或安全风险。 “解释 +操纵”的组合也是Sae Abil的关键在当前的LLM解释研究中站立。目前,机构You As Openai,Anthropic,Google DeepMind和其他机构促进了与SAE和开放资源项目有关的研究。 。本文的内容是什么?作为对该领域的首次系统评价,我们的工作涵盖了主要的组成部分:1。SAE的技术框架(SAE的技术框架)本节系统地介绍了SAE的基本结构及其培训过程,这是一个特殊的神经网络。具体而言,它包括:编码器:“旋转”高维矢量LLM表示,在较高的尺寸和稀疏特征矢量中。解码器:基于此广泛的特征向量,请尝试“重建”到原始的LLM信息。稀疏性损失损失:确保重建足够准确,并且功能足够广泛。同时,我们总结了现有的常见建筑变体和改进技术。 f或示例,解决偏见收缩的封闭式SAE,通过直接选择TOP-K激活等迫使稀疏性的Topk SAE等。“抽象思维”改变了对人类理解的看法。这些方法主要分为两类:输入驱动程序:寻找可以最大化特定功能激活的文本片段。通过总结这些文本,我们可以降低此功能的含义(例如MaxAct,PruningMaxact)。输出驱动程序:LLM生成的单词中的链接功能。例如,当激活功能时,LLM的单词可能会输出,这些单词将帮助我们理解此功能的含义(例如词汇,互相信息)。 3. SAE分析和方法SAE分析就像对工具的分析一样:不仅取决于其内部结构是否合理(结构检查),还取决于它在实际使用中是否有效(评估测试)。结构分析:检查SAE是否根据设计工作,例如重建的准确性以及稀疏性是否满足要求(例如重建和稀疏的准确性)。功能分析:SAE是否可以帮助我们更好地理解LLM以及它所学的功能是否稳定且一般(例如可解释性,稳定性和慷慨)的分析。 4.大语模型中的应用SAE不仅可以帮助我们了解LLM,而且可以真正运行。我们展示了在模型操作,行为检查,拒绝,幻觉控制,情感操纵等方面的应用和成就的实用案例。尽管测试方法在某些方面表现良好,但SAE作为解释机制的新兴方法具有独特的潜力。但是,该研究还指出,SAE对于提供SAM还有很长的路要走E对某些复杂情况(例如缺乏数据,类别失衡等)有利。 6.当前的研究挑战和未来的方向,尽管SAE具有广泛的前景,但它仍然面临一些挑战,例如:语义解释仍然不稳定;功能词典可能不完整;更改错误的错误不能忽略;计算培训的成本很高。同时,我们还期望将来可能会取得突破,包括跨模式扩展,自动生成解释和轻量级体系结构。结论:从“理解”到“转移”到未来,解释性AI系统可能对视觉注意或显着图不满意,但应该有结构化的理解和操作。 SAE提供了一条有前途的道路 - 不仅仅是我们让“思考”的事物,还可以使我们有能力“改变它的想法”。我们希望这篇评论将使研究人员具有系统,全面和EASy - 到 - 知识的参考框架。如果您对Modelo,AI透明度或模型操作的巨大意识感兴趣,它将是最喜欢的文章。