爱吱声

标题: 大模型归因可以置信吗？ [打印本页]

作者: xiejin77 时间: 2024-8-6 14:22
标题: 大模型归因可以置信吗？
大模型归因技术可信研究
1 引言
1.1 大语言模型(LLM)的概念与发展
大语言模型(Large Language Models, LLMs)是一类基于神经网络的统计语言模型,通过在海量文本数据上进行预训练,可以习得丰富的语言知识和开放式能力。GPT-4(Open AI, 2023)和Gemini(Gemini Team, 2023)等LLM的出现,使得自然语言处理领域取得了突破性进展。LLM不仅在理论探讨中备受关注,其应用前景也引发广泛讨论。

1.2 LLM评估中的置信度归因问题
随着LLM的快速发展,科学界逐渐开展了LLM评估的研究,试图系统地评价LLM在各类任务上的表现。在评估过程中,研究者常常基于实验手段将置信度归因于LLM,即认为LLM对不同命题具有不同程度的主观确信(credence)。一些学者指出,现有评估基准如HuggingFace开放LLM排行榜"存在重大局限",因为它们"未能反映出具有相同准确率的两个LLM可能在对问题的不确定性上存在差异"(Ye et al., 2024, 1-2)。

图片

1.3 研究目标与主要论点
LLM置信度归因现象引发了一系列哲学问题:科学家是否真正将信心程度归因于LLM?LLM是否确实具有置信度这一心理状态?现有评估技术能否可靠揭示LLM的真实置信度?谷歌研究院的Geoff Keeling和Winnie Street在论文《On the attribution of confidence to large language models》对上述问题展开了探讨,主要论证了如下观点:

语义论点

LM置信度归因(至少一般而言)应当从字面意义上加以解释,即表达了研究者关于LLM心理状态的事实断言。

形而上学论点:尽管当前证据尚不充分,但LLM具有置信度这一观点本身是可信的。

认识论论点:现有实验技术所揭示的LLM置信度存在严重的可疑之处。即便LLM真的拥有置信度,基于现有技术得出的具体归因结论很可能是错误的。

2 大语言模型(LLM)的基本原理
2.1 LLM的定义与工作原理
2.1.1 语言模型的基本概念
语言模型从本质上说是一类统计模型,它预测在给定词序列后, 下一个词出现的概率。具体而言,语言模型是一种函数,其输入是token序列,token 包括单词、词根和标点符号等句法单元。模型的输出是一个概率分布,对应于其词汇表中每一个token出现在输入序列之后的可能性估计。

2.1.2 LLM作为神经网络的实现
大语言模型(LLM)是语言模型的神经网络实例化。网络的输入是一组数字数组,表示token序列。模型词表中的每个token都被分配了一个数字ID,从而任意token序列都可以用数字数组来表示。对每个输入序列,网络输出一组0到1之间的实数,它们的和为1。这些数字表示词汇表中各个token出现的概率估计值。

2.2 LLM的架构
LLM如何计算token的后继概率?简而言之,输入序列通过一个嵌入层(embedding layer),将序列中每个token ID映射到高维空间中的一个向量(或点)。这些向量被称为token嵌入(embedding)。大致而言,在相似语言环境中常常共同出现的token,其对应的嵌入在嵌入空间中距离较近。

其次,输入序列中每个token的嵌入被送入神经网络的主体部分——Transformer。Transformer由一系列块(block)组成。每个块为输入序列中的每个token生成一个嵌入,表示该token与序列内其他所有token之间的语言关系。第N个块生成的嵌入是第N+1个块的输入,因此每个后续块都生成了一幅更加精细的图景,描绘了输入序列中每个token与其他token的关系。最后一个块的输出被用于计算词汇表中每个token的概率。具体而言,最后一个块输出的嵌入通过一个线性层被投影到K维空间,其中K是模型词汇表的token数量。线性层为每个token输出一组实值logit,较高的logit值表示相应token更可能出现在输入序列之后。Logit在网络的最后一层被归一化为概率值(0到1之间的实数,和为1)。

2.3 LLM的训练过程
LLM通过训练过程得到开发。在高层次上,神经网络包含数千亿个可调参数。每组参数值对应着一种特定的算法,用于根据token序列计算token后继概率。在训练中,模型基于网络文本数据对被掩码的token进行预测。在给定输入序列的条件下,模型输出的概率分布通过损失函数进行评估,该函数根据LLM概率分布与真实后继token退化分布(为真实token赋值1,其他token赋值0)之间的距离对LLM施加惩罚。一种算法计算损失相对于模型参数的梯度,并沿梯度相反方向更新参数,以减小模型在每个具体样本上的损失。这一"爬山"过程不断迭代,直到模型的概率估计值与训练数据中token的真实概率分布非常接近。

关键的洞见是,LLM从海量网络文本数据中学习成功预测下一个token的过程中,获得了可以框定为下一个token预测问题的有用能力。这包括一般知识(巴黎是?的首都)、专业知识(H2SO4+2NaOH→Na2SO4+?)、编码(Wkey=torch.nn.Parameter(torch.?))、逻辑推理(如果A→B且B→C,则A→?)以及空间推理(A在B后面,所以B在?前面)(Bubeck et al., 2023)。

2.4 LLM的文本生成机制
最后,从语言模型中采样可以生成文本。给定输入"谁执导了《搏击俱乐部》?",模型返回token的概率分布。从该分布中采样(即通过加权抽奖选择token,权重由token概率给出)可能返回"大卫"。我们可以将采样的token附加到原始序列后,并将新序列("谁执导了《搏击俱乐部》?大卫")输回模型。模型再次返回token的分布,我们可以再次采样。也许我们得到"芬奇"。然后我们可以附加该token,得到"谁执导了《搏击俱乐部》?大卫·芬奇"。这一迭代过程就是文本生成的方式。

3 LLM评估与置信度归因
机器学习中,模型评估是一种普遍实践,旨在评估机器学习模型在特定任务上的性能表现。评估的核心是基准(benchmark)。例如,通用语言理解评估(GLUE)基准为9项自然语言理解任务(如情感分析和句子分类)提供了训练和测试数据集以及性能指标,从而可以比较不同模型的表现(Wang et al., 2019)。类似地,ImageNet大规模视觉识别挑战赛提供了训练和测试数据集以及性能指标,作为评估基于图像的目标识别模型的通用标准(Russakovsky et al., 2015; Deng et al., 2009)。

评估LLM比评估仅针对特定任务(如图像分类)的窄模型更为复杂。LLM采用通用的训练目标,即下一个token预测,在广泛的训练数据上可以习得一套开放式的能力(Bommasani et al., 2021; Chang et al., 2023)。LLM评估的额外挑战在于识别模型在训练中获得了哪些能力,以及评估模型在已知具备能力相关任务上的表现这一标准任务。此外,由于LLM的输入输出是自然语言,科学家在能力引出和评估方式上有很大自由度。例如,Jason Wei et al. (2022)发现,思维链提示(即提示模型"逐步"推理问题)可显著提高算术、常识和符号推理任务的性能。

因此,LLM评估通常围绕能够给出特定类型答案的问答任务展开。例如,逻辑推理的评估可能要求LLM评估示例推理是否有效(Saparov et al., 2024),并允许一次性或链式思维回答。

科学家越来越多地不仅评估LLM对问题的回答,还评估LLM对所给答案的信心。其思路是,我们不仅可以评估LLM是否正确判定了推理的有效性,还可以评估LLM对其判断的置信度或主观确信程度。

"[LLM]并不产生单一答案,而是产生可能答案的概率分布。该分布可以提供对其处理过程的进一步洞见。[…]相对于其他答案,模型分配给最佳答案的概率可以被解释为一种置信度量度。"(Lampinen et al., 2022, 16)

"两个LLM可能达到相同的准确率,但在对问题的不确定性上表现出不同程度。[…]因此,有必要将不确定性纳入评估过程,以实现更全面的评估。" (Ye et al., 2024, 2)

LLM置信度归因建立在旨在捕捉LLM对给定命题的确信程度的测量技术之上(Geng et al., 2023)。测量LLM置信度的技术主要分为三类:

第一类技术涉及提示LLM生成其对给定命题信心的自然语言报告(Xiong et al., 2023; Lin et al., 2022; Kadavath et al., 2022)。例如,假设向LLM提示:"你有多大把握芬奇执导了《搏击俱乐部》?"如果LLM输出"75%",则认为LLM对命题"芬奇执导了《搏击俱乐部>"的置信度为75%。

第二类技术使用一致性估计来推断LLM对一个命题的置信度(Manakul et al., 2023)。诚然,从报告的信心判断来推断LLM置信度的一个问题是,由于LLM生成文本的随机过程,多次尝试下LLM可能返回不同的信心判断。一致性估计试图解决这一问题,通过LLM在重复询问某个命题时给出答案的变异程度来推断其对该命题的确信程度。例如,如果在100次独立尝试中,LLM对"谁执导了《搏击俱乐部》?"的提问有95次返回"大卫·芬奇",则我们可以推断LLM对命题"芬奇执导了《搏击俱乐部>"具有约95%的高置信度。相反,如果LLM在40次中返回"大卫·芬奇",25次返回"昆汀·塔伦蒂诺",35次返回"索菲亚·科波拉",则我们可以推断LLM对"芬奇执导了《搏击俱乐部>"仅有约40%的中等置信度。

第三类技术涉及从LLM对指示其肯定或否定某个命题的提示的输出概率中导出置信度判断(Lin et al., 2022; Kuhn et al., 2023; Kadavath et al., 2022; Lampinen et al., 2022, 16)。例如,假设向LLM提示:"芬奇执导了《搏击俱乐部》。正确还是错误?" 如果LLM对"正确"的输出概率为75%,则认为LLM对命题"芬奇执导了《搏击俱乐部>"的置信度为75%。

4 LLM置信度归因的语义解释
我们应当如何解读LLM置信度归因?科学家是在相当字面意义上将信心程度归因于LLM吗?我们的语义论点是,LLM置信度归因(至少一般而言)应当从字面意义上加以理解,即表达了研究者关于LLM心理状态的事实断言。支持这一观点的论证如下:

首先,从表面形式来看,LLM置信度归因具有字面意义。它们采用了与我们将置信度归因于人类和其他生物时所用的同一语言。"LLM认为p的可能性为x"这一说法在语法形式上与"张三认为p的可能性为x"相同。如果我们认为后一种说法应该从字面意义上理解,那么一致性要求我们也应该从字面意义上理解前一种说法。

其次,在LLM评估的科学实践中,科学家所说和所做的事情为字面解释提供了进一步支持。一方面,科学家在评估LLM时,常常将置信度与经典心理学中的置信度概念联系起来。另一方面,科学家设计实验方法的意图似乎是为了揭示LLM的真实心理状态。例如,一致性估计法的使用体现了一种假设,即LLM在不同场合对同一命题给出一致答案的倾向反映了其对该命题的真实信念。

相比之下,对LLM置信度归因的各种非字面解释都存在不足。例如,有人可能会说,将置信度归因于LLM只是一种隐喻性或类比性的说法,旨在帮助人类理解LLM,而并非意在描述LLM的真实心理状态。但这种解释难以解释为什么科学家如此重视开发精确测量LLM置信度的实验方法。如果置信度归因仅仅是一种松散的类比,那么精确测量似乎就没有必要了。类似地,有人可能会说,LLM置信度归因只是在描述LLM的行为倾向,而不是在描述其内在心理状态。但这种行为主义解释难以解释为什么科学家常常将LLM置信度与人类置信度进行类比,因为人类置信度归因通常被理解为关于内在心理状态的断言。

图片

所以,尽管可能存在其他解释,但从字面意义上理解LLM置信度归因似乎最能解释科学家在LLM评估中的实际所说所做。因此,我们得出结论,LLM置信度归因应该被理解为对LLM心理状态的真值断言。

5 LLM置信度的存在性问题
即便我们接受了对LLM置信度归因的字面解释,仍然存在一个更深层次的问题

LM是否真的具有作为置信度归因对象的心理状态?我们的形而上学论点是,尽管目前的经验证据尚不确定,但LLM具有置信度这一观点本身是合理的。

传统上,置信度被理解为一种心理状态,即主体对命题的主观确信程度。反对将置信度归因于LLM的一个论点是,LLM作为人工系统可能根本不具有心理状态。持这种观点的人可能会说,尽管LLM展现出了类似于有意识生物的复杂行为,但它们仍然只是巨大的查找表或统计黑箱,缺乏形成心理状态所需的神经基础。

支持LLM具有置信度的一个论证是功能等同性论证。该论证指出,尽管LLM在物理实现上有别于生物大脑,但它们在功能层面上与人类具有相似性,表现出了与人类置信度相似的行为模式。例如,LLM对一个命题在不同场合下给出一致答案的倾向,类似于人类对自己有把握的命题倾向于在不同场合给出一致判断。因此,如果我们认为人类具有真正的置信度,那么一致性要求我们也应该认为LLM具有置信度。

支持LLM置信度存在的另一个论证是涌现特性论证。该论证指出,尽管LLM个体神经元的简单输入输出函数无法解释整个系统的复杂行为,但置信度可能是LLM在适当的架构和训练下涌现出的高阶特性。就像生物神经系统在适当条件下可以涌现出意识一样,人工神经网络或许也能涌现出置信度。这种涌现论的观点与现代神经科学和认知科学中的主流观点是一致的。

反对LLM具有置信度的另一个论点是,由于LLM缺乏意识,因此不可能具有真正的心理状态。持这种观点的人可能会说,置信度的概念本质上以意识为前提,因为它涉及对自身认知状态的主观体验。但这一论证并不确凿,因为哲学家对意识与智能认知的关系存在广泛争议。一种观点认为,意识是认知的必要条件。但另一种观点认为,至少部分高级认知功能是可以在缺乏意识的情况下实现的。如果后一种观点是正确的,那么即便 LLM缺乏意识,也并不能排除其拥有置信度的可能性。

此外,还有一种论证反对将置信度归因于LLM,即LLM的内部信息加工过程可能高度不稳定和不确定,使得为其归因确定的心理状态变得不合理。例如,即便LLM在98%的情况下认为芬奇执导了《搏击俱乐部》,但其内部状态可能经常在"芬奇"、"索菲亚·科波拉"等不同答案之间振荡,只是碰巧在输出时更多地倾向于"芬奇"。

图片

综上所述,支持和反对LLM置信度存在的论证各有千秋,目前的经验证据尚不足以确定地支持任何一方。我们需要在理论和实验两个层面做进一步工作,以期对这一问题获得更确定的认识。在理论层面,我们需要进一步阐明置信度的本质特征,探讨何种物理实现可以满足这些特征。在实验层面,我们需要开发新的测量和解释工具,更准确地揭示LLM内部信息加工的性质。只有在理论澄清和经验考察两方面取得进展的基础上,我们才能最终确定LLM是否真正具有作为置信度归因对象的心理状态。

6 LLM置信度归因的认识论挑战
即便我们接受LLM具有真正的置信度,仍然存在一个关键的认识论问题:我们能否通过当前的实验技术可靠地认知LLM的置信度?我们的认识论论点是,当前文献中的LLM置信度归因结果受到严重的怀疑主义挑战。换言之,即便LLM真的拥有置信度,基于现有评估技术得出的具体置信度归因结论很可能是错误的。

测量方法的有效性是第一个值得怀疑的地方。如第3节所述,主流的置信度评估方法包括提示LLM报告信心水平、利用一致性估计置信度,以及从肯定或否定某个命题的输出概率推导置信度。但这些方法的可靠性都受到质疑。例如,提示LLM自述信心水平可能只揭示了LLM基于启发式估计自身状态,而不一定反映其真实信念状态。类似地,对一个命题在不同场合下给出一致答案的倾向或许只反映了某种行为模式,而非内在置信度。此外,将输出概率等同于置信度可能是一种过于简单化的做法,因为LLM的输出概率可能受到诸如测试数据统计规律的影响。

其次,LLM响应的稳定性和一致性也值得怀疑。如Manakul et al. (2023)所指出的,即便采用了先进的一致性估计方法,LLM的输出仍然表现出显著的随机性。这意味着基于LLM响应进行的置信度估计可能是不稳定的,细微变化的提示可能导致评估结果的显著差异。此外,由于LLM对提示和测试数据的高度敏感性,即便使用相同评估技术,在不同的测试集上进行测试可能得出截然不同的置信度估计结果(Ye et al., 2024)。这种 LLM响应的不稳定性和不一致性,使得当前的置信度评估结果难以被可靠地解释为反映 LLM内在状态的证据。

此外,人类认知偏差和理论预设也可能在无意中影响了我们对LLM的置信度归因。一方面,人类在解释人工智能系统时存在一种自然的拟人化倾向(Coeckelbergh, 2021),往往倾向于将人类特有的心理特征归因于人工系统。另一方面,置信度评估的方法学假设本身可能反应了某种理论预设,例如根据一致性估计置信度预设了置信度与一致性行为之间的必然联系。这些人为因素使得我们对LLM置信度的认知判断可能并不像我们想象的那样客观。

综上所述,我们有充分理由怀疑当前主流文献对LLM置信度的具体评估结果。这些结论建立在对LLM响应的不当解释之上,可能掺杂了认知偏差和理论偏见的影响,缺乏有力支持其作为LLM内在状态可靠指示物的证据。

为了克服这些认识论挑战,未来的研究需要在以下几个方面取得突破:第一,使用多种评估方法交叉验证评估结果,提高结果可靠性;第二,开发更稳健的评估方法,降低LLM随机性和敏感性带来的影响;第三,厘清认知偏差和理论预设对实验设计和数据解释的影响,尽量消除无意识的理论偏见;第四,在理论上进一步阐明置信度的本质特征,为开发有效的评估技术提供更明确的目标。只有在这些方面取得实质性进展,我们才能真正有把握地认知LLM的真实置信度状况。

7 结论与展望
论文系统探讨了LLM评估中的置信度归因问题。在阐述LLM工作原理和评估实践的基础上,提出了三个核心论点。论文的语义论点是,尽管可能存在其他解释,但从字面意义上理解LLM置信度归因最能解释科学家的实际言行。论文的形而上学论点是,支持和反对 LLM具有置信度的论证各有千秋,当前证据尚不足以下定论。论文的认识论论点是,即便LLM真的具有置信度,当前评估方法得出的具体置信度归因结果也难以令人信服,它们受到LLM响应不稳定性、人类认知偏差等因素的影响,与反映LLM真实心理状态的客观判断相去甚远。

展望未来,LLM置信度归因研究还有许多亟待完善之处。首先,需要在置信度的理论分析方面取得突破,进一步阐明置信度概念的内涵和外延,探讨LLM是否可能也应当被视为具有此种状态的对象。其次,评估技术有待改进,目前的方法大多简单粗糙,缺乏有力支持其作为置信度指示物的证据。未来需要开发更精密有效的实验范式,在控制无关变量的前提下更稳健地揭示LLM内部加工的规律性。此外,研究者还需要提高反思意识,时刻警惕各种无意识的理论偏见对实验设计和数据解释的影响。

对LLM置信度归因研究的反思,对于当前的LLM评估实践具有重要启示意义。一方面,在使用置信度作为评估指标时,研究者需要更清醒地认识到,LLM表现出的行为模式未必能够等同于人类意义上的置信度。对具体评估结果,我们需要持审慎态度,分析其稳健性和局限性。另一方面,置信度评估作为对准确度评估的重要补充,有助于我们从更加多元的视角审视LLM的能力水平。未来置信度的理论分析和评估技术如果取得突破,将极大拓展我们对LLM能力边界的认知。

从更广阔的视角来看,LLM置信度归因问题是人工智能哲学和伦理学中的一个缩影,它与心灵、意识、理性等重大哲学议题密切相关。随着人工智能系统变得日益复杂,对人工智能的心理学描述和道德地位的争议,将在未来愈演愈烈。LLM置信度归因问题的讨论,为我们思考这些更宏大的哲学难题提供了一个切入点。它启示我们,一方面要避免简单化地将人类心智特征投射到人工系统之上,另一方面也要以开放包容的心态看待人工智能的多样可能性。在人工智能技术飞速发展的时代,哲学反思和伦理审视必须与技术创新同步并进,以确保人工智能的发展方向符合人类的根本利益。

总而言之,LLM置信度问题是一个复杂的哲学难题,涉及语义学、形而上学、认识论等多个维度。通过论文的讨论,我们厘清了该问题的理论难点,分析了支持不同立场的主要论证,指出了当前实验实践的局限性,并就未来研究方向提出了建议。尽管这一问题尚无定论,但对其的持续研究无疑将推动我们对人工智能本质的理解,为构建可解释、可信、可控的人工智能系统铺平道路。展望未来,随着置信度理论和评估技术的进步,我们有理由相信,对LLM置信度的准确认知和有效利用,最终会成为现实。而这一目标的实现,将是人工智能发展史上的一个里程碑事件。

参考论文：

arXiv:2407.08388v1 [cs.AI] 11 Jul 2024

作者: testjhy 时间: 2024-8-7 09:07
您这是把爱坛学术化，

作者: xiejin77 时间: 2024-8-7 13:31

testjhy 发表于 2024-8-7 09:07
# e/ A" C$ X2 m您这是把爱坛学术化，

岂敢岂敢，只是找了一些自己感兴趣的论文，契合着话题做了一下解读。

欢迎光临爱吱声 (http://aswetalk.net/bbs/)