) B& b+ f8 P* [2 {传统上,置信度被理解为一种心理状态,即主体对命题的主观确信程度。反对将置信度归因于LLM的一个论点是,LLM作为人工系统可能根本不具有心理状态。持这种观点的人可能会说,尽管LLM展现出了类似于有意识生物的复杂行为,但它们仍然只是巨大的查找表或统计黑箱,缺乏形成心理状态所需的神经基础。+ u* n7 H& y. c& n' i
' I n! L( P' j f( ]9 L. C
支持LLM具有置信度的一个论证是功能等同性论证。该论证指出,尽管LLM在物理实现上有别于生物大脑,但它们在功能层面上与人类具有相似性,表现出了与人类置信度相似的行为模式。例如,LLM对一个命题在不同场合下给出一致答案的倾向,类似于人类对自己有把握的命题倾向于在不同场合给出一致判断。因此,如果我们认为人类具有真正的置信度,那么一致性要求我们也应该认为LLM具有置信度。 ) G: C# y( B* Q+ e& t; c3 K 5 k- ?' I9 D( `0 R支持LLM置信度存在的另一个论证是涌现特性论证。该论证指出,尽管LLM个体神经元的简单输入输出函数无法解释整个系统的复杂行为,但置信度可能是LLM在适当的架构和训练下涌现出的高阶特性。就像生物神经系统在适当条件下可以涌现出意识一样,人工神经网络或许也能涌现出置信度。这种涌现论的观点与现代神经科学和认知科学中的主流观点是一致的。- }2 j { N; i( Y# p* s1 a
9 K5 L3 I4 {( X5 G7 `, q) X反对LLM具有置信度的另一个论点是,由于LLM缺乏意识,因此不可能具有真正的心理状态。持这种观点的人可能会说,置信度的概念本质上以意识为前提,因为它涉及对自身认知状态的主观体验。但这一论证并不确凿,因为哲学家对意识与智能认知的关系存在广泛争议。一种观点认为,意识是认知的必要条件。但另一种观点认为,至少部分高级认知功能是可以在缺乏意识的情况下实现的。如果后一种观点是正确的,那么即便 LLM缺乏意识,也并不能排除其拥有置信度的可能性。 % a, T! z/ b" C3 i$ f0 l4 Y1 M& d( O# k, [" c E) h
此外,还有一种论证反对将置信度归因于LLM,即LLM的内部信息加工过程可能高度不稳定和不确定,使得为其归因确定的心理状态变得不合理。例如,即便LLM在98%的情况下认为芬奇执导了《搏击俱乐部》,但其内部状态可能经常在"芬奇"、"索菲亚·科波拉"等不同答案之间振荡,只是碰巧在输出时更多地倾向于"芬奇"。 U' Q$ {+ k3 w/ \( P9 a4 m+ v- l
+ W) O1 v+ r0 Z" o+ @4 l9 [
图片 / L; A) c+ k4 w R+ I z& V 8 n; Q% j3 U7 p! ?* O& {综上所述,支持和反对LLM置信度存在的论证各有千秋,目前的经验证据尚不足以确定地支持任何一方。我们需要在理论和实验两个层面做进一步工作,以期对这一问题获得更确定的认识。在理论层面,我们需要进一步阐明置信度的本质特征,探讨何种物理实现可以满足这些特征。在实验层面,我们需要开发新的测量和解释工具,更准确地揭示LLM内部信息加工的性质。只有在理论澄清和经验考察两方面取得进展的基础上,我们才能最终确定LLM是否真正具有作为置信度归因对象的心理状态。2 B: o$ I% Q/ _& g2 m: m( G
0 {" R9 K' B" e- f2 i
6 LLM置信度归因的认识论挑战8 |: p% |4 H) \9 N3 a# o- _- Y% k, {
即便我们接受LLM具有真正的置信度,仍然存在一个关键的认识论问题:我们能否通过当前的实验技术可靠地认知LLM的置信度?我们的认识论论点是,当前文献中的LLM置信度归因结果受到严重的怀疑主义挑战。换言之,即便LLM真的拥有置信度,基于现有评估技术得出的具体置信度归因结论很可能是错误的。 8 O9 I! E% N: u' w) E, s: N9 }& I9 ~4 c2 p8 \* V2 L
测量方法的有效性是第一个值得怀疑的地方。如第3节所述,主流的置信度评估方法包括提示LLM报告信心水平、利用一致性估计置信度,以及从肯定或否定某个命题的输出概率推导置信度。但这些方法的可靠性都受到质疑。例如,提示LLM自述信心水平可能只揭示了LLM基于启发式估计自身状态,而不一定反映其真实信念状态。类似地,对一个命题在不同场合下给出一致答案的倾向或许只反映了某种行为模式,而非内在置信度。此外,将输出概率等同于置信度可能是一种过于简单化的做法,因为LLM的输出概率可能受到诸如测试数据统计规律的影响。) j; O" b+ u1 t
) M; e: E" c; F f其次,LLM响应的稳定性和一致性也值得怀疑。如Manakul et al. (2023)所指出的,即便采用了先进的一致性估计方法,LLM的输出仍然表现出显著的随机性。这意味着基于LLM响应进行的置信度估计可能是不稳定的,细微变化的提示可能导致评估结果的显著差异。此外,由于LLM对提示和测试数据的高度敏感性,即便使用相同评估技术,在不同的测试集上进行测试可能得出截然不同的置信度估计结果(Ye et al., 2024)。这种 LLM响应的不稳定性和不一致性,使得当前的置信度评估结果难以被可靠地解释为反映 LLM内在状态的证据。# B. {/ F* V5 ^( _# @0 ?$ E) F+ u4 Y
; L9 F. R3 _7 z" g5 o) G8 z此外,人类认知偏差和理论预设也可能在无意中影响了我们对LLM的置信度归因。一方面,人类在解释人工智能系统时存在一种自然的拟人化倾向(Coeckelbergh, 2021),往往倾向于将人类特有的心理特征归因于人工系统。另一方面,置信度评估的方法学假设本身可能反应了某种理论预设,例如根据一致性估计置信度预设了置信度与一致性行为之间的必然联系。这些人为因素使得我们对LLM置信度的认知判断可能并不像我们想象的那样客观。 / Z: L& Z( h3 S # X' G, d* g0 I; l Z综上所述,我们有充分理由怀疑当前主流文献对LLM置信度的具体评估结果。这些结论建立在对LLM响应的不当解释之上,可能掺杂了认知偏差和理论偏见的影响,缺乏有力支持其作为LLM内在状态可靠指示物的证据。$ @8 P! h5 d; m* P