1 `3 ~9 R9 G/ t+ y& Y当然,个人以为,这个现象可能和prompt的描述有一定关系。如果是我之前解读过的通过自然语言解读成形式化语言再生成prompt,可能会避免很多类似的情况出现。毕竟,Sora之类的模型从训练原料开始,也不可能拥有类似世界模型的全局视角。局部的精细化和整体关系的疏忽似乎不应该是Sora本身解决的问题。8 F2 W- n! M5 X9 Q! C
$ p1 a2 b6 T# ~+ \
3.2 相关性与因果律的矛盾' b' z4 e, ?# L- N$ z$ r
在顾险峰教授对Sora模型的深入分析中,他特别关注了Transformer模型在处理数据时的局限性,尤其是在模拟物理世界和表达物理因果律方面。$ t/ o% J+ q9 h' x: X0 ]9 k& V
+ r& y! `$ e0 A( J6 qTransformer模型的局限性:1 u( D+ T+ P" |/ Q( U
顾教授可能指出,Transformer模型在处理自然语言处理(NLP)任务时取得了显著的成功,这主要得益于其能够捕捉文本数据中的长距离依赖关系。然而,当这种模型应用于视频内容的生成时,尤其是在模拟物理现象方面,它可能面临挑战。Transformer模型通过学习数据点之间的统计相关性来生成内容,这种方法在处理文本数据时非常有效,因为语言中的词汇和语法结构往往具有统计规律性。0 N% Z9 h8 O0 J% Y) B) y
) a9 p/ O; Q% U$ P. S7 U% w- ?
因果关系的捕捉: . ^2 n; \ Y" a7 i( ?2 q在物理世界中,因果关系通常是由精确的物理定律所决定的,这些定律往往涉及连续的时空变化和严格的数学表达。顾教授可能强调,Transformer模型在捕捉这种精确的物理因果关系方面存在局限性。这是因为模型在训练过程中主要学习的是数据点之间的相关性,而不是物理定律所描述的因果机制。因此,即使模型能够生成在局部上看似合理的视频片段,这些片段在整体上可能无法满足物理定律的要求。+ K' T a5 P1 Q) t$ G
3 V1 [: p/ u3 \8 J( u5 k% V
物理现象的精确描述: ; D) A' s3 L' G顾教授可能进一步分析,Transformer模型在模拟物理世界时可能无法有效地处理那些需要精确物理定律描述的现象。例如,在模拟流体动力学、电磁场相互作用或物体的动力学行为时,模型可能无法准确地预测和再现这些现象的物理特性。这是因为物理现象的模拟不仅需要考虑物体之间的相互作用,还需要考虑时间演化过程中的连续性和一致性。 7 A+ `7 t3 Y' ^8 u, | f9 Q " L! N- b2 _2 f) s$ Z顾教授的这些分析为我们提供了对Transformer模型在模拟物理世界方面的深刻见解。他的观点强调了在AI模型中引入物理定律和因果关系的重要性,以及在设计模型时需要考虑的物理真实性。但是反过来说,如同我之前的论述一样,世界模拟器不是世界模型。模拟器的存在是对于现实的一种影射,势必存在局限性和简化。而如果要以可以全局统筹的要求来衡量世界模拟器的话,可能也有点要求过高。相比之下,似乎杨立昆的仿生范式世界模型更像是可以实现的路径。 : z( ]& }) L, h' B+ U" | O 2 R5 j0 o8 A! Q5 }3.3 临界状态的缺失* W s- Z4 e4 z% n: q/ _* m
在顾险峰教授对Sora模型的分析中,他特别指出了模型在处理物理过程中临界态样本时的不足。 . d4 {! V/ b$ @5 u- f$ R1 Z5 w4 w* x+ u: o3 j
临界态的重要性 # X( a; ~$ v# [. Y( D- U顾教授强调了临界态在物理过程中的重要性。临界态是指系统在某些条件下发生的突变,这些突变通常伴随着物理性质的显著变化,如物质的相变(例如,水从液态变为固态)或结构的突然重组。这些临界点是理解物理系统行为的关键,因为它们标志着系统从一个稳定状态跃迁到另一个稳定状态。在Sora模型的训练过程中,可能没有充分考虑到这些临界态样本。这可能是因为在现实世界中,临界态的发生往往伴随着稀有事件,这些事件在数据集中可能不常见,因此在模型的训练数据中可能被忽略。此外,临界态的复杂性和多变性可能超出了模型当前的学习范围。 3 C2 b8 O: Q! Z! c0 {" F6 Q! m! I, x0 T0 ^
临界态缺失的影响 - g# g! ?( g- M/ T( i) O顾教授讨论了这种对临界态样本处理不足对模型性能的影响。在模拟现实世界时,如果模型无法准确捕捉和再现临界态,可能会导致生成的视频内容在物理上不真实。例如,在模拟液体溢出或物体破碎的场景时,模型可能无法正确地模拟出物质状态的突变和随之而来的物理效应。在需要精确捕捉物理临界点的场景中,如模拟自然灾害、工业事故或其他紧急情况,模型的这种局限性尤为明显。在这些情况下,对临界态的准确模拟对于预测和响应至关重要。顾教授可能强调,为了提高模型在这些领域的应用价值,需要开发新的算法和技术,以更好地理解和模拟临界态。 X. T* ^, d6 A! M) K3 `& V! _
5 R: F9 |# @4 K1 k( K
在顾险峰教授对Sora模型的深刻剖析中,他揭示了模型在处理物理临界态时可能存在的关键局限性。临界态作为离散与连续之间的重要桥梁,不仅在物理现象中标志着系统状态的突变,也是理解和模拟现实世界物理规律的难点。顾教授指出,尽管Sora模型在捕捉数据流形的连续性变化方面表现出色,但在处理那些标志着物理过程离散性的临界态时,却显得力不从心。这种局限性源于模型在训练数据中可能未能充分捕捉到临界态样本,导致在模拟如相变或物体破裂等物理过程时,无法准确反映物理定律的突变特性。最直接的案例就是模拟杯子碎裂时的那个视频。5 b2 Z3 C- h4 r0 ] Q2 l+ |
( t; K7 g( g0 E: R
总体来说,顾教授的这些分析不仅揭示了Sora模型在模拟物理世界时的潜在问题,也为如何改进这些模型提供了宝贵的见解。通过识别和解决这些局限性,才能更接近于真实地模拟和理解我们周围的物理世界。! Y6 j1 y7 I0 U6 r
( e- A) o, D. \" {# g+ M
4. 最优传输理论 3 G$ ]& Q5 K* Z0 S1 c; _8 \. U6 @顾险峰教授在分析Sora模型的局限性时,提出了将最优传输理论(Optimal Transport Theory, OT)作为一种可能的解决方案。我查了一些资料试着解读一下: - S# k7 ~' z$ K! N4 @ . q9 }! F8 u3 p4.1 最优传输理论的基本概念; s6 t! ]7 U/ |9 y: k" \ b
最优传输理论(Optimal Transport Theory, OT)是现代数学中一个活跃且多产的领域,它为理解和操作概率分布提供了一种强大的数学工具。在OT的核心,是寻找一种在两个概率分布之间进行转换的最优方式,这种转换旨在最小化转换过程中的总体成本。成本的概念在这里是广义的,它可以代表物理距离、信息论中的信息损失、能量消耗或其他与问题相关的度量。 ) `! ~- t. S3 I0 C ) N3 ?; d# }# z; h8 Y& G在OT的理论框架中,概率分布不再仅仅是一系列数字,而是被视为定义在某种流形上的测度。这些测度捕捉了数据的分布特性,而流形则提供了一个抽象的空间,使得我们可以在几何和拓扑的层面上研究这些分布。在这个空间中,最优传输映射(也称为OT映射)描述了如何将一个测度以最经济的方式转移到另一个测度。这种映射不仅仅是简单地移动点,而是在考虑成本的情况下,对整个分布进行重新配置。. h' L6 T: W: u% `/ n5 m6 k( t" L
3 [8 w; a+ c& L, C$ @/ K% x为了找到这样的最优映射,OT理论引入了一系列数学工具和概念,如Monge-Ampère方程、Wasserstein距离和Brenier定理。这些工具使得我们可以量化转换过程中的成本,并找到最小化这些成本的映射。在实际应用中,这可能意味着在图像处理中找到最佳的图像配准、在经济学中优化资源分配,或者在机器学习中提高数据集的代表性。' ~) F% v# k3 V" k" X
# D* D* K- B( B) n! X
最优传输理论的魅力在于它的普适性和深度。它不仅在数学领域内部有着广泛的应用,还在计算机视觉、机器学习、物理学和工程学等多个领域展现出其强大的潜力。通过将OT理论应用于AI模型,我们可以期待在处理复杂数据分布、优化决策过程以及提高预测准确性等方面取得显著的进步。顾险峰教授的分析强调了OT理论在理解和模拟物理世界中的重要性,特别是在处理临界态和全局物理规律方面。通过将OT理论融入AI模型,我们可能能够更好地捕捉和再现现实世界的复杂性。% c' q$ l& G. h) A2 n. T6 s; ]
" M/ W( ]7 h' B6 I, s# x7 S1 q
图片1 X3 L8 u& k5 a. _8 S0 c6 `2 Q1 U
; w, ?* b; O) w
4.2 最优传输理论在点云学习与预测中的应用: q. @ A9 g5 F& a+ R8 |4 {! ^' ?
在点云学习与预测的领域中,最优传输理论(OT)的应用展现出了其独特的价值。根据顾教授的思路我做了一下推演:/ e8 I1 k( }8 M& J3 p; H
: `# J- ?" ~ a' Y# X5 A9 E7 K点云数据表示的优化:9 e7 l" c' b' Z+ c8 f: ?
在三维建模和计算机视觉任务中,点云数据通常代表了现实世界物体的表面。OT似乎可以用来优化这些点云数据的表示,以便它们能够更准确地反映物体的真实形状和结构。通过OT,可以在不同的点云数据集之间建立一个最佳的对应关系,这种对应关系不仅考虑了局部的几何特征,还考虑了全局的拓扑结构。典型的例子如在进行三维重建时,OT可以帮助模型识别和对齐不同视角下的点云,从而提高重建的准确性和完整性。也反向校验了生成结果的合理性。 % Z, v) a0 C$ _4 D3 B 7 o7 q3 Y5 \! |: z; M/ h提高模型的全局合理性和预测准确性:" x& N0 ?5 b8 C M$ H* T
在预测任务中,如自动驾驶车辆的路径规划或天气系统的模拟,模型需要能够准确地预测未来的事件。推测顾教授的思路是OT通过考虑数据流形的整体结构,可能会有助于提高模型的全局合理性。这意味着模型在生成新的数据点或预测未来状态时,不仅依赖于局部的统计规律,而且能够考虑到全局的物理规律和数据分布。这种全局视角使得模型能够更好地理解和预测复杂系统中的动态变化。6 I$ E6 z1 E3 ?* ~9 x n
% n& d8 {$ F; r f- m
处理临界态的潜力: V5 K& F+ T3 ?) p$ j在物理过程中,临界态的识别和处理对于模拟和预测至关重要。OT在处理这些临界态时可能具有显著的潜力。例如,在模拟材料的相变过程中,OT可以帮助模型识别相变发生的临界点,并在这些点上正确地模拟物质状态的突变。通过OT,模型能够更好地理解和模拟物理过程中的突变,从而在需要精确捕捉物理临界点的场景中提供更准确的预测。 ' _; Y% I. i" O, f& o$ q8 W X- t! V1 s3 \# d( U, Y) K
顾教授的分析表明,他认为从他的研究领域看来,他所提出最优传输理论为AI模型提供了一种新的工具,以更全面地理解和模拟物理世界。通过在模型中融入OT,可以期待在处理点云数据和提高预测准确性方面取得显著进步。这种理论的应用不仅能够弥补Sora模型在处理临界态时的不足,也为AI领域在模拟复杂物理现象方面开辟了新的研究方向。: Y4 i* N( l! a3 r% r, l+ S7 e
; ?: Z. W, U" r, O5. 顾教授论点的辨析0 n3 R) ^& i; w- O* G8 S s* D
在对顾险峰教授关于Sora模型的理论进行辨析时,我们可以从以下几个关键点来延伸的探讨其论点的深度和广度。! T% s1 M5 g2 Y6 @5 O( D* C
. L/ L3 ?4 a) a. T5.1 离散与连续的统一' U) P5 k. a b
在顾险峰教授的理论指导下,我们深入探讨了最优传输理论(OT)如何在AI模型中处理离散的点云数据,并同时捕捉数据的连续性。OT通过定义成本函数来衡量点之间的转换成本,使得模型能够在保持点云数据离散性的基础上,找到一种全局最优的连续映射。这种方法不仅关注局部几何特征,而且从整体上理解数据的分布和变化,从而在三维重建、点云配准等任务中提高模型的性能。顾教授的理论强调了在AI模型设计中,数学工具的应用对于更好地处理和解释离散数据的重要性,尤其是在需要精确模拟物理现象的场景中。通过OT,我们可以在离散数据中引入连续性的数学描述,为AI模型在模拟现实世界的复杂性方面提供了新的视角和策略。8 S. _* P# E0 W. q8 D
" F. |7 }! f5 z( |) U
图片! D# d: O! o6 ]! K+ K+ B2 ~% m
5 h- G$ Y2 h- P1 ?9 Z8 ~3 T跳出问题的本身,从哲学的角度来看,离散与连续是一对对立统一的概念。在哲学中,这种对立统一的思想可以追溯到古希腊哲学家赫拉克利特的“万物流变”和巴门尼德的“存在即不变”的辩论。在现代哲学中,这种对立统一的概念体现在对现实世界本质的探讨中,尤其是在科学哲学和数学哲学中。在数学中,离散数学研究的是离散结构,如整数、图论、组合数学等。而连续数学则关注实数、函数、微积分等领域,它们处理的是连续变化。数学家们发现,尽管离散和连续在直观上截然不同,但在某些情况下,它们可以通过极限、拓扑和代数结构等概念相互联系。在物理学中,量子力学揭示了自然界在微观层面上的离散性(如量子跃迁),而经典力学和相对论则描述了宏观层面上的连续性。临界态,如相变,是连续与离散相互作用的结果,体现了物质状态的突变。( s+ k' Q& T5 Z2 j/ r% U& \
; C1 Q* v m! I$ h. m# Z
临界态作为离散与连续之间的过渡,体现了对立统一的哲学思想。在临界态中,系统的行为可能发生根本性的变化,这种变化往往涉及到从一种稳定状态到另一种稳定状态的跃迁。这种跃迁可能是由外部条件的微小变化触发的,但它揭示了系统内在的非线性和复杂性。; I7 z) A+ K2 ?& H' L* X
" @7 i3 x6 A9 K4 V2 E7 t
所以说,在AI和机器学习领域,理解和模拟临界态对于创建能够处理复杂现实世界问题的智能系统至关重要。这要求我们在离散和连续的数学工具之间寻找平衡,以及在模型的构建中考虑到现实世界的连续性和离散性。那么最优传输理论是吗?这也许是一个很长一段时间之内都难以回答的问题。 H# y# w9 m- V5 E- _& |9 ^! e 5 \1 x" M4 s' e( }5 ?! K4 O当然,顾教授的分析为我们提供了宝贵专家的视角,但AI模拟物理世界的研究仍然是一个多学科交叉的领域,需要物理学家、数学家、计算机科学家以及工程师的共同努力。在这个过程中,不同的方法和理论可能会相互补充,共同推动我们对物理世界的理解。顾老师的文章为我提供了一个宝贵的思考起点,我个人的解读则是在此基础上的一种尝试。作为一个数学学渣,也只能才疏学浅大胆假设,希望能够激发更多的讨论和思考。9 I9 f. \, E. X5 F
6 r1 [. h. j1 U* b
其实其他的解决思路也有,我正在看复旦大学熊赟教授团队的新论文《DiffPoint: Single and Multi-view Point Cloud Reconstruction with ViT Based Diffusion Model》。这也是一个很好的点云数据重建思路,回头有时间的也写一个解读吧。, r! i5 a8 c$ S7 b
8 j2 X9 U' |+ e$ x5 A1 e J; P参考链接 ! _8 J5 V, W* A# d& a参考资料如下:% U \9 b$ {0 e