基于第一段,镜头继续来到旁边的另一座研究基地。
可以看到,整个基地的面貌更完整了,而且没有丢失第一段中的关键素材(如第一座基地中分散在各角落的人)。
如此 " 俄罗斯套娃 " 后,最终用户将得到一个贴近提示词的科幻大片场景:
一座建在冰川上的未来研究基地,配有发光穹顶和先进机械,四周环绕着冰封景观,具有科幻美学风格,画面极为细致精美。
顺带一提,Matrix-3D 提供两种场景重建方案——基于前馈神经网络的方案 10s 即可完成场景重建,而基于 3DGS 优化的方案可重建出更精细逼真的场景。
小结一下,Matrix-3D 能树立行业新标杆,正是因为它在生成质量上实现了多项关键进步。
而且不止模型能力变强,从技术方面看,背后还蕴藏着团队对多项行业技术难题的成功突破。
包括但不限于下面这些:
相比基于透视图训练的主流思路,全景图可以突破视觉范围限制;
相比主流的点云渲染策略,网格渲染能有效提升几何一致性和色彩一致性;
基于前馈式网络的 3DGS 优化策略,能加速 3D 生成;
利用合成数据,3D 场景数据稀缺的问题能够得到解决;
……
凭借产品 + 技术的双重优势,Matrix-3D 再次刷新 3D 世界生成的行业标杆。
下面我们继续深入扒一扒 Matrix-3D 背后的技术细节。
背后技术细节
整体而言,Matrix-3D 主要通过引入全景表示、条件视频生成与 3D 重建模块,突破了现有方法在视角范围、几何一致性和视觉质量上的限制。
其核心模块及大致作用如下:
1、轨迹引导的全景视频生成模块:根据用户输入的图片 / 文字,生成符合给定相机轨迹的全景视频。
2、双路径可选择的全景 3D 重建模块:提供分别主打精细和生成速度的两种方案,来将全景视频变成一个可自由探索的 3D 场景。
3、Matrix-Pano 数据集:一个大规模高质量合成数据集,包含 116K 条带有相机轨迹、深度图和文本注释的静态全景视频序列。
对于上述组件,接下来我们按照以下思路进行详细拆解:
1)为什么要这样设计?
2)怎样实现这个设计?
3)如何训练这个模型?
为什么选用全景图而非透视图?
一上来,团队就从全局考虑了 3D 场景生成的泛化性问题。
受限于 3D 场景数据的稀缺性,目前的主流思路是利用图像或视频生成模型作为先验来实现强泛化。
简单说,前者通过捕捉 2D 图像中的纹理或细节等特征来辅助构建 3D 世界,后者则通过学习相机环视时的视角变化(由视频模型生成),来模拟空间结构和生成 3D 场景。
然而这类方法都是在透视图上进行训练,仅能覆盖小范围的场景,一旦用户超出该范围查看场景时,就会有明显的场景边界,影响用户的沉浸体验以及 VR/AR 等下游应用。(下图左半部分)
因此,为了保证生成的场景支持任意地点、任意角度查看,团队选用了全景数据作为场景生成的中间表达。
一般而言,全景图可以覆盖 360 ° 的水平视角和 180 ° 的垂直视角,支持用户在任意角度查看。一旦将多个位置的全景图拼接在一起构成全景视频,就能包含 3D 世界生成所需的所有信息。(上图右半部分)
三个核心模块实现单图 / 文本→ 3D 世界生成
借助全景视频中间表达,Matrix-3D 具体则通过三个核心模块实现从单图 / 文本到 3D 世界的生成:
全景图生成模块:从用户输入的文本或透视图生成全景图;
可控全景视频生成模块:根据用户指定的探索轨迹和范围精准生成全景图视频;
3D 场景生成模块:从全景图视频中解码出 3D 场景,支持用户自由探索。
训练阶段的优化设计
训练开始前,团队将重点放在为视频扩散模型提供更精准的参考条件上。
其中,全景图的生成通过 LoRA 微调生图模型实现。
为了生成可控的全景视频,团队基于首帧的全景图和深度信息搭建了一个初始的 3D 网格,然后沿着用户设定的路径对这个网格进行渲染,作为后续视频生成的参考。
相较于当前主流的点云渲染策略,通过网格渲染得到的信号能包含准确的前后景遮挡关系,且不会出现噪声条纹。
因此有效提升了生成结果的几何一致性和色彩一致性。
然后就是根据这些精准的条件信号进行训练。
在训练视频生成模型时,团队首先对场景网格渲染结果进行编码,并将其对应的 Mask(遮罩图)下采样,再将这两者和噪声隐向量在通道维度(channel dimension)拼接,一起作为模型的输入。
团队称这一设计简单有效,保证了生成结果与输入条件信号高度相符,提升了模型的控制精度。
同时,团队在模型的 DiT 模块中引入了 Cross Attention 机制,用于融合残缺视频序列和完整视频序列对应的隐向量。
这一设计进一步增强了模型输出与输入条件的匹配度,提高了全景视频生成的精度和泛化能力。
此外,为了加速训练过程,团队在视频基模上进行 LoRA 微调,而非全量参数训练。
当视频生成完成后,最终还需要将其转化为可交互的 3D 场景。对此,团队设计了两种不同的重建方式:
基于深度估计 + 透视图 3DGS 优化,可以生成精细的高质量场景;
基于前馈式网络(Feed-Forward Network)的 3DGS 优化,主打快速生成。
后者用 Transformer 网络直接从视频隐空间预测全景 3DGS 的各个属性,且为了加速网络收敛,提出了先训练深度、再训练其他参数的分步训练策略。
Matrix-Pano 数据集
当然,以上训练也离不开一个高质量的数据集—— Matrix-Pano。
现有的 3D 场景数据集通常存在质量和成本方面的问题。不仅普遍规模较小、质量参差不齐,且缺乏精确的相机和几何标注;同时,真实世界 3D 场景数据的采集成本也非常高昂。
而 Matrix-Pano 则完全基于 Unreal Engine(虚拟引擎)构建,具备高仿真的物理和视觉效果,包含 116K 全景视频,共 22M 全景帧,涵盖室内室外 504 个高质量 3D 场景及多样的天气与光照条件。
此外,所有视频均配有精确的相机与轨迹标注。
为了支撑如此大规模、高质量的视频数据采集,团队还专门设计了一整套自动化轨迹生成与采集系统。
概括而言,这套系统主要通过三步实现高质量的视频采集:
轨迹生成:提出了一种高效的轨迹采样算法以生成合理且视觉连贯的相机路径,最终仅保留长度超过 18 米的轨迹,以保证视频序列的动态性。
高仿真精确碰撞检测:采用边界框代理进行路径仿真,实时剔除发生几何剪切或物体穿透的轨迹,保证全景视频运动过程的物理合理性。
工业级相机控制:结合控制理论对相机的位置和角度进行平滑处理,保证生成的视频具有工业级的物理平滑效果。
通过上述多步骤的数据生成与筛选流程,团队最终保留了 116k 个高质量全景静态视频序列,每个序列均附带对应的 3D 探索路径。
昆仑万维:瞄准空间智能
以上不难看出,昆仑万维确实在 3D 世界生成领域投入了大量心血。
而这一切背后,实则蕴藏着他们对 " 空间智能 " 这一前沿技术领域的更大野心。
何谓空间智能?简单来说,就是让机器突破传统二维视觉的限制,能够像人类一样感知、理解并作用于三维空间。
根据量子位智库发布的报告,目前它实际上分为两个层面:物理的三维世界和数字的三维世界。