3D 生成的行业新标杆,这一次由国产玩家树立。
万万没想到,这样一个堪比游戏全景视角的场景,竟然只由一张图片生成?!
在 360 ° 自由环视下,由亭子一隅延伸出的画面始终保持内容一致:
面对更考验几何、色彩能力的场景,也能生成比较真实自然的 3D 世界。
仔细看,画面所呈现的几何关系(如位置、大小、形状)和遮挡关系基本挑不出毛病,不同区域的颜色也没有突兀的地方。
更神奇的是,我们还能随心所欲控制运动轨迹。
比如先让图片来个直行:
然后立马再来个蛇形走位,拐一个 S 弯:
甚至,对比李飞飞 World Labs 团队所采用的方法,新模型还支持更大范围的移动。
原图是酱婶儿的:
李飞飞 World Labs 团队让这张图的视角逐渐推进,最终生成结果如下:
而 Matrix-3D 新模型生成的场景明显更为丰富,全景视角下空间感也更为强烈。
不卖关子了,Matrix-3D 正是国产玩家昆仑万维最新推出的 3D 世界生成框架。
作为一个融合全景视频生成与 3D 重建的统一框架,它从单图像出发,能够生成高质量、轨迹一致的全景视频,并直接还原可漫游的 3D 空间。
官方测评显示,Matrix-3D 在多个主流评估指标上优于 360DVD、Imagine360 和 GenEx,取得全景视频生成任务的 SOTA 成绩。同时,在相机轨迹引导下的生成任务中,Matrix-3D 也在视觉质量和相机可控性方面超越现有方法。
那么,Matrix-3D 是如何从一众竞争对手中脱颖而出的呢?
树立 3D 世界生成新标杆
事实上,Matrix-3D 并非昆仑万维第一次在世界模型领域大秀肌肉 ~
早在今年 2 月,这家公司就推出全新自研的世界模型—— Matrix 系列,成为中国第一家同时推出 3D 场景生成、可交互视频生成模型的探索空间智能的企业。
今年 5 月 13 日,昆仑万维也正式开源了(17B+)Matrix-Game 大模型,最新开变态传世页游,即 Matrix-Zero 世界模型中的可交互视频生成大模型。Matrix-Game 是 Matrix 系列在交互式世界生成方向的正式落地,也是工业界首个开源的 10B+ 空间智能大模型,它是一个面向游戏世界建模的交互式世界基础模型,专为开放式环境中的高质量生成与精确控制而设计。
如今几个月过去,Matrix-3D 算是昆仑万维在确立领先优势后持续投入、不断优化的阶段性成果。
并且这一次,从效果和技术突破两方面来看,Matrix-3D 的优势还在扩大。
从比较直观的生成效果来看,Matrix-3D 目前具备以下核心优势:
场景全局一致:支持 360 ° 自由视角浏览,几何结构准确、遮挡关系自然,纹理风格统一。
生成场景范围大:与现有场景生成方法相比,支持更大范围的、可 360 ° 自由探索的场景生成。
生成高度可控:同时支持文本和图像输入,结果与输入高度匹配,支持自定义范围与无限扩展。
泛化能力强:基于自研 3D 数据与视频模型先验,可生成丰富多样的高质量场景。
生成速度快:首个 Feed-Forward(前馈神经网络)全景 3D 场景生成模型,生成速度更快。
话不多说,直接来看更多玩法 ~
首先,Matrix-3D 最极简的玩法是,开局只给它一张参考图(然后还你整片森林 bushi。
咔咔一顿输出后,不仅能看到镜头环绕石堆的全景效果(补全了河流、白云等周围环境),而且连每一块石头的物理光影也能随之正确变换。
给图片加上提示词,沉浸式体验游戏的 feel 立马出来了。
一个方块像素化的景观,包含山脉、树木、水体、天空、云朵,类似《我的世界》风格,高分辨率,色彩鲜艳,纹理细节丰富,氛围宁静。
虽然只提供了某一帧画面,但它也能轻松还原整个场景,形成了一个可供玩家自由探索的游戏世界。
是不是很有《我的世界》内味儿了 ~
与此同时,正如开头提到的,Matrix-3D 还支持玩家自由控制运动轨迹。
仅 " 看一眼 " 某个山坡的局部图,再结合用户提供的轨迹图,就能从各种方位开启第一视角爬山之旅。
而且不止 S 弯和直行,切换成其他轨迹也是 OK 的。(比如右前方前进)
值得一提的是,Matrix-3D 还支持将全景视频转化为 3D 世界。
如此一来,我们就能直接对图片展开自由探索:
最后更关键的是,Matrix-3D 还支持无限续写。
就是说,当用户生成一段场景后,还可以在此基础上对场景进行扩写。
跳过参考图和提示词,第一段 be like: