影石研究院发布面向异构成像系统的单目新视角合成模型UniSHARP(Universal Sharp Monocular View Synthesis)。作为首个统一透视、广角、鱼眼与 360° 全景相机的单目 3DGS 模型,UniSHARP 只需一张输入图像,即可通过单次推理在秒级时间内获得场景的高斯点云,无需多张图像输入或逐场景优化。

该方法不再依赖针孔相机假设,而是以统一的几何表示打通不同相机模型之间的壁垒,通过融合 2D 语义特征与 3D 几何特征来预测 3D 高斯场,并支持混合相机训练与 Pose-Free 免标定推理 —— 真正实现一张图、一个模型、适配所有相机

团队同步构建含30 万张全景图及深度的仿真数据集OmniRooms,并建立覆盖多种相机类型的 FoV 分层 benchmark。目前,训练与测试代码、模型权重、数据集与在线 Demo 已经全部开源



视频链接:https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ

近年来,3D Gaussian Splatting(3DGS)与新视角合成发展迅速,但绝大多数方法仍默认输入来自普通透视相机,然而真实世界天然存在全景相机、鱼眼镜头、超广角运动相机等异构视觉系统。另外,即便有些方法面向全景图,也常依赖多张图像输入或逐场景优化,但许多实际应用场景往往只能拿到单张图像—— 一张随手拍的手机或全景相机的抓拍照片,却希望能够立刻获得高质量、可交互的新视角渲染。

针对以上问题,有两条直觉路径:一是把透视模型「微调」到更大视场,但由于模型绑定在针孔相机的归一化设备坐标系上,本质上难以在非针孔成像域中正确预测几何和处理畸变;二是将大图切块、重投影为多张透视视角分别处理,但这又带来额外计算开销,并在拼接处引入明显的接缝伪影与几何不连续。

UniSHARP 正是在这一背景下应运而生,让单目 3DGS 摆脱针孔假设,用一张图、一个模型,覆盖从普通照片到 360° 全景的统一重建。



Ray-based统一表示:不再依赖针孔相机假设

现有单目 3DGS 方法(如 SHARP、Flash3D)多在窄视场透视数据上训练,几何预测与图像平面坐标强绑定,向鱼眼、全景迁移时泛化困难。UniSHARP 的核心思路是把场景表示搬到 ray-distance 空间。

具体而言,模型为每个像素预测一条单位视线方向和沿射线的径向距离,三维点由二者共同确定。无论输入是透视、鱼眼还是 ERP 全景图,高斯球都在同一度量的三维空间中定义,不再被某种相机模型绑死。这一设计受 UniK3D 的启发,使 UniSHARP 能够原生适配不同视场与畸变,而无需将全景硬切成多张透视图再拼接 —— 对比显示,使用 SHARP 推理全景图的 6 个 cube 时,会出现明显的拼接伪影和几何不一致,而 UniSHARP 可渲染连贯一致的全景目标视图。



视频链接:https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ

几何锚定高斯 + 特征条件残差:稳定几何与细腻外观兼得

在统一射线网格空间中,UniSHARP 先构建双层 Geometry Anchored Gaussians(几何锚定高斯):第一层对齐可见表面,第二层捕捉遮挡区域与高频结构,为单目重建提供稳定的基础高斯场;再融合 2D 语义特征与 3D 几何特征,预测Feature Conditioned Gaussian Residuals(特征条件残差),对高斯球进行精细化修正,得到最终可渲染的高斯点云。

相比直接将 RGB 图像与深度图喂入解码器的传统做法,这种设计能更充分地利用几何先验与语义上下文。此外,针对 ERP 全景图的严重畸变,团队引入球面高斯初始化与畸变感知概率 Dropout,在 HM3D 等全景数据上效果尤为显著。



混合相机训练与 Pose-Free 推理:贴近真实落地场景

训练阶段,UniSHARP 在透视(RealEstate10K、DL3DV、WildRGB-D)、鱼眼(ScanNet++ Fisheye)、全景(HM3D、OmniRooms)数据上混合采样、统一架构,不引入相机专用分支 —— 所有样本都转换为同一套射线接口,共享同一网络。

更贴近实际应用的是Pose-Free 模式:当用户没有标定内参时,模型可从预测射线场自动推断相机类型与渲染几何,无需手动提供透视或鱼眼参数。



视频链接:https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ

OmniRooms 与 FoV 分层 Benchmark:30 万全景图填补数据空白

为系统评估从 60° 到 360° 的新视角合成能力,团队构建了FoV 分层 benchmark,并发布仿真数据集OmniRooms



视频链接:https://mp.weixin.qq.com/s/Avg3VVOJZVbga5H6MZQlCQ

基准测评:透视不掉队,全景大幅领先

在透视数据集上,UniSHARP 没有因「做通用」而牺牲窄视场性能:



均全面超越 SHARP、Flash3D 等基线。零样本 Tanks & Temples 上,UniSHARP 同样取得最佳 PSNR。

在全景场景,优势更加明显:



全栈开源:代码、数据、模型、Demo 一键可用

UniSHARP 不止于提出一个新的单目 3DGS 模型,而在于展示了一条面向真实异构成像系统的完整路线:用 ray-based 空间统一不同相机几何,用几何锚定与特征残差稳定预测高斯场,用混合相机训练实现跨视场迁移,用 OmniRooms 与分层 benchmark 支撑可复现评测,并用 Pose-Free 机制降低部署门槛。

对 Insta360 而言,这与全景相机、运动相机的产品场景天然契合 —— 用户拍下的每一张 360° 照片、每一段鱼眼素材,都有机会被快速转化为可漫游的三维空间。对更广泛的社区,统一单目 3D 视觉也为机器人导航、AR/VR 内容创作等应用提供了新工具。