论文信息
标题:A Fractional-Order SSIM-Based Gaussian Loss with Long-RangeMemory for Dense VSLAM
作者:Junyang Zhao, Huixin Zhu, Zhili Zhang, Mingtao Feng, , Han Yu, Yuxuan Li
机构:中国人民解放军火箭军工程大学
原文链接:https://doi.org/10.3390/fractalfract9110744.
导读
在现有密集视觉同步定位与建图(VSLAM)研究中,一个核心挑战在于现有损失函数无法在光度变化条件下动态平衡亮度、对比度与结构保真度。
同时其底层机制,特别是结构相似性(SSIM)损失函数中传统高斯核因指数级快速衰减导致的感受野受限,难以捕获对全局一致性至关重要的长程依赖关系。为解决这一问题,我们提出分数阶高斯场(FGF),通过将Caputo导数与高斯加权相结合构建出一种名为分数阶高斯核的混合核函数,该核将幂律衰减的长程记忆特性与局部平滑性相耦合。
基于这种新型的核函数,我们进一步提出了一种基于分数阶统计量自适应重标定亮度、对比度与结构的新型损失函数FGF-SSIM。进一步地,所提出的FGF-SSIM被进一步集成至完整的基于三维高斯溅射(3DGS的SLAM)的SLAM系统中,并命名为FGF-SLAM。
大量实验评估表明,论文提出的方法在多个基准测试中达到了最先进性能。关于核函数的综合分析验证了分数阶核卓越的长程依赖捕获能力,照明鲁棒性测试证实了FGF-SSIM增强的不变性特性,同时在TUM和Replica数据集上的定量结果显示出重建质量与轨迹估计的显著提升,消融研究进一步明确了各提出组件的贡献度。
引言
视觉同步定位与建图(VSLAM)是一种通过视觉传感器获取光度数据与场景几何信息,同时进行位置估计与环境建图的计算框架。然而,现有损失函数的数学建模存在本质局限:其计算机制具有局部性和静态性,既无法捕捉全局一致性所需的长程依赖关系,也难以在变化光照条件下自适应调整亮度、对比度与结构保真度之间的平衡。这一根本缺陷亟待通过损失函数设计的范式革新来解决。
当前VSLAM方法呈现多样化表征范式。稀疏SLAM系统专注于显著环境路标,主要用于位姿估计与定位。而密集模型VSLAM通过连续图像流处理重建详细场景几何,近年备受关注。其中,三维高斯溅射(3DGS)采用数百万个各向异性三维高斯基元进行显式场景表征,通过可微溅射渲染实现高效优化。然而,其损失函数多沿用传统结构相似性(SSIM)与L1损失的组合框架,这些方法在应对光照变化和全局优化方面存在明显不足。
损失函数设计受底层场景表征结构特性的制约。传统L1/L2损失假设理想高斯白噪声特性,忽略了人类视觉系统感知规律。SSIM系列方法虽引入视觉特性评估,但其基于传统高斯核的计算机制存在固有局限。高斯核的指数快速衰减导致有效感受野受限,使其成为忽视长程依赖的局部算子,固定尺度参数也难以适应非平稳统计特性,这些缺陷直接导致其无法建模全局上下文、实现自适应重平衡。
为解决传统高斯核的局限性,部分利用分数阶随机过程理论的研究逐步兴起。通过将分数阶算子与传统高斯核结合,可构建具有幂律衰减特性的混合核函数,既能建模长程像素交互,又能保持局部平滑性。分数阶微积分不仅更贴近光传输的物理本质,还为建模多尺度和长记忆现象提供了数学框架,但其在三维高斯表征构建与调控中的应用潜力尚待挖掘。
针对光度变化引起的视觉损失函数不确定性问题,本研究提出基于分数阶微积分的分数阶高斯场(FGF),并构建新型FGF-SSIM损失函数。其核心创新在于用兼具幂律衰减与高斯衰减的分数阶核替代SSIM中的传统高斯核,通过分数阶局部统计量自适应解耦与重标定亮度、对比度和结构分量。进一步地,我们开发了完整的三维高斯溅射SLAM框架FGF-SLAM,将所提损失函数集成至跟踪与建图模块,显著提升了场景重建质量与轨迹估计精度。
方法
在基础算子层面,本研究提出了分数阶高斯场(FGF),以解决传统SSIM中高斯核因指数快速衰减而感受野有限的核心问题。FGF通过将Caputo分数阶导数与高斯加权相结合,构造了一种混合核函数,该核巧妙地将幂律衰减的长程记忆特性与高斯函数的局部平滑性耦合在一起。
这一基础算子的创新,不仅在数学上具备了可证明的长程依赖特性,还有效缓解了离散图像处理中的边界效应,为后续的损失函数设计提供了全新的数学框架。
FGF核心公式如下:
在损失函数层面基于FGF构建了名为FGF-SSIM的新型损失函数。该函数将FGF混合核作为其计算局部统计量(均值、方差、协方差)的核心组件,取代了传统SSIM中的标准高斯核。这使得FGF-SSIM能够利用分数阶统计量,在图像局部窗口内自适应地重新校准和平衡亮度、对比度与结构这三个关键分量的评估。
其核心优势在于,在应对复杂光照变化时,既能凭借其长程记忆能力维持全局结构的一致性,又能通过局部平滑性保留细节,从而显著提升了光度变化的鲁棒性。
FGF-SSIM核心公式如下:
在SLAM系统层面, 将所提出的FGF-SSIM损失函数完整地集成到一个基于3D高斯溅射(3DGS)的密集视觉SLAM系统中,形成了名为FGF-SLAM的完整框架。
在该系统中,FGF-SSIM被同时应用于相机跟踪和场景建图两个核心模块的优化过程中,作为主要的相似性度量准则。广泛的实验评估表明,该集成系统在TUM、Replica、M2UD等多个基准数据集上,于场景重建质量、新视角合成保真度以及轨迹估计精度方面均取得了领先的性能,充分验证了从基础算子到完整系统这一技术路径的有效性与先进性。
FGF-SLAM框架图如下所示:
图1
图2通过核函数可视化对比揭示了分数阶高斯场的关键机理。传统高斯核(图2a)呈现中心权重高并快速指数衰减的特征,表明其感受野有限且主要依赖邻近像素信息。
相比之下,分数阶高斯场核(图2b)在保持中心高权重的同时,表现出更广延的外围权重分布,即使远距离仍保持不可忽略的权重值。差异图(图2c)清晰显示:中心区域传统高斯核权重占优,外围区域分数阶核显著更强。
这证明了分数阶核通过引入幂律衰减特性,以略微牺牲局部敏感性为代价,成功实现了长程依赖的捕获能力,从根本上突破了传统高斯核的指数衰减限制。
图2
如图3所示,我们在M2UD数据集的局部区域对FGF-SSIM与其他损失函数进行了更详细的分析,重点评估其去噪性能与光照鲁棒性。在去噪效能方面,虽然SSIM与L2损失取得更优结果,但FGF-SSIM仍保持竞争力,在保留传统SSIM优良特性的同时位列第三。
更重要的是,在光度鲁棒性评估中,FGF-SSIM在PSNR、SSIM和MSE三项关键指标上均超越所有对比方法。这一改进归因于分数阶梯度流与分数阶高斯场的引入,它们有效增强了结构敏感度与光照不变性。通过引入分数阶微积分,FGF-SSIM能更有效地捕捉细粒度纹理与边缘特征,同时抑制高频噪声,从而在提升PSNR与SSIM的同时降低MSE。
在自动驾驶场景的强光照射区域,FGF-SSIM展现出增强的细节捕捉能力与结构完整性保持能力,对树枝等复杂纹理与阳光交互的挑战性光照条件表现出卓越的适应性。
图3
图4在Replica数据集上对比了不同基于3DGS方法完成三维重建后的新视图合成质量。为评估分数阶高斯场的优势,我们选取了CVPR 2024的两个先进模型(SplaTAM、MonoGS)进行性能比较。尽管三者均能利用RGB-D输入数据完成合格的场景重建,但本文提出的FGF-SLAM在细节保持与长程依赖建模方面展现出更优性能。
具体而言,在Office1场景中,对于输入图像中被遮挡区域(如枕头后角),SplaTAM采用空白高斯基元进行补全导致明显伪影;MonoGS-SLAM虽尝试重建这些区域,但在边界处引入了与原始米色枕头和黑色沙发不一致的色差;而FGF-SLAM凭借其长程记忆能力,在新视图合成中有效处理了这些挑战性区域,生成更自然连贯的重建结果。
该优势在Office3的沙发接缝重建中更为显著:面对输入序列的正面视角,SplaTAM生成模糊的接缝结构,MonoGS-SLAM产生中等清晰度的边缘,而FGF-SLAM则准确重建出锐利且几何一致的接缝。此外,FGF-SLAM在精细细节重建方面表现突出:在Office4的墙面涂鸦场景中,SplaTAM仅能捕获粗糙视觉模式而丢失线条结构细节,MonoGS-SLAM虽实现合理重建但在复现复杂形状(如面部特征与帽子轮廓)时存在局限,而FGF-SLAM以优异的线条精度和几何保真度成功保留了所有精细细节。
图4
主要贡献
为解决传统算子受限于局部感受野而无法捕获全局一致性所必需的长程依赖问题,我们引入了一种新颖的分数阶高斯场(FGF)。
该方法将Caputo导数与高斯加权核相集成。通过建立长程依赖建模的数学框架,这一方法有效解决了现有方法中局部感受野的根本性局限。
所得核函数展现出数学可证明的长程记忆特性,同时有效缓解离散图像处理中出现的边界效应,并放宽了各向同性约束。
针对现有损失函数在变化光照条件下无法自适应重标定亮度、对比度与结构保真度之间平衡的静态局限性,我们提出FGF-SSIM这一分数阶损失函数。
该函数在SSIM框架基础上,通过分数阶统计量显式解耦并自适应建模亮度、对比度与结构三个基本分量,在挑战性光照条件下既保持优异性能,又确保高质量三维场景重建所需的结构保真度。
为全面验证所提框架并解决传统SLAM系统缺乏全局场景记忆的问题,我们建立了系统的评估方案,同时考察理论性质与实际效能。
通过在光度变化与噪声干扰下的严格对比实验,我们证明了FGF-SSIM的优越性,其中详细的照明不变性分析突显了其长程依赖优势。
进一步地,我们将该损失函数集成至完整的3DGS-SLAM系统中,在场景重建质量、新视角合成保真度和轨迹估计精度方面均展现出显著提升,特别是在真实场景操作条件下恢复精细纹理细节与保持结构一致性方面表现突出。
实验结果
在M2UD数据集的urban03场景上,SSIM和FGF-SSIM的光照不变性性能评价及对比分解分析,如图5所示。
图5
跨损失函数的SSIM分数分布正态性评估如图6所示。
图6
M2UD数据集上使用urban01序列的FGF-SSIM和基准指标对光照变化的鲁棒性比较结果,如图7所示。
图7
SLAM方法的新视角合成结果,如图8所示。
图8
总结 & 限制性
本论文针对密集视觉SLAM中现有损失函数在光度变化下难以动态平衡亮度、对比度与结构保真度、且传统SSIM所采用的高斯核因指数快速衰减导致感受野有限的核心问题,提出了一种分数阶高斯场FGF。
该场通过融合Caputo分数阶导数与高斯加权,构建了一种兼具幂律衰减与局部平滑性的用于长程记忆的混合核。并以此为基础发展了FGF-SSIM损失函数,它能利用分数阶统计量自适应地重新校准亮度、对比度与结构分量。进一步,将FGF-SSIM集成到一个完整的基于3D高斯溅射的SLAM系统FGF-SLAM中,在TUM、Replica、M2UD等多个基准数据集上验证了其在轨迹估计精度、场景重建质量及新视角合成保真度方面的显著提升,并通过消融实验证实了各组件贡献。
然而,本研究在分数阶高斯核的长程依赖建模与局部精度之间存在固有的权衡,其参数在不同视觉条件下的自适应优化机制仍需深入探索。此外,当前方法在极端或非均匀光照场景下的泛化能力以及分数阶运算带来的计算复杂度,仍是实际部署中需要进一步考量与优化的方面。
直播预告
12月4日(周四)晚8点,我们将继续进行第三场直播《等待具身智能数据的ChatGPT时刻之破局》,欢迎收看!点击下方预约按钮,精彩不要错过!
从算法到实体,陪跑开发者成长全周期
▼来了就别走了,戳个推荐+在看
暂无评论
回复评论