D3群在三维实空间中的矩阵表示是怎么算的

MVS是一种从具有一定重叠度的多视图视角中恢复场景的稠密结构的技术，传统方法利用几何、光学一致性构造匹配代价，进行匹配代价累积，再估计深度值。虽然传统方法有较高的深度估计精度，但由于存在缺少纹理或者光照条件剧烈变化的场景中的错误匹配，传统方法的深度估计完整度还有很大的提升空间。近年来卷积神经网络已经成功被应用在特征匹配上，提升了立体匹配的精度。在这样的背景下，香港科技大学Yaoyao等人，在2018年提出了一种基于深度学习的端到端深度估计框架——MVSNet。

多视图立体匹配（Multi-view Stereo， MVS）是计算机领域中一个核心问题。重建多视图立体匹配，可以认为是拍摄既定场景的一个逆过程。相机映射下，三维场景变换为二维，而多视图立体匹配重建正好相反，其从这样子。不同视点拍摄图像，恢复出真实的三维场景。

传统的方法使用手工设计的相似性度量指标和正则化方法计算场景的稠密对应关系（比如使用归一化互相关Normalized Cross-Correlation和半全局匹配semi-global matching）。这些方法在非朗伯体表面、无弱纹理区域的场景可以达到很好的效果。但是在弱纹理区域，人工设计的相似性指标变得不可信，因此导致重建结果不完整。由MVS数据集的排行榜可知，这些方法具有很高的精度，然而在重建的完整度方法还有很大的空间可以提升。

卷积神经网络的研究的最新进展引发了人们完善立体匹配重建热情。从概念看，基于学习算法能够捕获全局的语义信息，比如基于高光和反射的先验条件，便于得到更加稳健的匹配。目前已经探求一些两视图立体匹配，用神经网络替换手工设计的相似性度量或正则化方法。这些方法展现出更好的结果，并且逐步超过立体匹配领域的传统方法。事实上，立体匹配任务完全适合使用CNN，因为图像对是已经过修正过的，因此立体匹配问题转化为水平方向上逐像素的视差估计。

与双目立体匹配不同的是，MVS的输入是任意数目的视图，这是深度学习方法需要解决的一个棘手的问题。而且只有很少的工作意识到该问题，比如SurfaceNet事先重建彩色体素立方体，将所有像素的颜色信息和相机参数构成一个3D代价体，所构成的3D代价体即为网络的输入。然而受限于3D代价体巨大的内存消耗，SurfaceNet网络的规模很难增大：SurfaceNet运用了一个启发式的“分而治之”的策略，对于大规模重建场景则需要花费很长的时间。