Structure from Motion revisited
|2023-5-30
Anthony
type
Post
status
Draft
date
Apr 20, 2023
slug
Structure from Motion revisited
summary
这是一篇发布于2016年的来自北卡罗来纳大学教堂山分校和瑞士苏黎世联邦理工学院的发表在CVPR的一篇三千引用的开源经典SfM, 开源的项目叫做COLMAP
tags
单目3D重建
category
论文速览
icon
password
SfM 是首先从一系列从不同视角拍摄的图像中找到要重建的3D结构的投影,然后再从这些投影重建三维结构的过程。增量 SfM(在本文中表示为 SfM)是一种具有迭代重建组件的顺序处理流水线(图 1)。

基础步骤
相关性搜索
Correspondence Search 就是要在不同的图片中找到不变的特征,以便后续将这些特征匹配。
输入:一系列图像
处理:找到重叠的图像,并且找到这些图像中相同点的投影
输出:一系列匹配的图像对,每个点的投影
特征提取
对于每一张图像,它的局部特征可以表示为。其中为图像中点的位置,为特征描述符,代表这张图片中点的位置的数量。这些特征应该不随着图像的几何变化而变化(实际上很多东西都会随着几何变化而变化,所以特征不好找,这是难点之一)
找特征的方法有很多,包括
- SIFT “Distinctive image features from scale-invariant keypoints”
- SIFT的衍生 “Local invariant feature detectors: a survey”
- 通过学习的特征 ”Discriminative learning of local image descriptors“
特征匹配
对于场景中的所有可能的图像对(A,B)。将图像A中的所有特征,找到B图像中与该特征最相似的特征,并且得到相似性矩阵。经过这一步之后,潜在的图像以及他们的相关矩阵将被输出。
这一步及其耗时并且不允许大图像的输入,后续有很多方法提出了更好的匹配方式。
几何验证
原因:
由于刚刚的匹配都是基于图像本身,并不能保证匹配的点一定可以投影到场景中的同一个点,因此SfM使用了投影几何的方法来预测两个特征点之间的转换。
我们使用单应性描述和essential或者fundamental矩阵来描述这个转换。
- 单应性描述(homography) H 描述了相机的纯平移或者纯旋转
- 对于既有平移又有旋转的变化,我们可以使用essential matrix(E) 或者fundamental matrix(F)来描述
判别:
如果存在一个有效的变换能够匹配上两张图片中足够的特征,那么就说明他们是匹配的。
由于匹配关系经常会受到异常值的影响,因此我们使用更鲁棒的技术如RANSAC。
输出:
几何验证的输出也是特征匹配中提到的C和M,当然这些C和M都是经过几何验证的。
同时我们还可以引入决策标准如GRIC,QDEGSAC来衡量合适的关系。
经过GRIC或者OQDEGSAC之后,我们输出一个感知图,其中图像作为节点,匹配的图的关系作为边。
Essential matrix(E)用于已经正则化好的图像坐标,正则化好的图像坐标是被缩放过的,坐标原点即图像中心,x,y轴有相机的焦距正则。它独立于相机的内参,如果相机已经被标定好,就可以用它来描述相机的相对姿态。、
Fundamental matrix(F)用于像素坐标。即储存在传感器中的参数。
贡献
- 感知图增强
本质上就是进一步地去筛选合理的图片对。
对inliars进行限制,进一步判断合法的geometirc
对于估测得出的fundamental matrix(F),当它的内点数量至少有的时候我们就说这个匹配是经过几何验证的。内点即:对于图像A中的一点a以及它在图像B中的对应点b,ab需要满足a点的FxH= b点的FxH(x 是矩阵相乘的意思)
判断transformation的类别
首先获取到 homography inliers的数量,这里的homography inliers指的就是一副图像中能通过homographt matrix映射到另一幅图像中的对应点的数量。
- 选择下一张最佳图片
意义
选择下一张最佳图片具有很重要的意义,因为每个决定都会影响剩余的重建。一次错误的选择可能导致相机位姿预测的错误以及三角测量的错误。
以往策略
选择能够看到最多triangulated points的图片
但是这个对于网络数据集是不可行的,因为在数据集中很多图片都具有相同的结构。
本文方法
依据每个图像中triangulated points 的数量和分布。数量越多,越均匀越好。
该策略保证了以下几种情况都不会获得很高的分数,1)点稀疏,但聚集在一处。2)点均匀,但稀疏。3)点密集但在一处。
