Fast Image-Based Localization using Direct 2D-to-3D Matching

2011年ICCV的论文，T.Sattler的论文之一，目前跟着该作者的脚步慢慢熟悉visual-based localization的研究思路。本文方法是一种从2D-3D的前向检索对应特征的方法，本文中重点是引入了优先搜索的方法，缩短了直接大量搜索带来的计算时间。
目前本文基本看完，希望将理解的内容记录下来，以后还能翻看回忆起来。

简介

本文中定义query image 中的2D特征为features，3D点云中的点的描述子为points。本文特意区分了直接和间接两种搜索方式：直接搜索是通过最近邻法搜索features对应的points；间接搜索是将points和features在某个中间结构中表示，并没有保存他们在描述子空间中的相近情况。

实验设定

本章介绍了本文的实验数据集信息以及算法效果评估方法。

数据集

共使用了三个不同数据集：Li等人在论文“Location recognition using prioritized feature matching”中使用到的，其中Dubrovnik以及Rome利用Flickr拍摄的照片进行重建得到；Vienna则使用一个相机所拍摄的图像重建。测试图片使用单一维度（行、列）最大1600像素的图像。

效果评价标准

基于能够匹配的图像数量进行评价，使用RANSAC算法进行匹配，当算法中inliers超过12个时认为匹配成功。

2D-3D匹配

本文中使用的匹配方法基于KD-tree方法，利用FLANN library中的函数进行，每个3D点的描述子使用在三维重建中的全部描述子的均值。匹配基于SIFT ratio test：features与何其最临近的两个points的距离满足最近距离与次近距离小于0.7则判断匹配成功。一个point匹配到了超过两个feature则取欧式距离最近的一个feature。算法使用6-point DLT还原相机姿态。算法强行令所有inliers 处于相机之前来避免一些测试图片的inlier比率低导致RANSAC在1分钟内结束循环的问题。本文在此章使用间接的P2F算法进行对比试验，结果是直接匹配方法在所有数据集上的匹配成功数量都高于P2F算法，但是处理时间要远大于该方法。

VPS搜索方法

全拼Vocabulary-based Prioritized Search，理解上是一种对搜索优先级进行设计的方法。作者统计测试图片中的features有93%都无法匹配到points因此浪费了大量搜索时间。在论文“Location recognition using prioritized feature matching”提到3D-2D匹配过程中的优先级设计，但是2D-3D匹配中无法得知当前feature是否很可能匹配到point。
本文中预先将所有的points都分配到词袋中，在搜索匹配过程中，测试图像的features也将被分配到其对应的词袋中，并与当前词袋中的所有points进行SIFT ratio test。本文引入了计算量作为优先级的设计标准，将词袋中的points数量少的认为是计算代价小，按照此标准排序，设置了匹配的优先级。当features成功匹配数量超过Nt是就停止搜索。
以上为本文中的全部基本方法，论文后续测试了方法的各方面效果，包括匹配效果，reject时间的缩短效果，与目前算法的对比效果，定姿精度问题等。

VPS数据设定及测试

本文中使用100k个词袋，通过其他与本文数据集完全不同的数据集合完成训练，使用论文“Object retrieval with large vocabularies and fast spatial matching”的方法。文中SIFT特征使用通常值，将浮点数转换成8位二进制整数进行处理[0,255]，下面总结一些较有用的实验内容：

3D points 表示形式

由于points在重建过程中，一个point所对应的描述子非常多，因此本文提出了几种不同的points表示形式：（1）全部描述子法：使用全部的描述子，在匹配中要求最近邻的两个描述子是不同的point的描述子；（2）mean/mediod:将分配到不同词袋的相同point的不同描述子全部修改为该point的均值或中值描述子；（3）mean/mediod per vw：每个point在不同词袋中最多有一个描述子，当多于一个是，取所有在此词袋中的描述子的均值或中值。注意本文中使用均值同样需要将SIFT描述子转化为整数。
试验效果最优的是mean/mediod per vw。

未提及的相关试验内容

第五章中的部分内容不需要翻译或者不对照原文无法说明，重新翻看原文即可理清其效果，具体包括：
（1）优先搜索方法实验
（2）对rejection time 的缩短效果
（3）视觉词汇库对实验效果的影响，包括视觉词汇数量的变化导致的效果变化情况
（4）与其他state-of-art方法的对比
（5）定位精度实验

转载：https://blog.csdn.net/weixin_42326336/article/details/102517018

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章