小言_互联网的博客

Fast Image-Based Localization using Direct 2D-to-3D Matching 论文方法总结

392人阅读  评论(0)

Fast Image-Based Localization using Direct 2D-to-3D Matching

2011年ICCV的论文,T.Sattler的论文之一,目前跟着该作者的脚步慢慢熟悉visual-based localization的研究思路。本文方法是一种从2D-3D的前向检索对应特征的方法,本文中重点是引入了优先搜索的方法,缩短了直接大量搜索带来的计算时间。
目前本文基本看完,希望将理解的内容记录下来,以后还能翻看回忆起来。

简介

本文中定义query image 中的2D特征为features,3D点云中的点的描述子为points。本文特意区分了直接和间接两种搜索方式:直接搜索是通过最近邻法搜索features对应的points;间接搜索是将points和features在某个中间结构中表示,并没有保存他们在描述子空间中的相近情况。

实验设定

本章介绍了本文的实验数据集信息以及算法效果评估方法。

数据集

共使用了三个不同数据集:Li等人在论文“Location recognition using prioritized feature matching”中使用到的,其中Dubrovnik以及Rome利用Flickr拍摄的照片进行重建得到;Vienna则使用一个相机所拍摄的图像重建。测试图片使用单一维度(行、列)最大1600像素的图像。

效果评价标准

基于能够匹配的图像数量进行评价,使用RANSAC算法进行匹配,当算法中inliers超过12个时认为匹配成功。

2D-3D匹配

本文中使用的匹配方法基于KD-tree方法,利用FLANN library中的函数进行,每个3D点的描述子使用在三维重建中的全部描述子的均值。匹配基于SIFT ratio test:features与何其最临近的两个points的距离满足最近距离与次近距离小于0.7则判断匹配成功。一个point匹配到了超过两个feature则取欧式距离最近的一个feature。算法使用6-point DLT还原相机姿态。算法强行令所有inliers 处于相机之前来避免一些测试图片的inlier比率低导致RANSAC在1分钟内结束循环的问题。本文在此章使用间接的P2F算法进行对比试验,结果是直接匹配方法在所有数据集上的匹配成功数量都高于P2F算法,但是处理时间要远大于该方法。

VPS搜索方法

全拼Vocabulary-based Prioritized Search,理解上是一种对搜索优先级进行设计的方法。作者统计测试图片中的features有93%都无法匹配到points因此浪费了大量搜索时间。在论文“Location recognition using prioritized feature matching”提到3D-2D匹配过程中的优先级设计,但是2D-3D匹配中无法得知当前feature是否很可能匹配到point。
本文中预先将所有的points都分配到词袋中,在搜索匹配过程中,测试图像的features也将被分配到其对应的词袋中,并与当前词袋中的所有points进行SIFT ratio test。本文引入了计算量作为优先级的设计标准,将词袋中的points数量少的认为是计算代价小,按照此标准排序,设置了匹配的优先级。当features成功匹配数量超过Nt是就停止搜索。
以上为本文中的全部基本方法,论文后续测试了方法的各方面效果,包括匹配效果,reject时间的缩短效果,与目前算法的对比效果,定姿精度问题等。

VPS数据设定及测试

本文中使用100k个词袋,通过其他与本文数据集完全不同的数据集合完成训练,使用论文“Object retrieval with large vocabularies and fast spatial matching”的方法。文中SIFT特征使用通常值,将浮点数转换成8位二进制整数进行处理[0,255],下面总结一些较有用的实验内容:

3D points 表示形式

由于points在重建过程中,一个point所对应的描述子非常多,因此本文提出了几种不同的points表示形式:(1)全部描述子法:使用全部的描述子,在匹配中要求最近邻的两个描述子是不同的point的描述子;(2)mean/mediod:将分配到不同词袋的相同point的不同描述子全部修改为该point的均值或中值描述子;(3)mean/mediod per vw:每个point在不同词袋中最多有一个描述子,当多于一个是,取所有在此词袋中的描述子的均值或中值。注意本文中使用均值同样需要将SIFT描述子转化为整数。
试验效果最优的是mean/mediod per vw。

未提及的相关试验内容

第五章中的部分内容不需要翻译或者不对照原文无法说明,重新翻看原文即可理清其效果,具体包括:
(1)优先搜索方法实验
(2)对rejection time 的缩短效果
(3)视觉词汇库对实验效果的影响,包括视觉词汇数量的变化导致的效果变化情况
(4)与其他state-of-art方法的对比
(5)定位精度实验


转载:https://blog.csdn.net/weixin_42326336/article/details/102517018
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场