计算机视觉中的 F 矩阵,E 矩阵与 H 矩阵

F 矩阵 - 基础矩阵 (Fundamental Matrix)

在计算机视觉中,基础矩阵 $\mathrm {F}$ 是一个3×3的矩阵,表达了立体像对的像点之间的对应关系。在对极几何中,对于立体像对中的一对同名点,它们的齐次化图像坐标分别为 $p$ 与 $p’$,$\mathrm {F} p$ 表示一条必定经过 $p$ 的直线(极线)。这意味着立体像对的所有同名点对都满足:

F 矩阵中蕴含了立体像对的两幅图像在拍摄时相互之间的空间几何关系(外参数)以及相机检校参数(内参数),包括旋转、位移、像主点坐标和焦距。因为 $\mathrm {F}$ 矩阵的秩为2,并且可以自由缩放(尺度化),所以只需7对同名点即可估算出 F 的值。
尽管本质矩阵也满足类似的关系式,但本质矩阵中并不蕴含相机检校参数。本质矩阵与基础矩阵之间的关系可由下式表达:

其中 $\mathrm{K}$ 和 $\mathrm{K’}$ 分别为两个相机的内参数矩阵。

E 矩阵 - 本质矩阵 (Essential Matrix)

本质矩阵也满足类似的关系式,

H 矩阵 - 单应矩阵 (Homography)

推导

基础矩阵有许多种推导方式,下面介绍其中一种。
在双相机的拍摄场景中建立一个空间直角坐标系,称为世界坐标系(如下图中蓝色坐标系)。物点就是场景中物体表面上的点,比如说点 $P$ 在世界坐标系中的坐标为 $(X,Y,Z)^T$。
相机的光心从物理上讲就是相机镜头组的光学中心。以光心为原点,主光轴为Z轴建立空间直角坐标系,称为相机坐标系(如下图中绿色和红色坐标系)。像平面在相机坐标系中的方程即为 $z=1$,像点就是在物点在像平面上的投影,这个投影关系是透视投影。

用一句话来概括相机的拍摄模型,就是物点、像点、光心三点一线,此模型称为针孔相机模型。在此模型中,世界坐标系到左右相机坐标系的变换是刚性变换,即只包含旋转和平移,因此我们分别用增广矩阵 $[R;t]$ 和 $[R’;t’]$ 表示,其中 $R$ 和 $R’$ 是 $3 \times 3$ 的旋转矩阵, $t$ 和 $t’$ 为平移向量。令 $\tilde{P}$ 为 $P$ 的齐次化坐标,那么物点 $P$ 在左右相机坐标系下的坐标分别为

以一台相机为例,如图所示, $C$ 为相机光心,$Z$ 轴为主轴。物点在相机坐标系下的坐标 $\tilde{P}$ 和以相片左下角为原点的像点坐标 $p$ 有如下关系:

式中 $(x_0,y_{0},f)$ 为像主点在相机坐标系下的坐标。
设两相机内参数矩阵同为:

那么物点与像点之间的关系为:

将 $P=[R;t]^{+}P_{cam}=Z’_{C}K[R;t]^{+}p$代入上式,并令 $H_{\pi}=K[R’;t’]K[R;t]^{+}$,得:

由于物点、像点、光心三点一线,那么物点、一对同名点和2个光心这5个点一定处于同一个平面上,我们将这个平面称为 $\pi$ 平面。 $\pi$ 平面和像平面的交线称为极线 $l’$。显然,左片上的每一个像点 $p$ 对应于右片上的一条极线 $l’$,且 $p’$ 一定在 $l’$ 上。两个相机光心的连线与右片像平面的交点称为极点,用 $e’$ 表示。

在右边像平面内,极线 $l’$ 的方程可以表示为 $Ax+By+C=0$。这个平面直线方程的一般式可以视为:

因此,我们可以用一个三维向量 $(A,B,C)$ 来表示极线 $l’$,并且 $l’$ 的方程可以简单的由 $e’$ 坐标向量与 $p’$ 坐标向量做向量积得到,即 $l’:e’\times p’=[e’]_{\times }p’$。其中

令 $[e’]x$ 表示向量积的矩阵形式,那么再将同名点之间的变换关系代入,得到极线的方程为:

因为 $p’$ 在 $l’$ 上,所以显然有:

令$ \mathrm{F} =[e’]_{\times} H_{\pi}$,即得到:

Reference