シューア補行列
$A \in \mathbb{C}^{n \times n}, $ $B \in \mathbb{C}^{n \times m}, $ $C \in \mathbb{C}^{m \times n}, $ $D \in \mathbb{C}^{m \times m}, $ $M = \begin{pmatrix} A & B \\ C & D \end{pmatrix}$ とする。このとき、
- $D$ が正則ならば $M$ は $(1)$ のようにブロック UDL 分解できる。ただし $S_D \equiv A - BD^{-1}C$ とする。さらに $S_D$ も正則ならば $M$ も正則であり $M^{-1}$ は $(2)$ の行列積でかける[注釈1]。
$$ M = \begin{pmatrix} I & BD^{-1} \\ O & I \end{pmatrix} \begin{pmatrix} S_D & O \\ O & D \end{pmatrix} \begin{pmatrix} I & O \\ D^{-1}C & I \end{pmatrix} \tag{1} $$ $$ M^{-1} = \begin{pmatrix} I & O \\ -D^{-1}C & I \end{pmatrix} \begin{pmatrix} S_D^{-1} & O \\ O & D^{-1} \end{pmatrix} \begin{pmatrix} I & -BD^{-1} \\ O & I \end{pmatrix} \tag{2} $$
- $A$ が正則ならば $M$ は $(3)$ のようにブロック LDU 分解できる。ただし $S_A \equiv D - CA^{-1}B$ とする。さらに $S_A$ も正則ならば $M$ も正則であり $M^{-1}$ は $(4)$ の行列積でかける[注釈2]。
$$ M = \begin{pmatrix} I & O \\ CA^{-1} & I \end{pmatrix} \begin{pmatrix} A & O \\ O & S_A \end{pmatrix} \begin{pmatrix} I & A^{-1}B \\ O & I \end{pmatrix} \tag{3} $$ $$ M^{-1} = \begin{pmatrix} I & -A^{-1}B \\ O & I \end{pmatrix} \begin{pmatrix} A^{-1} & O \\ O & S_A^{-1} \end{pmatrix} \begin{pmatrix} I & O \\ -CA^{-1} & I \end{pmatrix} \tag{4} $$
さらに $D, \; S_D, \; A, \; S_A$ が全て正則なとき、$(2), (4)$ の左上 $n \times n$ ブロックの比較から以下が成り立ち、これを Sherman-Morrison-Woodbury の公式という。
参考文献
- Sherman-Morrison-Woodburyの公式 (Schur補行列) - いんふらけいようじょのえにっき
- Sherman-Morrison-Woodbury の公式の証明があり、本記事の証明はこの文献の証明と全く同じである。文字の定義は多少異なる。
- C. M. ビショップ. パターン認識と機械学習 上. 丸善出版, 2012.[amazon.co.jp]
- 82ページ(初版第5刷)に「2.3.1 条件付きガウス分布」がある。
- 雑記: 分散共分散行列のベイズ更新の話 - クッキーの日記
- Christopher Williams, Matthias Seeger. Using the Nyström Method to Speed Up Kernel Machines. In NIPS 2000.[link]
- グラム行列の Nyström 近似の原論文である。
- Schur complement - Wikipedia
- 英語版 Wikipedia のシューア補行列の記事である。
- シューア補行列 - Wikipedia
- 日本語版 Wikipedia のシューア補行列の記事である。
線形ガウスモデルのベイズ推定におけるシューア補行列
ベイズ推定では観測 $y$ を得た下での状態 $x$ の事後共分散に興味がある。状態 $x$ の事後共分散とは、状態 $x$ と観測 $y$ の同時分布の $y$ を固定して $x$ の共分散のみを取り出したものといえる。$x \in \mathbb{R}^n$ と $y \in \mathbb{R}^m$ の同時分布が多変量正規分布にしたがう場合、同時密度関数は以下のようになる。
具体的に、カルマンフィルタの状況を考える。$x \in \mathbb{R}^n$ を $\mathcal{N}(0, V)$ にしたがう状態、$w \in \mathbb{R}^m$ を $\mathcal{N}(0, R)$ にしたがう状態と独立なノイズ、$H \in \mathbb{R}^{m \times n}$ を観測行列、$y = H x + w$ を観測とする。このときある $y$ を観測した下での $x$ の事後共分散行列を知りたい。$x$ と $y$ の同時密度関数を計算すると以下のようになる [3]。
グラム行列の Nyström 近似におけるシューア補行列
グラム行列 $K^{(n+m)}$ の左上 $n \times n$ ブロックに関するシューア補行列が、グラム行列の Nyström 近似 $\tilde{K}^{(n+m,n)}$ の右下 $m \times m$ ブロックの近似誤差になっている [4]。
グラム行列 $K^{(n+m)}$ の左上 $n \times n$ ブロックに関するシューア補行列とは、ベイズ推定風に解釈すれば、「仮に $n+m$ 個のデータの分散共分散行列がグラム行列 $K^{(n+m)}$ そのものであったときに、最初の $n$ 個のデータを観測した下での残り $m$ 個のデータの分散共分散行列」といえる。実際、最初の $n$ 個のデータで残り $m$ 個のデータの不確かさ・依存関係が完全に特定できていれば零行列になるはずだし、最初の $n$ 個のデータと残り $m$ 個のデータの内積がゼロであれば(最初の $n$ 個のデータから残り $m$ 個のデータの情報を少しも特定できない状況) $D$ に等しくなるはずである。
結局ベイズ推定でもグラム行列の Nyström 近似でも、シューア補行列とは「一部をみて残りを推定(近似)しようとしたときに残る不確かさ」といえるだろう。
注釈
- $M$ を UDL 分解するには以下を $M$ の区分けと比較し $X, Y, Z, W$ を求める。
$$ M = \begin{pmatrix} I & Z \\ O & I \end{pmatrix} \begin{pmatrix} X & O \\ O & Y \end{pmatrix} \begin{pmatrix} I & O \\ W & I \end{pmatrix} = \begin{pmatrix} I & Z \\ O & I \end{pmatrix} \begin{pmatrix} X & O \\ YW & Y \end{pmatrix} = \begin{pmatrix} X + ZYW & ZY \\ YW & Y \end{pmatrix} $$$M$ の逆行列を得るには以下を利用する。$$ \begin{pmatrix} I & Z \\ O & I \end{pmatrix}^{-1} = \begin{pmatrix} I & -Z \\ O & I \end{pmatrix}, \; \begin{pmatrix} X & O \\ O & Y \end{pmatrix}^{-1} = \begin{pmatrix} X^{-1} & O \\ O & Y^{-1} \end{pmatrix}, \; \begin{pmatrix} I & O \\ W & I \end{pmatrix}^{-1} = \begin{pmatrix} I & O \\ -W & I \end{pmatrix} $$
- $M$ を LDU 分解するには以下を $M$ の区分けと比較する。[注釈1] の $X, Y, Z, W$ とは異なる。
$$ M = \begin{pmatrix} I & O \\ W & I \end{pmatrix} \begin{pmatrix} X & O \\ O & Y \end{pmatrix} \begin{pmatrix} I & Z \\ O & I \end{pmatrix} = \begin{pmatrix} I & O \\ W & I \end{pmatrix} \begin{pmatrix} X & XZ \\ O & Y \end{pmatrix} = \begin{pmatrix} X & XZ \\ WX & WXZ + Y \end{pmatrix} $$$M$ の逆行列を得るには [注釈1] と同様である。