特異値分解 ― 任意の行列の構造を解き明かす

任意の $m \times n$ 行列 $A$ は $A = U\Sigma V^T$ と分解でき，特異値は行列の「大きさ」を完全に特徴づける（特異値分解）。本記事では存在定理の完全な証明を与え，低ランク近似，擬似逆行列，主成分分析，条件数への応用を解説する。

Folio公式

2026年3月24日

1. 動機 — 正方でない行列の構造

前章までに，対称行列のスペクトル定理を学んだ。対称行列 $A \in M_{n} (R)$ は直交行列 $P$ を用いて $A = P D P^{T}$ と対角化でき，固有値がその行列の本質的な構造を記述することを見た。

しかし，この理論は正方行列に限定される。実際の応用では， $m \times n$ 行列（ $m \neq = n$ ）が自然に現れる。例えば， $m$ 個のデータ点を $n$ 個の特徴量で記述するデータ行列は $m \times n$ 行列であり，線形写像 $T : R^{n} \to R^{m}$ の表現行列も一般には正方でない。このような行列に対しては固有値の概念がそもそも定義されず，スペクトル定理をそのまま適用することはできない。

本章の主役である特異値分解（singular value decomposition, SVD）は，この制約を取り払う。任意の $m \times n$ 実行列 $A$ に対して，直交行列 $U$ , $V$ と「対角行列」 $Σ$ を用いた分解 $A = U Σ V^{T}$ が存在することを証明する。

鍵となる着想は次の観察である： $A$ が正方でなくとも，積 $A^{T} A$ は $n \times n$ の対称行列であり， $A A^{T}$ は $m \times m$ の対称行列である。これらにスペクトル定理を適用することで， $A$ 自身の構造を明らかにできる。

2. 特異値の定義

補題 1 (

A^{T} A

の半正定値性).

任意の

A \in M_{m \times n} (R)

に対し，

A^{T} A

は半正定値対称行列である。

証明.

対称性は

(A^{T} A)^{T} = A^{T} (A^{T})^{T} = A^{T} A

より明らか。半正定値性を示す。任意の

x \in R^{n}

に対し，

x^{T} (A^{T} A) x = (A x)^{T} (A x) = ∥ A x ∥^{2} \geq 0.

よって

A^{T} A

は半正定値である。 □

注意 1.

同様に，

A A^{T}

も

m \times m

の半正定値対称行列である。証明は

y^{T} (A A^{T}) y = ∥ A^{T} y ∥^{2} \geq 0

による。

定義 2 (特異値).

A \in M_{m \times n} (R)

とする。

A^{T} A

の固有値を

λ_{1} \geq λ_{2} \geq \dots \geq λ_{n} \geq 0

とするとき，

σ_{i} = λ_{i} (i = 1, 2, \dots, n)

を

A

の特異値（singular values）という。

σ_{1} \geq σ_{2} \geq \dots \geq σ_{n} \geq 0

と降順に並べる。

補題 4 (

A^{T} A

と

A A^{T}

の非零固有値の一致).

A \in M_{m \times n} (R)

とする。

A^{T} A

と

A A^{T}

は同じ非零固有値を（重複度を込めて）持つ。

証明.

λ \neq = 0

を

A^{T} A

の固有値とし，

A^{T} A v = λ v

（

v \neq = 0

）とする。

u = A v

とおくと，

λ \neq = 0

かつ

∥ u ∥^{2} = v^{T} A^{T} A v = λ ∥ v ∥^{2} \neq = 0

より

u \neq = 0

である。このとき

A A^{T} u = A A^{T} (A v) = A (A^{T} A v) = A (λ v) = λ (A v) = λ u .

よって

λ

は

A A^{T}

の固有値でもある。逆も同様に，

A A^{T} u = λ u

（

λ \neq = 0

）なら

v = A^{T} u \neq = 0

が

A^{T} A v = λ v

を満たす。重複度の一致は，この対応が固有空間の間の線形同型を与えることから従う。 □

例 3.

A = 101110

とする。

A^{T} A = (110110) 101110 = (2112) .

固有方程式

det (A^{T} A - λ I) = (λ - 2)^{2} - 1 = λ^{2} - 4 λ + 3 = (λ - 3) (λ - 1) = 0

より

λ_{1} = 3

λ_{2} = 1

。したがって特異値は

σ_{1} = 3

σ_{2} = 1

である。

3. 特異値分解の存在定理

定理 6 (特異値分解).

任意の

A \in M_{m \times n} (R)

に対し，

m \times m

直交行列

U

，

n \times n

直交行列

V

，および

m \times n

行列

Σ

が存在して

A = U Σ V^{T}

が成り立つ。ここで

Σ

は，対角成分に

A

の特異値

σ_{1} \geq σ_{2} \geq \dots \geq σ_{r} > 0

（

r = rank A

）を持ち，他の成分はすべて

0

の行列である：

Σ = σ_{1} 0 ⋮ 0 σ_{2} \dots \dots ⋱ 00 σ_{r} 0 ⋮ 0 \dots \dots \dots \dots \dots 00 ⋮ 00 ⋮ 0 .

V

の列ベクトル

v_{1}, \dots, v_{n}

を右特異ベクトル（right singular vectors），

U

の列ベクトル

u_{1}, \dots, u_{m}

を左特異ベクトル（left singular vectors）という。

証明.

A

のランクを

r

とする。

Step 1: 右特異ベクトルの構成。

A^{T} A

は

n \times n

半正定値対称行列であるから，スペクトル定理より，正規直交固有ベクトル

v_{1}, \dots, v_{n} \in R^{n}

と非負固有値

λ_{1} \geq \dots \geq λ_{n} \geq 0

が存在して

A^{T} A v_{i} = λ_{i} v_{i} (i = 1, \dots, n)

が成り立つ。

σ_{i} = λ_{i}

とおく。

rank (A^{T} A) = rank A = r

であることを示す。

A^{T} A x = 0

ならば

∥ A x ∥^{2} = x^{T} A^{T} A x = 0

より

A x = 0

であるから，

ker (A^{T} A) = ker A

。よって

rank (A^{T} A) = n - dim ker (A^{T} A) = n - dim ker A = rank A = r

。

したがって，

λ_{1} \geq \dots \geq λ_{r} > 0

かつ

λ_{r + 1} = \dots = λ_{n} = 0

，すなわち

σ_{1} \geq \dots \geq σ_{r} > 0

かつ

σ_{r + 1} = \dots = σ_{n} = 0

である。

V = (v_{1} ∣ \dots ∣ v_{n})

とおくと，

V

は直交行列である。

Step 2: 左特異ベクトルの構成。

i = 1, \dots, r

に対し

u_{i} = \frac{1}{σ _{i}} A v_{i}

と定める。

u_{1}, \dots, u_{r}

が

R^{m}

の正規直交系であることを確かめる：

u_{i}^{T} u_{j} = \frac{1}{σ _{i} σ _{j}} v_{i}^{T} A^{T} A v_{j} = \frac{1}{σ _{i} σ _{j}} v_{i}^{T} (λ_{j} v_{j}) = \frac{λ _{j}}{σ _{i} σ _{j}} δ_{ij} = \frac{σ _{j}^{2}}{σ _{i} σ _{j}} δ_{ij} = δ_{ij} .

r < m

の場合，

u_{1}, \dots, u_{r}

を

R^{m}

の正規直交基底に拡張して

u_{r + 1}, \dots, u_{m}

を得る（Gram–Schmidt の直交化法による）。

U = (u_{1} ∣ \dots ∣ u_{m})

とおくと，

U

は

m \times m

直交行列である。

Step 3: $A = U Σ V^{T}$ の検証。

A v_{i} = σ_{i} u_{i}

（

i = 1, \dots, r

）が定義から成り立つ。

i = r + 1, \dots, n

のとき，

v_{i} \in ker (A^{T} A) = ker A

より

A v_{i} = 0

である。

V

は直交行列なので

{v_{1}, \dots, v_{n}}

は

R^{n}

の正規直交基底であり，任意の

x \in R^{n}

は

x = \sum_{i = 1}^{n} (v_{i}^{T} x) v_{i}

と展開される。したがって

A x = i = 1 \sum n (v_{i}^{T} x) A v_{i} = i = 1 \sum r σ_{i} (v_{i}^{T} x) u_{i} .

これは行列の形で

A V = U Σ

，すなわち

A = U Σ V^{T}

を意味する。各列について確認すると，

U Σ

の第

i

列は

i \leq r

のとき

σ_{i} u_{i}

，

i > r

のとき

0

であり，

(U Σ V^{T}) v_{i} = (U Σ) e_{i}

がこの値に一致する。 □

注意 4.

SVD は外積展開の形でも表せる：

A = i = 1 \sum r σ_{i} u_{i} v_{i}^{T} .

各

u_{i} v_{i}^{T}

はランク

1

の行列であり，SVD は

A

をランク

1

行列の重み付き和として表す分解である。

注意 5.

SVD の一意性について：特異値

σ_{1} \geq \dots \geq σ_{r} > 0

は

A

から一意に定まる。しかし，特異値に重複がある場合や零特異値に対応する特異ベクトルの選び方には自由度がある。すなわち，

U

と

V

は一般には一意でない。

4. 幾何学的解釈

特異値分解 $A = U Σ V^{T}$ の幾何学的意味を考えよう。

線形写像 $x \mapsto A x$ を $V^{T}$ , $Σ$ , $U$ の3段階に分解する：

$x \mapsto V^{T} x$ ： $R^{n}$ における直交変換（回転または鏡映）。
$V^{T} x \mapsto Σ (V^{T} x)$ ：各座標軸方向への伸縮。第 $i$ 軸は $σ_{i}$ 倍される。
$Σ V^{T} x \mapsto U (Σ V^{T} x)$ ： $R^{m}$ における直交変換。

例 6 (単位球から楕円体へ).

R^{n}

の単位球面

S^{n - 1} = {x \in R^{n} : ∥ x ∥ = 1}

を考える。

V^{T}

は直交変換であるから，

S^{n - 1}

を

S^{n - 1}

に写す。次に

Σ

によって各軸方向に

σ_{i}

倍されるので，像は半軸の長さが

σ_{1}, \dots, σ_{r}

の楕円体（の

R^{m}

への埋め込み）となる。最後に

U

がこの楕円体を回転する。

したがって， $A$ による単位球面の像は楕円体であり，その主軸の方向が左特異ベクトル $u_{1}, \dots, u_{r}$ ，主軸の長さが特異値 $σ_{1}, \dots, σ_{r}$ に対応する。右特異ベクトル

v_{i}

は，楕円体の第

i

主軸方向に写される元の単位球面上の方向を示す。

5. 2×3行列のSVD計算例

例 7 (SVD の計算).

A = (100110) \in M_{2 \times 3} (R)

の特異値分解を求める。

Step 1: $A^{T} A$ の計算。

A^{T} A = 101010 (100110) = 101010101 .

Step 2: 固有値の計算。 固有方程式を計算する。

det (A^{T} A - λ I) = det 1 - λ 01 0 1 - λ 0 10 1 - λ .

第2行で展開すると

(1 - λ) [(1 - λ)^{2} - 1] = (1 - λ) (λ^{2} - 2 λ) = λ (1 - λ) (λ - 2) .

よって

λ_{1} = 2

λ_{2} = 1

λ_{3} = 0

。特異値は

σ_{1} = 2

σ_{2} = 1

。ランクは

r = 2

。

Step 3: 右特異ベクトル $V$ の計算。

λ_{1} = 2

に対する固有ベクトル：

(A^{T} A - 2 I) v = 0

を解く。

- 1 01 0 - 1 0 10 - 1 v = 0 ⟹ v_{1} = \frac{1}{2} 101 .

λ_{2} = 1

に対する固有ベクトル：

(A^{T} A - I) v = 0

を解く。

001000100 v = 0 ⟹ v_{2} = 010 .

λ_{3} = 0

に対する固有ベクトル：

A^{T} A v = 0

，すなわち

ker A

を求める。

v_{3} = \frac{1}{2} - 1 01 .

したがって

V = 1/ 2 0 1/ 2 010 - 1/ 2 0 1/ 2 .

Step 4: 左特異ベクトル $U$ の計算。

u_{1} = \frac{1}{σ _{1}} A v_{1} = \frac{1}{2} (100110) \frac{1}{2} 101 = \frac{1}{2} (20) = (10) .

u_{2} = \frac{1}{σ _{2}} A v_{2} = \frac{1}{1} (100110) 010 = (01) .

U = (1001) = I_{2}

となる。

Step 5: 検証。

U Σ V^{T} = (1001) (200100) 1/ 2 0 - 1/ 2 010 1/ 2 0 1/ 2 .

Σ V^{T}

を計算する。第1行は

(2 / 2, 0, 2 / 2) = (1, 0, 1)

，第2行は

(0, 1, 0)

。したがって

U Σ V^{T} = (100110) = A

。確かに一致する。

6. 低ランク近似

SVD の外積展開 $A = \sum_{i = 1}^{r} σ_{i} u_{i} v_{i}^{T}$ において，最初の $k$ 項だけを取った

A_{k} = i = 1 \sum k σ_{i} u_{i} v_{i}^{T}

を

A

のランク $k$ 切断（truncated SVD）という。

A_{k}

はランクがちょうど

k

（

k \leq r

のとき）の行列であり，

A

の「最良の」ランク

k

近似を与える。

定義 8 (Frobenius ノルム).

行列

B = (b_{ij}) \in M_{m \times n} (R)

のFrobenius ノルム（Frobenius norm）を

∥ B ∥_{F} = i = 1 \sum m j = 1 \sum n b_{ij}^{2} = tr (B^{T} B)

と定義する。

例 9.

B = (1324)

のとき

∥ B ∥_{F} = 1 + 4 + 9 + 16 = 30

である。

補題 13 (Frobenius ノルムと特異値).

A \in M_{m \times n} (R)

の特異値を

σ_{1}, \dots, σ_{r}

（

r = rank A

）とすると

∥ A ∥_{F} = σ_{1}^{2} + σ_{2}^{2} + \dots + σ_{r}^{2} .

証明.

A = U Σ V^{T}

と分解する。

U

V

は直交行列であるから

∥ A ∥_{F}^{2} = tr (A^{T} A) = tr (V Σ^{T} U^{T} U Σ V^{T}) = tr (V Σ^{T} Σ V^{T}) = tr (Σ^{T} Σ V^{T} V) = tr (Σ^{T} Σ) .

最後の等号でトレースの巡回性

tr (X Y) = tr (Y X)

を用いた。

Σ^{T} Σ

は対角行列で対角成分は

σ_{1}^{2}, \dots, σ_{r}^{2}, 0, \dots, 0

であるから，

∥ A ∥_{F}^{2} = \sum_{i = 1}^{r} σ_{i}^{2}

を得る。 □

定理 14 (Eckart–Young の定理).

A \in M_{m \times n} (R)

の特異値分解を

A = \sum_{i = 1}^{r} σ_{i} u_{i} v_{i}^{T}

とし，

k < r

とする。

rank B \leq k

を満たすすべての行列

B \in M_{m \times n} (R)

に対して

∥ A - A_{k} ∥_{F} \leq ∥ A - B ∥_{F}

が成り立つ。すなわち，

A_{k} = \sum_{i = 1}^{k} σ_{i} u_{i} v_{i}^{T}

は Frobenius ノルムに関する最良ランク

k

近似である。さらに，近似誤差は

∥ A - A_{k} ∥_{F} = σ_{k + 1}^{2} + \dots + σ_{r}^{2}

で与えられる。

この定理の証明は本書の範囲を超えるが，核心的なアイデアを述べる。 $A - A_{k} = \sum_{i = k + 1}^{r} σ_{i} u_{i} v_{i}^{T}$ であり，この項たちは互いに直交するから，補題 13 より $∥ A - A_{k} ∥_{F}^{2} = \sum_{i = k + 1}^{r} σ_{i}^{2}$ となる。任意のランク $k$ 行列 $B$ に対しては， $ker B$ の次元が $n - k$ 以上であることと， $v_{1}, \dots, v_{k + 1}$ が張る $k + 1$ 次元空間との交わりを用いて， $∥ A - B ∥_{F}^{2} \geq σ_{k + 1}^{2} + \dots + σ_{r}^{2}$ を示す。

注意 10.

Eckart–Young の定理は画像圧縮の数学的基礎を与える。画像を

m \times n

行列とみなし，

k ≪ r

に対する

A_{k}

を計算すれば，

k (m + n + 1)

個の数値だけで

A

を近似できる。

mn

よりもはるかに少ない記憶容量で済む。

7. 応用 — 擬似逆行列・主成分分析・条件数

特異値分解は，純粋数学から工学・データ科学に至るまで幅広い応用を持つ。ここでは主要なものを概説する。

7.1. 擬似逆行列

$A = U Σ V^{T}$ のとき， $Σ$ の非零対角成分の逆数を取り $0$ はそのまま残した行列を $Σ^{+}$ と書くと，

A^{+} = V Σ^{+} U^{T}

は

A

のMoore–Penrose 擬似逆行列（pseudoinverse）を与える。

A

が正則な正方行列のとき

A^{+} = A^{- 1}

に一致し，一般には連立方程式

A x = b

の最小二乗解

x^{*} = A^{+} b

を計算するのに用いられる。

7.2. 主成分分析

主成分分析（principal component analysis, PCA）は，高次元データの次元削減手法であり，その本質は SVD に基づく。中心化されたデータ行列 $X \in M_{m \times n} (R)$ （ $m$ 個のデータ， $n$ 個の特徴量）に対し， $X = U Σ V^{T}$ の右特異ベクトル $v_{1}, \dots, v_{k}$ への射影がデータの分散を最大化する $k$ 次元部分空間への射影を与える。

7.3. 条件数

行列 $A$ の条件数（condition number）は

κ (A) = \frac{σ _{1}}{σ _{r}}

で定義される（

A

がランク

r

のとき）。条件数が大きいほど，連立方程式

A x = b

は入力の微小な変動に対して解が大きく変化する（数値的に不安定）。

κ (A) = 1

は直交行列のときに限り達成される。

8. 行列のノルムと特異値

定義 11 (作用素ノルム).

A \in M_{m \times n} (R)

の作用素ノルム（operator norm）を

∥ A ∥ = x \neq = 0 max \frac{∥ A x ∥}{∥ x ∥} = ∥ x ∥ = 1 max ∥ A x ∥

と定義する。ここで

∥ \cdot ∥

はユークリッドノルムである。

例 12.

A = (3002)

のとき，

∥ A x ∥

は

x = e_{1}

で最大値

3

をとるから

∥ A ∥ = 3

である。

定理 18 (作用素ノルムと最大特異値).

A \in M_{m \times n} (R)

に対し

∥ A ∥ = σ_{1} .

すなわち，作用素ノルムは最大特異値に等しい。

証明.

A = U Σ V^{T}

とする。

U

V

は直交行列であるから，

∥ U y ∥ = ∥ y ∥

がすべての

y

に対して成り立つ。したがって

∥ A x ∥ = ∥ U Σ V^{T} x ∥ = ∥Σ V^{T} x ∥ = ∥Σ z ∥

ここで

z = V^{T} x

とおいた。

V

は直交行列なので

∥ z ∥ = ∥ x ∥

。よって

∥ A ∥ = ∥ z ∥ = 1 max ∥Σ z ∥.

z = (z_{1}, \dots, z_{n})^{T}

とすると

∥Σ z ∥^{2} = i = 1 \sum r σ_{i}^{2} z_{i}^{2} \leq σ_{1}^{2} i = 1 \sum r z_{i}^{2} \leq σ_{1}^{2} ∥ z ∥^{2} = σ_{1}^{2} .

等号は

z = e_{1}

のとき成立する。よって

∥ A ∥ = σ_{1}

。 □

注意 13.

以上をまとめると，特異値分解は次の形で行列のノルムを完全に記述する：

作用素ノルム: $∥ A ∥ = σ_{1}$ （最大特異値）。
Frobenius ノルム: $∥ A ∥_{F} = σ_{1}^{2} + \dots + σ_{r}^{2}$ （特異値の二乗和の平方根）。

特に，

A

が直交行列のとき

σ_{i} = 1

（

i = 1, \dots, n

）であるから

∥ A ∥ = 1

∥ A ∥_{F} = n

となる。

まとめ

本章では，任意の $m \times n$ 行列に対して成り立つ特異値分解 $A = U Σ V^{T}$ を導入した。

特異値は $A^{T} A$ の固有値の平方根として定義され， $A$ の幾何学的性質を反映する。
SVD は「回転・伸縮・回転」の合成として線形写像を分解する。
Eckart–Young の定理により，切断 SVD は最良のランク $k$ 近似を与える。
作用素ノルム・Frobenius ノルムはいずれも特異値で記述される。
擬似逆行列，主成分分析，条件数など，多岐にわたる応用の理論的基盤を提供する。

スペクトル定理が対称行列の構造を固有値で完全に記述したように，SVD は正方とは限らない一般の行列の構造を特異値で記述する。次章では，この道具を用いてさらに進んだ話題を扱う。

線形代数代数学教科書特異値分解 SVD 行列分解

Folio公式

数学の「教科書が書かない行間」をLaTeXで．Folio公式アカウントです．

0 フォロワー·107 記事

特異値分解 ― 任意の行列の構造を解き明かす

1. 動機 — 正方でない行列の構造

2. 特異値の定義

3. 特異値分解の存在定理

4. 幾何学的解釈

5. 2×3行列のSVD計算例

6. 低ランク近似

7. 応用 — 擬似逆行列・主成分分析・条件数

7.1. 擬似逆行列

7.2. 主成分分析

7.3. 条件数

8. 行列のノルムと特異値

まとめ

あなたの専門知識を世界に発信しよう

Folio公式の他の記事

Jordan標準形 ― 対角化の先にある標準形

線形独立・基底・次元 ― ベクトル空間の骨格

行列式 ― 正方行列に定まるスカラー量

「次元」とは結局なにか ― 自由度の正体