本稿は、E資格の受験資格の取得を目的としたラビットチャレンジの受講に伴うレポート記事である。
$\mathbb{R}$の要素をスカラーという。
任意の$n$ $\in$ $\mathbb{N}$ に対して、$n$個の数$x_{i}$ ($i$=1,2,$\cdots$,$n$)を縦に並べた$\boldsymbol{x}$を$n$次元ベクトルという。
\begin{align}
\boldsymbol{x}
= \begin{pmatrix}
x_{1} \\
x_{2}\\
\vdots \\
x_{n}
\end{pmatrix}
\end{align}
任意の$m$,$n$ $\in$ $\mathbb{N}$ に対して、$mn$個の数$a_{i,j}$ (ここで$i$=1,2,$\cdots$,$m$, $j$=1,2,$\cdots$,$n$)を以下のように並べた$A$を$m \times n$行列という。
\begin{align}
A
= \begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{pmatrix}
\end{align}
特に$m=n$のとき、$n$次正方行列という。
対角成分がすべて$1$、ほかの成分が$0$の正方行列$E$を単位行列という。
\begin{align}
E
= \begin{pmatrix}
1 & 0 & \cdots & 0 \\
0 & 1 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & 1
\end{pmatrix}
\end{align}
ある正方行列$A$に対して、以下のように$A$との積が単位行列$E$となるような行列$A^{-1}$を逆行列という。
\begin{align}
AA^{-1} = A^{-1}A = E
\end{align}
正方行列$A$に対する行列式は$\det{A}$や$|A|$と表記がよく用いられる。
計算方法として代表的なものとして余因子展開があり、2次正方行列の行列式と3次正方行列の行列式は以下のような形になる。
\begin{align}
\det\begin{pmatrix}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{pmatrix}
&= a_{11} a_{22} - a_{12}a_{21} \\
\det\begin{pmatrix}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}\\
a_{31} & a_{32} & a_{33}
\end{pmatrix}
&= a_{11}a_{22}a_{33} +a_{12}a_{23}a_{31} +a_{13}a_{21}a_{32}
-a_{11}a_{23}a_{32} - a_{12}a_{21}a_{33} - a_{13}a_{22}a_{31}
\end{align}
なお、正方行列$A$が逆行列を持つ必要十分条件は、$\det A \neq 0$が成り立つことである。
正方行列$A$に対して以下を満たすスカラー$\lambda$を固有値、ベクトル$\boldsymbol{v}$($\neq\boldsymbol{0}$)を固有ベクトルという。
\begin{align} A\boldsymbol{v} = \lambda\boldsymbol{v} \end{align}
$n$次正方行列$A$の固有値・固有ベクトルの存在する(ただし、値の重複は認め、複素数の場合もある)と仮定する。
$n$次正方行列$A$の固有値$\lambda_{1}$, $\cdots$ ,$\lambda_{n}$を対角成分に持ち、対角成分以外は0となる行列$\Lambda$と、対応する固有ベクトルを並べた行列$V$が以下の通り表される。
\begin{align}
\Lambda
&= \begin{pmatrix}
\lambda_{1} & & & \\
& \lambda_{2} & & \\
& &\ddots & \\
& & & \lambda_{n}
\end{pmatrix} \\
V
&= \begin{pmatrix}
\boldsymbol{v}_{1} & \boldsymbol{v}_{2} & \cdots & \boldsymbol{v}_{n}
\end{pmatrix}
\end{align}
これに対して、以下が成り立つ。
\begin{align}
A
= V \Lambda V^{-1}
\end{align}
これを行列$A$の固有値分解という。
$m \times n$行列$M$($m \ge n$)に対して、以下を満たす非負の実数$\sigma$を特異値、単位ベクトル$\boldsymbol{u}$を左特異ベクトル、$\boldsymbol{v}$を右特異ベクトルという。
ここで$M^{T}$は$M$の転置行列である。
\begin{align} M \boldsymbol{u} &= \sigma\boldsymbol{u} \\ M^{T} \boldsymbol{v} &= \sigma\boldsymbol{v} \end{align}
ここでは$m \times n$行列$M$($m \ge n$、$rank M$=$r$)の特異値・特異ベクトルの存在を仮定する。
行列$M$の特異値$\sigma_{1}$, $\cdots$ ,$\sigma_{r}$を対角成分に持ち、他の成分が$0$となる対角行列
\begin{align}
\Sigma
= \begin{pmatrix}
\sigma_{1} & & & \\
& \sigma_{2} & & \\
& &\ddots & \\
& & & \sigma_{r}
\end{pmatrix}
\end{align}
と対応する左特異ベクトルを並べた以下の行列
\begin{align}
U
= \begin{pmatrix}
\boldsymbol{u}_{1} & \boldsymbol{u}_{2} & \cdots & \boldsymbol{u}_{r}
\end{pmatrix}
\end{align}
および、右特異ベクトルを並べた以下の行列
\begin{align}
V
= \begin{pmatrix}
\boldsymbol{v}_{1} & \boldsymbol{v}_{2} & \cdots & \boldsymbol{v}_{r}
\end{pmatrix}
\end{align}
を定義する。
これに対して、以下が成り立つ。
\begin{align}
M
= U\Sigma V^{T}
\end{align}
これを行列$M$の特異値分解という。
事象$B$が起こったという条件のもとで、事象$A$が起こる確率を$P(A|B)$で表し、
\begin{align} P(A|B)=\frac{P(A \cap B)}{P(B)} \end{align}
で定義する。ただし$P(B)≠0$。これを事象$B$のもとでの事象$A$の条件付き確率という。
事象$A$、$B$について、
\begin{align}
P(A \cap B)
= P(A)P(B)
\end{align}
が成り立つとき、$A$と$B$は独立であるという。
$U$を標本空間、$B_{1}$、$B_{2}$を$U$の事象とし、$U = B_{1} \cup B_{2}(B_{1} \cap B_{2} = \emptyset)$と仮定する。
このとき、事象$A$について以下の式が成立する。
\begin{align}
P(B_{1}|A)
= \frac{P(A|B_{1})P(B_{1})}{P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})}
\end{align}
ただし、$P(A) \neq 0, P(B_{1}) \neq 0, P(B_{2}) \neq 0$とする。
これをベイズの定理という。
試行の根元事象により値が定まる変数$X$を確率変数といい、特に値を連続的には取らない確率変数を離散的な確率変数、連続的に値を取る確率変数を連続的な確率変数という。
離散的な確率変数$X$について、
\begin{align}
f(x_{i})
= P(X=x_{i}) \ (i=1,2,\cdots,n)
\end{align}
により定まる関数$f$を確率変数$X$の確率分布という。
連続的な確率変数$X$が、任意の実数$a$、$b$($a< b$)に対して、
\begin{align}
P(a < X \le b)
= \int_a^b f(x)dx
\end{align}
となるような関数$f$を持つとき、$f$を確率変数$X$の確率密度関数といい、$X$は確率分布$f$に従うという。
(注:測度を用いた論理展開という意味では、積分値は必ず定まるかが最初のポイントになる。もし、定まることが示せたのであれば、$b = a + t$とおいて、$P(a < x < a+t)/t$を$t \to 0$とすることより、確率密度関数$f(a)$を定義する。すなわち、確率密度関数は積分の結果に対して積分をすることで求められる)
離散的な確率変数$X$の確率分布を$f$とするとき、
\begin{align}
E[X]
= \sum_{i=1}^{n}x_{i} f(x_{i})
\end{align}
を$X$の期待値という。
連続的な確率変数$X$の確率密度関数を$f$とするとき、
\begin{align}
E[X]
= \int_{-\infty}^{\infty} xf(x) dx
\end{align}
を$X$の期待値という。
確率変数$X$に対して、
\begin{align}
V[X]
= E[(X - E(X))^{2}]
\end{align}
を$X$の分散という。
式変形すると、以下が成り立つこともわかる。
\begin{align}
V[X]
= E[X^{2}] - E[X]^{2}
\end{align}
また、分散の平方根
\begin{align}
\sigma
= \sqrt{V[X]}
\end{align}
を$X$の標準偏差という。
2つの確率変数$X$、$Y$に対して、
\begin{align}
\operatorname{Cov}[X,Y]
= E[(X - E[X])(Y - E[Y])]
\end{align}
を$X$と$Y$の共分散という。
式変形をすることで、以下が成り立つことがわかる。
\begin{align}
\operatorname{Cov}[X,Y]
= E[XY] - E[X]E[Y]
\end{align}
事象$A$の起こる確率が$P(A)$であるとき、事象$A$が起こることの自己情報量は以下によって定義される。
\begin{align}
I(A) = -\log P(A)
\end{align}
注:公理に基づいて導出されるものであるがゆえ、扱う対象によって底の値が異なることに注意する。
本稿では底を記載しないが、状況に応じていくつを用いるかは確認すること。
離散的な確率変数$X$において、$p(x)=P(X=x)$としたとき、以下の式を$X$のシャノンエントロピーという。
\begin{align}
H(X)
= -\sum_{x}p(x)\log p(x)
\end{align}
連続的な確率変数$X$の場合、確率密度関数$p(x)$をもつとすると、シャノンエントロピーは以下のように定義される。
\begin{align}
H(X)
= -\int p(x) \log p(x)dx
\end{align}
コメント:テキスト53ページに「微分してるわけではない」とあるが、シャノンエントロピーは確率密度導関数の導出のアナロジーとして、分位点関数を微分した値の積分で求められる量が定義となっている(確率密度関数が明示的に表せる場合は上記の通り表すことができるのは、この帰結として言えることである)。
確率密度関数が明示的にわからなくても(測度論の観点からwell-definedに)定義でき、離散における性質を比較的継承しているのが特徴である。
$P$と$Q$を確率変数$X$の確率とする。
$X$が離散型の場合、$p(x)=P(X=x)$、$q(x)=Q(X=x)$としたとき、カルバック・ライブラーダイバージェンスは以下のように定義される。
\begin{align}
D_{KL}(P|Q)
= \sum_{x} p(x) \log\frac{p(x)}{q(x)}
\end{align}
$X$が連続型の場合、$P$のもとでの確率密度関数を$p(x)$、$Q$のもとでの確率密度関数を$q(x)$としたとき、カルバック・ライブラーダイバージェンスは以下のように定義される。
\begin{align} D_{KL}(P|Q) = \int p(x) \log\frac{p(x)}{q(x)}dx \end{align}
$P$と$Q$を確率変数$X$の確率とする。
$X$が離散型の場合、$p(x)=P(X=x)$、$q(x)=Q(X=x)$としたとき、交差エントロピーは以下のように定義される。
\begin{align}
H(P, Q)
= \sum_{x} p(x) \log q(x)
\end{align}
$X$が連続型の場合、$P$のもとでの確率密度関数を$p(x)$、$Q$のもとでの確率密度関数を$q(x)$としたとき、交差エントロピーは以下のように定義される。
\begin{align}
H(P,Q)
= \int p(x) \log q(x)dx
\end{align}
$P$のシャノンエントロピーを$H(P)$とすると、交差エントロピーはカルバック・ライブラーダイバージェンスを用いて以下のように表現できる。
\begin{align}
H(P,Q) = H(P) + D_{KL}(P|Q)
\end{align}