0

順序統計量に関しての備忘録

69
0
$$$$

はじめに

本稿はあまり説明風を装っていますが,自分の学習の備忘録ってだけです.もしかしたらほかの方から見たらわかりにくいかもしれません.内容はタイトルの通り順序統計量に関してなのですが,やってる感じすぐ忘れそうなのと,勉強したノートは捨てちゃうという学習スタイルのため,一応記録を知った次第です.一応サブの目的として順序統計量について理解できたのなら望外の喜びです.

順序統計量

順序統計量

$X_1,X_2,...X_n$を確率分布$P$からのランダム・サンプル, i.e. $X_1,X_2,...X_n, i.i.d. \sim P$とする.小さい順に並び変えたものを$X_{(1)} \leq X_{(2)} \leq \dotsb X_{(n)}$で表し,順序統計量という.

はい.初出段階で何がやりたいかはわかりませんが,まぁ推定とか検定論とかのどっかで使うんでしょう.そんなことが教科書に書いてあったと思います.とりあえずここは気にしません.ただ私はこれを始めてみたとき,確率変数は写像なのに,それの大小関係を比較するってどういうことなんだ?と思いましたけどこれ何なんですかね.実現値とどう区別しているのかは筆者の頭ではわかりませんでした.ですがこれもまだ問題にはぶち当たっていないのでいったんスルーとします.
問題は次です.

順序統計量の分布関数(離散確率変数ver.)

$X_{j}$の分布関数は次で与えられる.
\begin{equation} P(X_{(j)} \leq x_i) = \displaystyle \sum_{j \leq k\leq n} \begin{pmatrix} n \\ k \end{pmatrix} P_i ^k (1-P_i)^k \end{equation}

最初見たとき,2項分布と絡む理由はわかったのですが,いまいちそこで止まっていてなんか微妙な感覚でした.ですが原理はそこまで難しくないんですよね.証明を見るより例で考えたほうが圧倒的に楽ですねこれは.そもそも証明だと一般化の影響で$X_i$$X_{(i)}$をある程度区別しなければならないのですが,初学の時はこれもちょっと難しくないですかね.筆者はそこを勘違いしててどん詰まりしてしまいました.
何はともあれ例を見ていきましょう.

いつものサイコロ

サイコロを5回振って,$X_1,X_2,X_3,X_4,X_5$をそれぞれ1回目,2回目,...5回目での出目とします.例えばこれらが順番に1,3,5,1,2とかであれば$X_{(1)}=X_{(2)}=1,X_{(3)}=2,X_{(4)}=3,X_{(5)}=5$となりますね.これはまぁ大丈夫でしょう.それでは,もう一度分布関数へ立ち返ってみて,例えば$X_{(3)} \leq 4$となる確率はどれほどなのでしょうか.これは,高校生でも解くことはできそうですね.$X_{(3)} \leq 4$なら少なくとも$X_{(1)} \leq X_{(2)} \leq X_{(3)} \leq 4$が成立するわけですから,5回中少なくとも3回が$\dfrac{4}{6}$の確率を引き当てるという確率となるわけです.中学高校では,こういった少なくとも~系は余事象を用いよといわれたと思いますが,今回はあえて総なめで足し合わせるという形をとっていこうと思います.すると,今回求める確率というのは,
(求確率) = (5回中3回4以下のPr.) + (5回中4回4以下のPr.) + (5回中5回4以下のPr.)
となって,結局,
\begin{equation} P(X_{(3)} \leq 4) = \displaystyle \sum_{3 \leq k\leq 5} \begin{pmatrix} 5 \\ 3 \end{pmatrix} \bigg \lparen \dfrac{2}{3} \bigg \rparen ^k \bigg \lparen \dfrac{1}{3} \bigg \rparen^k \end{equation}
を得る

となりましたが,気が付きましたでしょうか.これは先ほど挙げた定義をカスタマイズしたものとなっています.というか私は上をコピペして数値を変えただけです.これを一般化してあげれば,上の定義がおのずと出てくると思います.一般化の仕事はもしわからなくなったら未来の筆者に任せます.

諸性質

順序統計量の確率密度関数(PDF)

$X_{(j)}$のPDFは下のようになる.
$f_{X(j)}(x) = \dfrac{n!}{(j-1)!(n-j)!}F(x)^{j-1}f(x)(1-F(x))^{n-j} $

コメント
これはいわゆる三項分布と呼ばれるもので,$X_{(j)}$$j$番目ですから,その前には$(j-1)$個あって,$X_{(j)}$が1個あって,そのあとに$(n-j)$個あるのでこんな感じになります.だから意味的に忠実に書くと係数の分母は$(j-1)!1!(n-j)!$ですね.

指数分布における最小統計量

$X_{(1)},...X_{(n)}, i.i.d. \sim \mathrm{Exp}(\lambda)$とする.このとき,最小順序統計量$X_{(1)} $$ \mathrm{Exp}(n\lambda)$に従う.

(めっちゃ簡潔)

PDFを上の形式に従って丁寧に計算してあげて
$f_{X(1)}(x) = n\lambda e^{-\lambda x}(1-(1-e^{\lambda x}))^{n-1} = (n\lambda)e^{-(n\lambda)}$
より示せた.

コメント
これは定性的に考えてみれば以下のように解釈できます.
指数分布というのは,製品の初めに壊れる時間が従う,いわゆる待ち時間分布でありますね.
$X_{(1)}$というのはまさにこれを指していて,例えば100個のマシンの寿命が平均1000時間の指数分布に従うとすれば,指数分布の無記憶性から$\dfrac{1000}{100}$となりますね.少なくとも初めのやつは.そして2個目からは$\dfrac{1000}{99}$っていう感じになります.指数分布は再生性を持っているので,結局期待値が$n\lambda^{-1}$の指数分布となって上のようになるというわけです.

一様分布の順序統計量はベータ分布に従う

$X_1,...X_n, i.i.d. \sim U[0,1]$とする.このとき,$X_{(k)}$のPDF$f_{X_{(k)}}(x)$は下のようになる.
\begin{equation} f_{X_{(k)}}(x) = \dfrac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k} \end{equation}

実際,公式1にて$f(x) = 1, F(x) = x$ を代入すればこれを得る.これは一様分布の順序統計量がベータ分布($ X_{(k)} \sim Beta(k,n-k+1)$)へ従うことを示唆している.

コメント
ベータ分布とは比率,確率の分布を表しており,一様分布は完全ランダムな分布を表しているとみることができます.
いま,一様分布に従う状態で$n$人中$k$番目に来た人というのはこれは前の人がどれくらいか,後の人がどれくらいかの「比率」を決定することとなります.したがってこれはベータ分布に従うというわけです.

雑談
mathlogの仕様なのかわかりませんが,$で囲ってその中に「\var」とだけ書くとなぜか「$\var$」が出てくるんですがこれ何なんですかね.因みにこのカッコ内のデルタもdeltaと打っているわけではなく,varとしか打ってません.面白怖い謎仕様でした.

投稿日:812
更新日:817
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。

投稿者

数学科B2/微分幾何や統計周辺に興味があります。

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中