中身の見えない袋の中に、$\text{A, E, L, P}$の文字のいずれか1つが書かれた4つの球がある。 「袋から無作為に球を取り出し、書かれた文字列が記録して袋に戻す」という操作を繰り返し、「$\text{APPLE}$」という文字列が記録されたら作業を終了する。 ちょうど$n$回の操作で作業が終了する確率を求めよ。 (国際信州学院大学 H29)
$n$回で作業が終了する確率を$p_n$、$n$回の作業で「$\text{APPLE}$」の文字列が含まれている確率を$S_n$とする。
$p_n = S_n -S_{n-1}$である。
まずは具体的に考えてみよう。
$1\leq n \leq 4$のときは勿論$S_n = 0$。
$5\leq n \leq 9ならばS_n = \dfrac{n-4}{4^5}$となる。
(例えば$n=9$のとき、
$\text{APPLE????}$、$\text{?APPLE???}$、$\text{??APPLE??}$、$\text{???APPLE?}$、$\text{????APPLE}$のパターンが考えられ、それぞれは独立である。)
$10\leq n \leq 14$の場合、$\text{APPLE}$が異なる場所に2つできるため、先ほどの「$\text{APPLE}$がある場所1つにできる場合全体」の中で重ねて数えてしまっているものがある。
$\text{APPLE}$が2つ出来る場所の総数が分かれば求められそうだ。
$\text{APPLE}$2つとその10文字を除いた他の文字との並べ替えになるので、$\dfrac{(n-10+2)!}{2!(n-10)!} = \combin{n-8}{2}$通りとなる。
よって$10\leq n \leq 14$のとき、$S_n = \dfrac{n-4}{4^5}-\dfrac{\combin{n-8}{2}}{4^{10}}$
$\cdots$といったことを$\text{APPLE}$が$\left\lfloor\dfrac{n}{5}\right\rfloor$個あるときまで繰り返すだけです。
($\lfloor x\rfloor$は$x$を超えない最大の整数のことです。)
$\left\lfloor\dfrac{n}{5}\right\rfloor$個まで繰り返すのはいいのですが$15\leq n$のときの議論があんまり自明じゃないので、少し深堀していきます。
「$\text{APPLE}$」が2個のとき、重複した分を引いてあげるため、その確率を引き算していましたが、一般に「$\text{APPLE}$」が$r$個ある場合はどう対応すればよいのでしょうか。
実は、以下のような公式があります。
$r$個の和集合$A_1, A_2,\cdots,A_r$の和集合$A_1\cup A_2\cup\cdots\cup A_r$の要素の個数について、以下が成り立つ。
$\displaystyle n(A_1\cup A_2\cup\cdots\cup A_r) = \sum_{k=1}^{r}(-1)^{k-1}\:\:\sum_{i_1< i_2<\cdots < i_k}n(A_{i_1}\cap A_{i_2}\cap \cdots \cap A_{i_k})$
つまり今回の例でいうと「$\text{APPLE}$」がある場所に奇数個あるときは足して、偶数個あるときは引く、ということです。
任意の$\displaystyle a\in A_1\cup A_2 \cup \cdots \cup A_r$に対して、右辺の式を適用して$a$が合計何回足されるかを確かめる。
(略記:$j := j_1,j_2\cdots j_k$)
$a\in A_{j_1}\cap \cdots \cap A_{j_k}$かつ$\displaystyle a\not\in \bigcup_{l\not\in j}A_l\quad (1\leq l,j\leq r)$である、(つまり、ある$k$個の集合の中に$a$は入っているが、それ以外の集合に$a$は入っていない)と仮定すると、
$n(A_{i_1})$の項では$k$個の数字の中から1つ選ぶので$\combin{k}{1}$回足され、
$n(A_{i_1}\cap A_{i_2})$の項では$k$個の数字の中から2つ選ぶので$\combin{k}{2}$回引かれ、
$n(A_{i_1}\cap A_{i_2} \cap A_{i_3})$の項では$k$個の数字の中から3つ選ぶので$\combin{k}{3}$回足され、
$\cdots$
と繰り返していけば、
$a$が足された回数は、$\displaystyle \sum_{m=1}^{k}(-1)^{m+1}\combin{k}{m}$回と分かり、$(1-1)^k$に対する
二項定理より
$\displaystyle \sum_{m=0}^{k}(-1)^{m+1}\combin{k}{m} = -\combin{k}{0}+\sum_{m=1}^{k}(-1)^{m+1}\combin{k}{m} = 0$であるから、$\displaystyle \sum_{m=1}^{k}(-1)^{m+1}\combin{k}{m} =1$である。
よって、任意の$a$に対して右辺は1回足されるので、右辺の計算結果は和集合の要素の個数に等しい。
この証明は
こちらのもの
をほとんど引用させていただいております。
あとは「$\text{APPLE}$」が$r$個あるときの場所のパターン数は、残りの$n-5r$個と文字を並び替えるので$\dfrac{(n-5r+r)!}{r!(n-5r)!} = \combin{n-4r}{r}$通りとなる。
よって、$\displaystyle \sum_{k=1}^{0}=0$とすれば、
$$S_n = \sum_{k=1}^{\left\lfloor\tfrac{n}{5}\right\rfloor}(-1)^{k-1}\cdot\dfrac{\combin{n-4k}{k}}{4^{5k}}$$
\begin{eqnarray}
p_n &=& S_n -S_{n-1}\\
&=& \sum_{k=1}^{\left\lfloor\tfrac{n}{5}\right\rfloor}(-1)^{k-1}\cdot\dfrac{\combin{n-4k}{k}}{4^{5k}} - \sum_{k=1}^{\left\lfloor\tfrac{n-1}{5}\right\rfloor}(-1)^{k-1}\cdot\dfrac{\combin{n-4k-1}{k}}{4^{5k}}
\end{eqnarray}
(この式にパスカルの法則:$\combin{n}{r}=\combin{n-1}{r}+\combin{n-1}{r-1}$を上手く適用出来れば総和をまとめることが出来ることに注目する。)
ここで、シグマの上限が異なっているとまとめ上げることが出来ないので、$S_{n-1}$の項のシグマの上限を$\left\lfloor\dfrac{n}{5}\right\rfloor$に変更したものを考える。$n$が$5$の倍数でないときはどちらも同じである。
では$n$が$5$の倍数、つまり整数$t$を用いて$n=5t$と表せるとき、
上限は$k=t$となり、$\combin{n-4k-1}{k} = \combin{t-1}{t}$と表せるので、コンビネーションの定義外となる。これを$0$と置けば、結果的にシグマの上限を変えたものも値が変わらないことになり、
$n=r$のときにもパスカルの法則:
$\combin{n}{n} = \combin{n-1}{n}+\combin{n-1}{n-1}$
が成り立つことが分かる。よって、
$$p_n = \sum_{k=1}^{\left\lfloor\tfrac{n}{5}\right\rfloor}(-1)^{k-1}\cdot \dfrac{\combin{n-4k-1}{k-1}}{4^{5k}}$$
と分かる。
同様の議論をすることにより、以下のような公式が得られます。
$s$種類の文字が同様の確率で出力されて$n$文字の文字列を生成する。また、その$s$種類の文字の中から$m$文字のキーワードを設定するとき、
先頭の$a$文字と末尾$a$文字が$1\leq a \leq m-1$のいずれの$a$に対しても等しくないときに限り、$n$文字でそのキーワードが生成される確率$p_n$は、
$$p_n = \sum_{k=1}^{\left\lfloor\tfrac{n}{m}\right\rfloor}(-1)^{k-1}\cdot\dfrac{\combin{n-(m-1)k-1}{k-1}}{s^{mk}}$$
となる。
例外について:例えば「ア」「コ」「の」「ラ」という文字と「コアラのコア」というキーワードを設定したとします。すると、重複して数えてしまっている場合が多くなってしまいます。本来、この場合だと6文字周期で被りを考えるのですが、「コアラのコアラのコア」などというように、末尾と先頭が繋がってしまうとその部分の重複も除かなければならなくなります。これが存外面倒なので今回は考えてません。
(コアラのコアに関する先行研究をしておらず、同名のキャラクターがどうやら存在しているので、只今別の例を模索中です。)
正直合っているかどうかは不明ですし、解答が級数のままなので、まだ解答をまとめられる可能性があります。間違い、この級数の計算方法や、先ほどの重複まで含めた一般化などが出来たという方は、教えて下さると非常に助かります。