背景
遺伝子シーケンサーからとれたリードデータをサンプリングしたとき、どのように元々の遺伝子カウントの分布が変わるかを考える。
例
例1
4つのリードを2つにダウンサンプルする。このうち geneA の数を 2とする
から2つとる組み合わせは
このうちが2つ含まれるのはの1通り
が1つ含まれるのはの4通り
が0つ含まれるのはの1通り
例2
6つのリードを2つにダウンサンプルする。このうち geneA の数を3とする
から2つとる組み合わせは
このうち
母関数
から2つとる組み合わせはのの係数に現れる:
とすると
の係数は6となる。
母関数による表現
例1
とおく
この式のの係数はこれのの係数が例1を表している。
例2
とおく
なので
これのの項はこの式は例2を表している。
母関数によるサンプリングの表現
総リードにはgeneAが含まれている。これからダウンサンプルしてリード数とってくる。このうちgeneAが個含まれる場合の数を考える。
これはのの係数から分かる。この係数はの多項式になり、の係数がgeneAが0つ含まれる数、の係数がgeneAが1つ含まれる数、等々である。
微分によるの係数の求め方
なのでの係数は
べき乗式の微分
とすると
また
とすると
また
積の微分
の係数は
これまで結果より
これのの係数は
例1
例2
組み合わせ論的考察
からを選ぶ。そののうち個をから選び、その残りのをから選ぶ。なので
これは超幾何分布に関係するらしい
一般化
総リードにgeneAが,geneBが,geneCが,...含まれている。これからリードとってくる。そのリードにそれぞれのgeneが含まれる場合の数を考える。母関数は
ここで
これのの係数のの係数が求めるものである。
例
から サンプリングする。のとき となる場合の数を求める
の係数は
なのでの場合の数は以下のようになる
よって元の分布を反映するになる場合の数が最も大きいことが分かる
母関数
積の微分
微分作用素をとする。積の微分は次のように考えられる。
ここではにだけ作用する微分作用素である。
のの係数は多項係数
である。また
よってからの項が生じる。のの係数はなので、のの係数のの係数は
これは多変量超幾何分布に関係するらしい。
例
,のとき
正しく例を表している。