0

サンプリングによる分布の変化の考察

59
0

背景

遺伝子シーケンサーからとれたリードデータをサンプリングしたとき、どのように元々の遺伝子カウントの分布が変わるかを考える。

例1

4つのリードを2つにダウンサンプルする。このうち geneA の数を 2とする
A1,A2,B,Cから2つとる組み合わせは
A1A2A1BA1CA2BA2CBC
このうちAが2つ含まれるのはA1A2の1通り
Aが1つ含まれるのはA1B,A1C,A2B,A2Cの4通り
Aが0つ含まれるのはBCの1通り

例2

6つのリードを2つにダウンサンプルする。このうち geneA の数を3とする
A1,A2,A3,B,C,Dから2つとる組み合わせは
A1A2A1A3A1BA1CA1DA2A3A2BA2CA2DA3BA3CA3DBCBDCD
このうち
A2:A1A2,A1A3,A2A3:3A1:A1B,A2B,A3B,A1C,A2C,A3C,A1D,A2D,A3D:9A0:BC,BD,CD:3

母関数

(1+Ax)(1+Bx)(1+Cx)=1+(A+B+C)x+(AB+AC+CB)x2+ABCx3 (1+Ax)(1+Bx)(1+Cx)(1+Dx)=1+(A+B+C+D)x+(AB+AC+AD+BC+BD+CD)x2+(ABC+ABD+ACD+BCD)x3+ABCDx4
A,B,C,Dから2つとる組み合わせは(1+Ax)(1+Bx)(1+Cx)(1+Dx)x2の係数に現れる:AB,AC,AD,BC,BD,CD
A=B=C=D=1とすると(1+x)4=1+4x+6x2+4x3+1
x2の係数は6となる。

母関数による表現

例1

A=B=p,C=D=1とおく
(1+px)2(1+x)2=(1+2px+p2x2)(1+2x+x2)=1+2(p+1)x+(p2+4p+1)x2+2p(p+1)x3+p2x4
この式のx2の係数はp2+4p+1これのpの係数が例1を表している。

例2

A=B=C=p,D=E=F=1とおく
(1+px)3(1+x)3=(1+3px+3p2x2+p3x3)(1+3x+3x2+x3)
13p3p2p339p9p23p339p9p23p313p3p2p3
なので
(1+px)3(1+x)3=1+3(p+1)x+3(p2+3p+1)x2+(p3+9p2+9p+1)x3+3p(p2+3p+1)x4+3p2(p+1)x5+p3x6
これのx2の項は3p2+9p+3この式は例2を表している。

母関数によるサンプリングの表現

総リードNにはgeneAがA含まれている。これからダウンサンプルしてリード数nとってくる。このうちgeneAがa個含まれる場合の数を考える。
これは(1+px)A(1+x)NAxnの係数から分かる。この係数はpの多項式になり、p0の係数がgeneAが0つ含まれる数、p1の係数がgeneAが1つ含まれる数、等々である。

微分によるxnの係数の求め方

f(x)=a+bx+cx2+dx3+ex4+..f(x)=b+2cx+3dx2+4ex3+..f(x)=2c+6dx+12ex2+..f(x)=6d+24ex+..

a=f(0)b=f(0)c=f(0)/2d=f(0)/6..
なのでxnの係数はf(n)(0)/n!

べき乗式の微分

P=(1+px)Aとすると
P=(1+px)AP=Aa(1+px)A1P=A(A1)p2(1+px)A2P=A(A1)(A2)p3(1+px)A3..P(s)=A!ps(As)!(1+px)As
また
P(s)(0)=A!ps(As)!

Q=(1+x)NAとすると
Q=(1+x)NAQ=(NA)(1+x)NA1Q=(NA)(NA1)(1+x)NA2Q=(NA)(NA1)(NA2)(1+x)NA3..Q(t)=(NA)!(NAt)!(1+x)NAt
また
Q(t)(0)=(NA)!(NAt)!

積の微分

(PQ)=PQ+PQ(PQ)=PQ+2PQ+PQ(PQ)=PQ+3PQ+3PQ+PQ..(PQ)(n)=P(n)Q+nP(n1)Q+(n2)P(n2)Q+..+(ns)P(s)Q(ns)+..
xnの係数は
(PQ)(n)(0)/n!
これまで結果より
A!n!(pn(An)!+n(NA)pn1(An+1)!+(n2)(NA)(NA1)pn2(An+2)!+..)
これのpaの係数は
(na)A!(NA)!n!(Aa)!(NAn+a)!=n!(na)!a!A!n!(Aa)!(NA)!(NAn+a)!=A!(Aa)!a!(NA)!(NAn+a)!(na)!=(Aa)(NAna)

例1

N=4, n=2, A=2
a=0:(20)(22)=1a=1:(21)(21)=4a=2:(22)(20)=1

例2

N=6, n=2, A=3
a=0:(30)(32)=3a=1:(31)(31)=9a=2:(32)(30)=3

組み合わせ論的考察

Nからnを選ぶ。そのnのうちa個をAから選び、その残りのnaNAから選ぶ。なので
(Aa)(NAna)
これは超幾何分布に関係するらしい

一般化

総リードNにgeneAがA,geneBがB,geneCがC,...含まれている。これからnリードとってくる。そのリードにそれぞれのgeneがa,b,c,..含まれる場合の数を考える。母関数は
(1+αx)A(1+βx)B(1+γx)C...(1+ζx)Z
ここでA+B+C+..+Z=N
これのxnの係数のαaβbγc...ζzの係数が求めるものである。

N=8 からn=4 サンプリングする。A=2,B=4,C=2のとき a=1,b=2,c=1となる場合の数を求める
(1+αx)2(1+βx)4(1+γx)2=1+(2α+4β+2γ)x+(α2+6β2+γ2+8αβ+4αγ+8βγ)x2+(4β3+4α2β+2α2γ+12αβ2+12β2γ+2αγ2+4βγ2+16αβγ)x3+(β4+8αβ3+8γβ3+6α2β2+α2γ2+6β2γ2+8α2βγ+24αβ2γ+8αβγ2)x4+(2αβ4+2β4γ+4α2β3+4β3γ2+16αβ3γ+12α2β2γ+12αβ2γ2+4α2βγ2)x5+(α2β4+β4γ2+4αβ4γ+8α2β3γ+8αβ3γ2+6α2β2γ2)x6+(2α2β4γ+2αβ4γ2+4α2β3γ2)x7+α2β4γ2
x4の係数は
β4+8αβ3+8γβ3+6α2β2+α2γ2+6β2γ2+8α2βγ+24αβ2γ+8αβγ2
なのでa,b,cの場合の数は以下のようになる
abc0401130803182206202102262118121241128
よって元の分布を反映するa=1,b=2,c=1になる場合の数が最も大きいことが分かる

母関数

P(x)=(1+αx)A(1+βx)B..(1+ζx)Z=PAPB..PZ

積の微分

微分作用素をDとする。積の微分は次のように考えられる。
D(PAPB..PZ)=(DA+DB+ .. DZ)(PAPB..PZ)
ここでDXPXにだけ作用する微分作用素である。
(DA+DB+ .. DZ)n
DAaDBb..DZzの係数は多項係数
(n!a!,b!,..,z!)=n!a!b!,..z!
である。また
PA(n)=A!αn(An)!(1+αx)AnPA(n)(0)=A!αn(An)!
よってDAnからαnの項が生じる。Pxnの係数はP(n)(0)/n!なので、Pxnの係数のαaβn..ζzの係数は
1n!n!a!b!..z!A!(Aa)!B!(Bb)!..Z!(Zz)!=(Aa)(Bb)..(Cc)
これは多変量超幾何分布に関係するらしい。

A=2,B=4,C=2,a=1,b=2,c=1のとき
(21)(42)(21)=24
正しく例を表している。

投稿日:26日前
更新日:22日前
OptHub AI Competition

この記事を高評価した人

高評価したユーザはいません

この記事に送られたバッジ

バッジはありません。
バッチを贈って投稿者を応援しよう

バッチを贈ると投稿者に現金やAmazonのギフトカードが還元されます。

投稿者

17世紀の数学を学び始めました。 https://www.17centurymaths.com/ このサイト素晴らしい。

コメント

他の人のコメント

コメントはありません。
読み込み中...
読み込み中
  1. 背景
  2. 例1
  3. 例2
  4. 母関数
  5. 母関数による表現
  6. 母関数によるサンプリングの表現
  7. 微分によるxnの係数の求め方
  8. べき乗式の微分
  9. 積の微分
  10. 例1
  11. 例2
  12. 組み合わせ論的考察
  13. 一般化
  14. 母関数