第14回集団遺伝学講座を送ります。
いつもながら半角が使えず、勉強されている皆様にはご迷惑をおかけしてます。 次回はaffected sibpair methodについて述べることにします。最近はやりのヒト遺伝病のpositional cloningについてです。 |
親子、きょうだいなど通常血縁関係にある個体の間では身長、体重などの単純な量的形質から容貌、知能、気質などの複雑な量的形質に至るまで、多少とも類似している事実は厳密な測定をしなくても多くの人の知るところである。事実、子が親に似るということこそ大昔から人類が経験から知ったもっとも重要な遺伝現象なのである。19世紀の終わりから20世紀の初めにかけて、ゴールトンF GaltonやピアソンK Pearsonなど、生物統計学派Biometrics schoolの人々は遺伝法則の解明をめざして、正常形質についての親子きょうだいの間の相関を研究し、子の測定値の親の測定値への回帰regressionの現象の発見や相関係数の工夫など、重要な貢献を行った。一方メンデルの法則の再発見の後ベートソンW Batesonは遺伝する形質はすべて不連続(離散的)であるとする誤った考えをもち、これにたいしてピアソンはメンデルの法則を受け入れず、両者の間にきびしい対立が続いた。その後統計遺伝学biometrical geneticsの進歩によって正常形質の遺伝もメンデルの法則にそってみごとに理解できることが明かとなり(Fisher 1918)、近親の間の相関を測定することで集団の遺伝的構成を研究することが出来るようになった。
すでに近交係数や親縁係数について説明した。前者は2倍体集団の任意の一個体から2個の相同遺伝子をとりだしたとき、その2つが共通の祖先から由来する(すなわち、同祖的identical by descentである)確率である。後者は2つの相同遺伝子を2個体からそれぞれ1個づつ無作為にとりだしたときの同祖的である確率である。これらの考えに沿って集団内の2個体の遺伝的類似度を同祖遺伝子の数、すなわち0個、1個、2個、で測る工夫をしてみよう。この方法はコッターマンが考えだしたもので、2個体いずれの両親もが血縁者でない場合(regular system)を取り扱った。デニストン(Denniston 1967)は後に近親婚から産まれた個体も含めた研究を行っている。
ここでは2個体I,Jいずれの両親も血縁者でない場合について考察する。コッターマンのk係数は次のように定義される。
k0 | =ある遺伝子座でどの2つも同祖遺伝子でない確率 |
2k1 | =Iの1つの遺伝子とJの1つの遺伝子は同祖的であるが、それぞれの個体のもう一つの遺伝子は同祖的でない確率 |
k2 | =個体Iの両方の遺伝子が個体Jの両方の遺伝子と同祖的である確率 |
たとえば
遺伝子型 | k係数 | |
個体I | 個体J | |
A1A2 | A1A2 | k2 |
A1A2 | A1A3 | k1 |
A1A2 | A3A2 | k1 |
A1A2 | A3A4 | k0 |
コッターマンの表記法にしたがうなら、個体Iの遺伝子をa,b、個体Jの遺伝子をc,dとすると
k2 | =Prob[{(a=c)and(b=d)}or{(a=d)and(b=c)}] |
2k1 | =Prob[{(a=c)and(b≠d)}or{a=d)and(b≠c)} |
or{(b=c)and(a≠d)}or{(b=d)and(a≠c)}] | |
k0 | =Prob[a≠c,a≠d,b≠c,and b≠d] |
個体Iの両親をA,B、個体Jの両親をC,Dとすると、個体の近交係数は両親の親縁係数に等しいから、
k2 | =fACfBD+fADfBC |
2k1 | =fAC(1-fBD)+fAD(1-fBC)+fBC(1-fAD)+fBD(1-fAC) |
=4fIJ-2k2 (ここでfIJはI,Jの親縁係数) | |
k0 | =1-2k1-k2 |
具体例。
fAC | fBD | fAD | fBC | k2 | 2k1 | k0 | |
いとこ | 0 | 0 | 0 | 1/4 | 0 | 1/4 | 3/4 |
2重いとこ | 1/4 | 1/4 | 0 | 0 | 1/16 | 6/16 | 9/16 |
きょうだい | 1/2 | 1/2 | 0 | 0 | 1/4 | 1/2 | 1/4 |
親子 | 1/2 | 0 | 0 | 1/2 | 0 | 1 | 0 |
k係数は特に2つの問題を取り扱う上で有用である。一つは遺伝相談である。たとえば個体Iと個体Jが血縁であって個体Iがホモ接合ggであるとき、個体Jもggである確率を知りたい。集団のg遺伝子頻度をpとすると、その確率はk2+2k1p+k0p**2である。個体Iと個体Jが2重いとこなら、集団の個体Iが劣性遺伝病である確率はp**2で、個体Jが発症する確率は(1+6p+9p**2)/16となる。
もう一つの問題は近親の間の相関についてである。
遺伝子座の対立遺伝子をG,gで表し、それぞれの遺伝子頻度をp,q (p+q=1)としよう。3つの遺伝子型GG,Gg,ggの表現型値をそれぞれ-a,d,aとする。ここで表現型値は任意のユニットで測定したものからその集団平均を差し引いた偏差値である。特定の血縁関係にある2個体をX,Yとし、それぞれの遺伝子型による9通りの組合せとその頻度は次の様に表すことができる。
遺伝子型 | 表現型値 | |||
X | Y | X | Y | 組合せの頻度 |
GG | GG | -a | -a | k0p**4+2k1p**3+k2p**2 |
GG | Gg | -a | d | k0(p**3)q+2k1(p**2)q |
Gg | GG | d | -a | 2k1(p**2)q+k0(p**3)q |
Gg | Gg | d | d | k04(p**2)(q**2)+2k1pq+k2(2pq) |
GG | gg | -a | a | k02(p**2)(q**2) |
gg | GG | a | -a | k02(p**2)(q**2) |
Gg | gg | d | a | 2k1pq**2+k0pq**3 |
gg | Gg | a | d | k0pq**3+2k1pq**2 |
gg | gg | a | a | k0q**4+2k1q**3+k2q**2 |
個体Xと個体Yの共分散CXYは定義により、
CXY | =(-a)(-a)[k0p**4+2k1p**3+k2p**2]+(-a)(d)[k0(p**3)q+2k1(p**2)q] |
+...+(a)(a)[k0q**4+2k1q**3+k2q**2] | |
= k0[(a**2)(p**4)-ad(4(p**3)q)+d**2(4(p**2)(q**2)) | |
+a**2(2(p**2)(q**2))+ad(4p(q**3))+(a**2)(q**4)] | |
+2k1[(a**2)(p**3)-ad(2(p**2)q) | |
+(d**2)(pq)+ad(2p(q**2))+(a**2)(q**3)] | |
+k2[(a**2)(p**2)+(d**2)(2pq)+(a**2)(q**2)] |
となる。ここで
k0の係数は{(-a)(p**2)+d(2pq)+a(q**2)}**2とまとめることができるが、
これは定義により0である。また、k1の係数は2[p{(-a)p+dq}**2+q{dp+aq}**2]=VA
であり、k2の係数はVGとなる。したがって
CXY=k1VA+k2VG
VG=VA+VDであることに注意すると
CXY=(k1+k2)VA+ k2VD
両辺をVP(=VG+VE)で割ると、左辺は(測定値の)相関係数で、右辺は遺伝力で表わ
すことができる。
rXY=(k1+k2)(hN**2)+k2(hD**2)
ここにhN**2(=VA/VP)は(相加的な)狭義の遺伝力、hD**2(=VD/VP)はドミナ
ンス分散の割合を表わす。
例:血縁者間の相関
k2 | 2k1 | rXY | |
親子 | 0 | 1 | (1/2)hN**2 |
きょうだい | 1/4 | 1/2 | (1/2)hN**2+(1/4)hD**2 |
いとこ | 0 | 1/4 | (1/8)hN**2 |
二重いとこ | 1/16 | 6/16 | (1/4)hN**2+(1/16)hD**2 |
Fisher(1918)、Malecot(1948)はまったく別の方法でこの結果を求めている。
例:ヒトの身長の相関
FisherはhN**2=0.74, hD**2=0.26を推定値として得た。彼が調べた集団では環境分散はほとんど見つからなかった。身長に関して結婚がランダムとみなせるなら、この集団での親子相関は(1/2)(0.74)=0.37,きょうだい相関は(1/2)(0.74)+(1/4)(0.26)=0.44と予測される。したがって狭義の遺伝力はhN2=0.37、ドミナンス分散の割合はhD2=0.44-0.37=0.07と推定される。現実の結婚に際しては配偶者の身長をしばしば配慮するため、大きな正の相関があるのが普通である。すなわちこれらの値が過大評価されていることがしばしばである。
実務において両親それぞれの測定値の平均値(value of mid-parent)と子どもの測定値の相関係数を求めることがある。両親の測定値をX,Yとすると、それらの平均はZ=(X+Y)/2である。したがってZと子どもの測定値Oとの共分散CZOは
CZO=C{(X+Y)/2,O}=(1/2){CXO+CYO}=CXO (∵ CXO=CYO,性差はないとする)
すなわち、mid-parentと子どもの共分散は親と子どもの共分散に等しい。
一方、測定値のばらつきに性差はないとし、任意交配のもとではXとYは独立だから
V(Z)=V{(X+Y)/2}=(1/4){V(X)+V(Y)}=V(X)/2。
すなわち両親の平均値のばらつきは各親のばらつきの半分となる。
子どもの値の両親の平均値への回帰係数bOZは狭義の遺伝力に等しい。すなわち
bOZ=CZO/V(Z)=2CXO/V(X)=Vg/VP=hN**2
この公式は選抜による品種改良の程度を予測するのに用いられる。すなわち
(子どもの予測値)=(集団の平均値)+(狭義の遺伝力)x(両親の平均値-集団の平均値)
ドミナンスなどの非相加的分散の寄与が無視できるなら、任意交配集団での2個体間の相関係数rXYは親縁係数fXYの2倍に等しい。
rXY=2fXY
相関係数は共分散を2つの分散の幾何平均で割ったものである。ドミナンスのない相加的に作用する遺伝子では接合体の効果は2つの遺伝子の効果の和である。wとx、yとzの共分散はw+xとy+zの共分散には寄与しないが、遺伝子型分散は(1+f)倍となる。ここにfは近交係数である。したがって近交度fx、fyの2個体間の相関係数は
rXY=2fXY/{√(1+fx)(1+fy)}
これを近縁係数coefficient of relationshipという。Wright(1922)は2個体間の育種価の相関を表わすパラメータを研究して近縁係数を考案した。 ドミナンスのある場合の近縁係数の公式はk係数をもちいると次のように表わされる(Cotterman,1960)。
rXY=k2+2k1q{p(p+2qh)(1-2h)+h**2}/{p+2pqh**2-p(p+2qh)**2}
ここに(1-2h)=d/aである。dとaの特定の値についてrXYの値は次のようである。
相互優性 | G<>g | d=0⇒ h=1/2 | rXY=k2+k1 = 2fXY |
G優性 | G>g | d=-a⇒ h=1 | rXY=k2+2k1{p/(1+p)} |
g優性 | G<g | d=a⇒ h=0 | rXY=k2+2k1{q/(1+q)} |
平均値。わかり易くするため、もっとも簡単なモデルを考えよう。集団の近交係数がfで、一つの遺伝子座に2個の対立遺伝子G,gがそれぞれp,qの頻度であるとする。遺伝子型、その頻度およびその計測値は次で与えられるものとする。ここで計測値は集団平均値からの偏差で測るものとする。
遺伝子型 | 頻度 | 計測値 |
GG | p**2(1-f)+pf | -a |
Gg | 2pq(1-f) | d |
gg | q**2(1-f)+qf | a |
この集団での平均値mは
m | =(-a){(p**2)(1-f)+pf}+(d){2pq(1-f)}+(+a){(q**2)(1-f)+qf} |
=a(q-p)+2pqd-2pqdf | |
=A+Bf |
ここで A=a(p-q)+2pqd、B=-2pqd である。
この考察から2つの重要なことがわかる。
(1)ドミナンスがない(d=0)と近交があっても平均値(m)は変わらない。
(2)平均値(m)は近交係数(f)の一次関数である。ヘテロ接合の(正)値が2つのホモ接合の値の平均値より大きい(B<0)と、平均値(m)は近交により減少する。
近交による平均値(m)の減少する原因として2つのことが考えられる。
(i)都合のよい遺伝子が優性あるいは部分優性である(0<d<a)。
(ii)ヘテロ接合が二つのホモより大きな値である(0<a<d)。
したがって量的形質の直線的減少が観察されたとき、データの偏りは別としてこれらいずれの原因によるのかは、これだけのデータからは区別できない。
2つ以上の複対立遺伝子のある場合でも(1)、(2)は成り立つ。しかし2座位以上が関与する場合では遺伝子(座)間の相互作用で平均値(m)は近交係数(f)の2次関数となることがある。
分散。統計学では幾つかのサンプルをまとめて全体の平均値や分散をもとめることがしばしば生じる。たとえば大きさN1の第1サンプル(平均m1、分散V1)と大きさN2の第2サンプル(平均m2、分散V2)をまとめると、大きさN1+N2=Nのサンプルの平均mと分散Vは次の式から得られる。
平均値:m | =(N1m1+N2m2)/N |
分散:V | =(N1V1+N2V2)/N+{N1N2/N2}(m1-m2)**2 |
ここでw1=N1/N、w2=N2/Nとサンプルの大きさの比率であらわすと
m | =w1m1+w2m2 |
V | =w1V1+w2V2+w1w2(m1-m2)**2 |
ヒトの集団ではほとんどが任意婚であるが、一部が近親婚であることがある。
このような場合、集団は任意婚のグループ(1ーf=w1)と近親婚のグループ (f=w2)から成るとみなせるから
m | =(1-f)m1+fm2 |
V | =(1-f)V1+fV2+(1-f)f(m1-m2)**2 |
が得られる。ここでfとして集団の平均近交係数を用いるなら、Wright(1951)が最初に求めた公式と一致する。集団を遺伝子プールとみなすと、共通祖先遺伝子を子どもが共有する近親婚グループの割合は平均近交係数fで表わすことができる。
集団が近交係数(w1=f1=1-f2-f3-...,w2=f2, w3=f3,...)の異なる亜集団からなるモデルを考えると
m | = | (1-f2-f3-...)m1+f2m2+f3m3+... (平均近交係数) |
V | = | (1-f2-f3-...)V1+f2V2+f3V3+... |
+f1f2(m1-m2)**2+f1f3(m1-m3)**2+... | ||
+f2f3(m2-m3)**2+... | ||
+... |
mi(i=1,2,3,...)がmとあまり違わなければ、分散Vは各分散の近交係数の荷重平均値であらわすことができるが、一般に分散は近交係数の2次関数であることがわかる。