第14回集団遺伝学講座

2016/07/14

第14回集団遺伝学講座を送ります。いつもながら半角が使えず、勉強されている皆様にはご迷惑をおかけしてます。
次回はaffected sibpair methodについて述べることにします。最近はやりのヒト遺伝病のpositional cloningについてです。

5.10 近親の間の相関

親子、きょうだいなど通常血縁関係にある個体の間では身長、体重などの単純な量的形質から容貌、知能、気質などの複雑な量的形質に至るまで、多少とも類似している事実は厳密な測定をしなくても多くの人の知るところである。事実、子が親に似るということこそ大昔から人類が経験から知ったもっとも重要な遺伝現象なのである。19世紀の終わりから20世紀の初めにかけて、ゴールトンF GaltonやピアソンK Pearsonなど、生物統計学派Biometrics schoolの人々は遺伝法則の解明をめざして、正常形質についての親子きょうだいの間の相関を研究し、子の測定値の親の測定値への回帰regressionの現象の発見や相関係数の工夫など、重要な貢献を行った。一方メンデルの法則の再発見の後ベートソンW Batesonは遺伝する形質はすべて不連続(離散的)であるとする誤った考えをもち、これにたいしてピアソンはメンデルの法則を受け入れず、両者の間にきびしい対立が続いた。その後統計遺伝学biometrical geneticsの進歩によって正常形質の遺伝もメンデルの法則にそってみごとに理解できることが明かとなり(Fisher 1918)、近親の間の相関を測定することで集団の遺伝的構成を研究することが出来るようになった。

5.10.1 コッターマンのk係数(Cotterman 1940)

すでに近交係数や親縁係数について説明した。前者は2倍体集団の任意の一個体から2個の相同遺伝子をとりだしたとき、その2つが共通の祖先から由来する(すなわち、同祖的identical by descentである)確率である。後者は2つの相同遺伝子を2個体からそれぞれ1個づつ無作為にとりだしたときの同祖的である確率である。これらの考えに沿って集団内の2個体の遺伝的類似度を同祖遺伝子の数、すなわち0個、1個、2個、で測る工夫をしてみよう。この方法はコッターマンが考えだしたもので、2個体いずれの両親もが血縁者でない場合(regular system)を取り扱った。デニストン(Denniston 1967)は後に近親婚から産まれた個体も含めた研究を行っている。

ここでは2個体I,Jいずれの両親も血縁者でない場合について考察する。コッターマンのk係数は次のように定義される。

k０	=ある遺伝子座でどの2つも同祖遺伝子でない確率
2k１	=Iの1つの遺伝子とJの1つの遺伝子は同祖的であるが、それぞれの個体のもう一つの遺伝子は同祖的でない確率
k２	=個体Iの両方の遺伝子が個体Jの両方の遺伝子と同祖的である確率

たとえば

遺伝子型		k係数
個体I	個体J
A１A２	A１A２	k２
A１A２	A１A３	k１
A１A２	A３A２	k１
A１A２	A３A４	k０

コッターマンの表記法にしたがうなら、個体Iの遺伝子をa,b、個体Jの遺伝子をc,dとすると

k２	=Prob[{(a=c)and(b=d)}or{(a=d)and(b=c)}]
2k１	=Prob[{(a=c)and(b≠d)}or{a=d)and(b≠c)}
	or{(b=c)and(a≠d)}or{(b=d)and(a≠c)}]
k０	=Prob[a≠c,a≠d,b≠c,and b≠d]

個体Iの両親をA,B、個体Jの両親をC,Dとすると、個体の近交係数は両親の親縁係数に等しいから、

k２	=fＡＣfＢＤ+fＡＤfＢＣ
2k１	=fＡＣ(1-fＢＤ)+fＡＤ(1-fＢＣ)+fＢＣ(1-fＡＤ)+fＢＤ(1-fＡＣ)
	=4fＩＪ-2k２ (ここでfＩＪはI,Jの親縁係数)
k０	=1-2k１-k２

具体例。

	fＡＣ	fＢＤ	fＡＤ	fＢＣ	k２	2k１	k０
いとこ	0	0	0	1/4	0	1/4	3/4
2重いとこ	1/4	1/4	0	0	1/16	6/16	9/16
きょうだい	1/2	1/2	0	0	1/4	1/2	1/4
親子	1/2	0	0	1/2	0	1	0

k係数は特に2つの問題を取り扱う上で有用である。一つは遺伝相談である。たとえば個体Iと個体Jが血縁であって個体Iがホモ接合ggであるとき、個体Jもggである確率を知りたい。集団のg遺伝子頻度をpとすると、その確率はk２+2k１p+k０p**２である。個体Iと個体Jが2重いとこなら、集団の個体Iが劣性遺伝病である確率はp**２で、個体Jが発症する確率は(1+6p+9p**２)/16となる。

もう一つの問題は近親の間の相関についてである。

5.10.2 近親の間の相関係数

遺伝子座の対立遺伝子をG,gで表し、それぞれの遺伝子頻度をp,q (p+q=1)としよう。3つの遺伝子型GG,Gg,ggの表現型値をそれぞれ-a,d,aとする。ここで表現型値は任意のユニットで測定したものからその集団平均を差し引いた偏差値である。特定の血縁関係にある2個体をX,Yとし、それぞれの遺伝子型による9通りの組合せとその頻度は次の様に表すことができる。

遺伝子型		表現型値
X	Y	X	Y	組合せの頻度
GG	GG	-a	-a	k０p４+2k１p３+k２p**２
GG	Gg	-a	d	k０(p３)q+2k１(p２)q
Gg	GG	d	-a	2k１(p２)q+k０(p３)q
Gg	Gg	d	d	k０4(p２)(q２）+2k１pq+k２（2pq）
GG	gg	-a	a	k０2(p２)(q２）
gg	GG	a	-a	k０2(p２)(q２）
Gg	gg	d	a	2k１pq２+k０pq３
gg	Gg	a	d	k０pq３+2k１pq２
gg	gg	a	a	k０q４+2k１q３+k２q**２

個体Xと個体Yの共分散CXYは定義により、

CXY	=(-a)(-a)[k０p４+2k１p３+k２p２]+(-a)(d)[k０(p３)q+2k１(p**２)q]
	+…+(a)(a)[k０q４+2k１q３+k２q**２]
	= k０[(a２)(p４)-ad(4(p３)q)+d２(4(p２)(q２))
	+a２(2(p２)(q２))+ad(4p(q３))+(a２)(q４)]
	+2k１[(a２)(p３)-ad(2(p**２)q)
	+(d２)(pq)+ad(2p(q２))+(a２)(q３)]
	+k２[(a２)(p２)+(d２)(2pq)+(a２)(q**２)]

となる。ここで

k０の係数は{(-a)(p**２)+d(2pq)+a(q**２)}**２とまとめることができるが、
これは定義により0である。また、k１の係数は2[p{(-a)p+dq}**２+q{dp+aq}**2]=VＡ
であり、k２の係数はVＧとなる。したがって

CXY=k１VＡ+k２VＧ

VＧ=VＡ+VＤであることに注意すると

CXY=(k１+k２)VＡ+ k２VＤ

両辺をVＰ(=VＧ+VＥ)で割ると、左辺は(測定値の)相関係数で、右辺は遺伝力で表わ
すことができる。

rXY=(k１+k２)(hＮ**２）+k２(hＤ**２)

ここにhＮ**２(=VＡ／VＰ)は(相加的な)狭義の遺伝力、hＤ**２(=VＤ/VＰ)はドミナ
ンス分散の割合を表わす。

例:血縁者間の相関

	k２	2k１	rXY
親子	0	1	(1/2)hＮ**２
きょうだい	1/4	1/2	(1/2)hＮ２+(1/4)hＤ２
いとこ	0	1/4	(1/8)hＮ**２
二重いとこ	1/16	6/16	(1/4)hＮ２+(1/16)hＤ２

Fisher(1918)、Malecot(1948)はまったく別の方法でこの結果を求めている。

例:ヒトの身長の相関

FisherはhＮ**２=0.74, hＤ**２=0.26を推定値として得た。彼が調べた集団では環境分散はほとんど見つからなかった。身長に関して結婚がランダムとみなせるなら、この集団での親子相関は(1/2)(0.74)=0.37,きょうだい相関は(1/2)(0.74)+(1/4)(0.26)=0.44と予測される。したがって狭義の遺伝力はhＮ２=0.37、ドミナンス分散の割合はhＤ２=0.44-0.37=0.07と推定される。現実の結婚に際しては配偶者の身長をしばしば配慮するため、大きな正の相関があるのが普通である。すなわちこれらの値が過大評価されていることがしばしばである。

実務において両親それぞれの測定値の平均値(value of mid-parent)と子どもの測定値の相関係数を求めることがある。両親の測定値をX,Yとすると、それらの平均はZ=(X+Y)/2である。したがってZと子どもの測定値Ｏとの共分散CZOは

CZO=C{(X+Y)/2,O}=(1/2){CXO+CYO}=CXO (∵ CXO=CYO,性差はないとする)

すなわち、mid-parentと子どもの共分散は親と子どもの共分散に等しい。

一方、測定値のばらつきに性差はないとし、任意交配のもとではXとYは独立だから

V(Z)=V{(X+Y)/2}=(1/4){V(X)+V(Y)}=V(X)/2。

すなわち両親の平均値のばらつきは各親のばらつきの半分となる。

子どもの値の両親の平均値への回帰係数bＯＺは狭義の遺伝力に等しい。すなわち

bＯＺ=CZO/V(Z)=2CXO/V(X)=Vｇ/VＰ=hＮ**２

この公式は選抜による品種改良の程度を予測するのに用いられる。すなわち

(子どもの予測値)=(集団の平均値)+(狭義の遺伝力)x(両親の平均値-集団の平均値)

ドミナンスなどの非相加的分散の寄与が無視できるなら、任意交配集団での2個体間の相関係数rXYは親縁係数fＸＹの2倍に等しい。

rXY=2fＸＹ

相関係数は共分散を2つの分散の幾何平均で割ったものである。ドミナンスのない相加的に作用する遺伝子では接合体の効果は2つの遺伝子の効果の和である。wとx、yとzの共分散はｗ+xとy+zの共分散には寄与しないが、遺伝子型分散は(1+f)倍となる。ここにfは近交係数である。したがって近交度fｘ、fｙの2個体間の相関係数は

rXY=2fＸＹ/{√(1+fｘ)(1+fｙ)}

これを近縁係数coefficient of relationshipという。Wright(1922)は2個体間の育種価の相関を表わすパラメータを研究して近縁係数を考案した。ドミナンスのある場合の近縁係数の公式はk係数をもちいると次のように表わされる(Cotterman,1960)。

rXY=k２+2k１q{p(p+2qh)(1-2h)+h**２}/{p+2pqh**２-p(p+2qh)**２}

ここに(1-2h)=d/aである。dとaの特定の値についてrXYの値は次のようである。

相互優性	G<>g	d=0⇒ h=1/2	rXY=k２+k１　= 2fＸＹ
G優性	G>g	d=-a⇒ h=1	rXY=k２+2k１{p/(1+p)}
g優性	G<g	d=a⇒ h=0	rXY=k２+2k１{q/(1+q)}

5.11 量的形質への近交の影響

平均値。わかり易くするため、もっとも簡単なモデルを考えよう。集団の近交係数がfで、一つの遺伝子座に2個の対立遺伝子G,gがそれぞれp,qの頻度であるとする。遺伝子型、その頻度およびその計測値は次で与えられるものとする。ここで計測値は集団平均値からの偏差で測るものとする。

遺伝子型	頻度	計測値
GG	p**２(1-f)+pf	-a
Gg	2pq(1-f)	d
gg	q**２(1-f)+qf	a

この集団での平均値mは

m	=(-a){(p２)(1-f)+pf}+(d){2pq(1-f)}+(+a){(q２)(1-f)+qf}
	=a(q-p)+2pqd-2pqdf
	=A+Bf

ここで A=a(p-q)+2pqd、B=-2pqd である。

この考察から2つの重要なことがわかる。

(1)ドミナンスがない(d=0)と近交があっても平均値(m)は変わらない。
(2)平均値(m)は近交係数(f)の一次関数である。ヘテロ接合の(正)値が2つのホモ接合の値の平均値より大きい(B<0)と、平均値(m)は近交により減少する。

近交による平均値(m)の減少する原因として2つのことが考えられる。

(i)都合のよい遺伝子が優性あるいは部分優性である(0<d<a)。
(ii)ヘテロ接合が二つのホモより大きな値である(0<a<d)。

したがって量的形質の直線的減少が観察されたとき、データの偏りは別としてこれらいずれの原因によるのかは、これだけのデータからは区別できない。

2つ以上の複対立遺伝子のある場合でも(1)、(2)は成り立つ。しかし2座位以上が関与する場合では遺伝子(座)間の相互作用で平均値(m)は近交係数(f)の２次関数となることがある。

分散。統計学では幾つかのサンプルをまとめて全体の平均値や分散をもとめることがしばしば生じる。たとえば大きさN１の第1サンプル(平均m１、分散V１)と大きさN２の第2サンプル(平均m２、分散V２)をまとめると、大きさN１+N２=Nのサンプルの平均mと分散Vは次の式から得られる。

平均値:m	=(N１m１+N２m２)/N
分散:V	=(N１V１+N２V２)/N+{N１N２/N２}(m１-m２)**２

ここでw１=N１/N、w２=N２/Nとサンプルの大きさの比率であらわすと

m	=w１m１+w２m２
V	=w１V１+w２V２+w１w２(m１-m２)**２

ヒトの集団ではほとんどが任意婚であるが、一部が近親婚であることがある。

このような場合、集団は任意婚のグループ(1ーf=w１)と近親婚のグループ (f=w２)から成るとみなせるから

m	=(1-f)m１+fm２
V	=(1-f)V１+fV２+(1-f)f(m１-m２)**２

が得られる。ここでfとして集団の平均近交係数を用いるなら、Wright(1951)が最初に求めた公式と一致する。集団を遺伝子プールとみなすと、共通祖先遺伝子を子どもが共有する近親婚グループの割合は平均近交係数fで表わすことができる。

集団が近交係数(w１=f１=1-f２-f３-…,w２=f２, w３=f３,…)の異なる亜集団からなるモデルを考えると

m	=	(1-f２-f３-…)m１+f２m２+f３m３+… (平均近交係数)
V	=	(1-f２-f３-…)V１+f２V２+f３V３+…
		+f１f２(m１-m２)２+f１f３(m１-m３)２+…
		+f２f３(m２-m３)**２+…
		+…

mｉ(i=1,2,3,…)がmとあまり違わなければ、分散Vは各分散の近交係数の荷重平均値であらわすことができるが、一般に分散は近交係数の2次関数であることがわかる。

文　献

Cotterman CW. 1940. A Calculus for Statistico-genetics. Unpublished thesis,Ohio State Univ., Columbus, Ohio.
Cotterman CW. 1959.Relationship and Probability in Mendelian
Population.Unpublished mimeograph of lecture note:Medical Genetics136.p21.University of Wisconsin
Denniston C. 1967. Probability and Genetic Relationship. Unpublished thesis,University of Wisconsin, Madison, Wisconsin.
Fisher RA. 1918. The correlation between relatives on thesupposition of Mendelian inheritance. Trans Roy Soc Edinb 52:399-433.
Malecot G. 1948.Les mathematiques de l’heredite. Masson et Cie, Paris.
Propping P and Kruger J. 1976. Uber die Haufigkeit vonZwillingsgeburten. Dtsch Med Wochenschr 101: 506-512.
Propping P and Vogel F. 1976. Twin studies in medical genetics. Acta　Genet Med Gemellol (Roma) 25: 249-258.
Stewart C. 1997. An udder way of making lambs. Nature 385:769-771.
Wilmut I, Schnieke AE, McWhir J, Kind AJ & Campbell KHS. 1997.　Viable offspring derived from fetal and adult mammalian cells.　Nature 385:810-813.
Wright S. 1922. Coefficients of inbreeding and relationship.Amer Nat　56:330-338.
Wright S. 1951. The genetical structure of population. Ann Eugen　15:323-354.

CXY	=(-a)(-a)[k０p４+2k１p３+k２p２]+(-a)(d)[k０(p３)q+2k１(p**２)q]
	+…+(a)(a)[k０q４+2k１q３+k２q**２]
	= k０[(a２)(p４)-ad(4(p３)q)+d２(4(p２)(q２))
	+a２(2(p２)(q２))+ad(4p(q３))+(a２)(q４)]
	+2k１[(a２)(p３)-ad(2(p**２)q)
	+(d２)(pq)+ad(2p(q２))+(a２)(q３)]
	+k２[(a２)(p２)+(d２)(2pq)+(a２)(q**２)]