集団遺伝学　第７回　ハーディ・ワインベルクの法則 (応用例)

2016/07/14

第6回の4.3.2.3 の追加です。

乗換え価cは雄雌で同じでないことがある。キイロショウジョウバエでは乗換えは原則として雌に限られているし、カイコでは雄に限られている。ヒトでは一般に女子の方が男子より値は大きいが、遺伝子座によってはその逆のこともある。平均してその比は1.8といわれている。

子どもへ寄与はふた親とも同じに違いないから、子どもの配偶子は同じチャンスでふた親から由来する。雄雌の乗換え価をそれぞれcm, cfとすると、第t世代の配偶子頻度は次のように表される。

Pt = [(1-cm)Pt-1+cmpiqk]/2 + [(1-cf)Pt-1+cfpiqk]/2 = [(1-C)Pt-1 + Cpiqk]/2

ここでCは雄雌の乗換え価の算術平均:C=(cm+cf)/2である。キイロショウジョウバエやカイコでは、雄雌ともに等しく乗換えのある場合に比べて平衡頻度へのアプローチは半分の速度になる。ヒトの場合は１割ほど速度が遅くなる。

4.3.3 ハーディ・ワインベルグの法則(応用例)

4.3.3.1 遺伝子頻度の推定とハーディ・ワインベルグ(HW)の法則

単一座位に２対立遺伝子の場合

a.,共優性。

第5回講義の3.遺伝子頻度の計算で用いたMN血液型の例を再掲載する。東京在住者6,782人のMN式血液型を抗M血清、抗N血清を用いて調べたところ、MM型が2,021人、NN型が1,429人、MN型が3,332人であった。それぞれの遺伝子をカウントすると、Mの遺伝子頻度p=0.544, Nの遺伝子頻度q=0.456 (p+q=1で計算のチェック)が得られる。 HWの条件が成り立つとして、各遺伝子型の予測値を求めてみよう。

遺伝子型	観測値	予測値
MM型	2,021(=n11)	6,782p2 = 6,782*0.5442 = 2,007.04
NN型	1,429(=n22)	6,782q2 = 6,782*0.4562 = 1,410.22
MN型	3,332(=n12)	6,782(2pq) = 6,7820.5440.456 = 3,364.74
合計	6,782(n=n11+n22+n12)	6,782.00

遺伝子型頻度の観測値がHWの予測値に適合しているかは、適合しないとする仮説を設けて、次の統計量を計算する。

Ｘ**2 = n{(n12/2)**2-n11xn22}**2/{(n11+n12/2)(n22+n12/2)}**2

この値は自由度1のＸ2(カイ自乗)分布にしたがうので、この値が3.84より大きければ5%水準で有意であるとして仮説を棄却する。そして適合すると判断する。

前の例では

Ｘ**2=6782{16662-2021×1429}**2/{(2021+1666)(1429+1666)}**2

=6782x{112453/11383410}2

=0.66。

この値は95%水準で有意でないから、データがHW法則に適合しないとは言えない。

注意1：この方法はn12>5, n11>5, n22>5の場合で使える。
注意2：これはＸ2検定法といううが、前出の公式は統計学の２ｘ２分割表の独立性の検定そのものである。 [cf. Li CC 1976: First Course in Population Genetics. The Boxwood Press]

b.優劣関係が完全な場合

共優性のところで用いた同じデータで、抗M血清のみでタイプした場合に相当する。表現型、遺伝子型、観測値、予測値は次のようになる。

表現型	遺伝子型	観測値	予測値
M(+)	MM, MN	5,353	6,782[p**2+2pq]
M(-)	MN	1,429	6,782q**2
合計		6,782	6,782.00

M遺伝子を1つあるいは2つ持つ個体は抗M血清に反応すると考えられる。すなわち、遺伝子型MMとMNのいづれもM(+)である。 M, N対立遺伝子の頻度をそれぞれp,q,(p+q=1)とすると、HWの法則から表現型M(+)の予測値は各遺伝子型の予測値をプールして、6782[p**2+2pq]となる。

N対立遺伝子の頻度をカウント法で求めてみよう。 M(-)の個体には2個、M(+)個体でMNなら1個ある。そこでM(+)でMNである割合(h)を求めてみよう。それは2pq/(p**2+2pq) = 2q/(p+2q) = 2q/(2-q),とNの遺伝子頻度のq関数で表すことができる。調査集団でのNの遺伝子の数は2*6,782q=2*1,429+h*5,353から求めることができる。 h=2q/(2-q)を代入すると 6,784q2=1,429が得られる。これから q=0.459, p=1-q=0.541。前の共優性のデータから求めた数値 q=0.456, p=0.544との相違が小数点以下3桁目にみられるが、これは生物学的には優性があるかないかにより、統計的には表現型クラスの数の3と2の違いによる。なお、遺伝子頻度を同じデータから求めるかぎり、このデータでのHWの法則の検定は必要な自由度がないのでできない。

c.ABO血液型

[発見の経緯] ABO式血液型は1900年にランドスタイナーが最初に発見した赤血球膜抗原である[Landsteiner K 1900. Zur Kenntnis der antifermentativen lytishen und agglutinietenden Wirkungen des Blutserums und der Lymphe. Zbl Bakt 27:357-366]。この血液型が適合しないと輸血はうまくいかないし、臓器移植でも拒絶反応が起こる。ランドスタイナーは他人の血清と血球を混ぜると凝集反応が起きる場合と起きない場合があることに気付き、ヒトを3群(A,B,O)に分けた。第4群(AB)は少し遅れて1902年に発見された。血球の抗原と血清の抗体は相互関係にあり、4つのグループは2種類の抗原抗体反応で説明できることがわかった。

A型:血清は他のB型の細胞と凝集反応を起こすが、他のA型の細胞とは起きない。
B型:血清は他のA型の細胞と凝集反応を起こすが、他のB型の細胞とは起きない。
C型(後のO型):どの細胞とも凝集反応を起こさない。
AB型:他の型の血清いずれとも細胞が凝集する。

[遺伝] 1910年にvon Dungern EとHirschfeld L(1910)がA抗原、B抗原はメンデルの法則にしたがって遺伝することを示した。それぞれの抗原が存在するが優性で、ないのが劣性であるとしたが、後に代表的な複対立遺伝子A,B,Oがあることが統計的に証明された[Bernstein F 1924, 1925](後出)。

[染色体の位置] ABO遺伝子座は9番染色体の長腕(9q34)に位置にある。この位置は家系調査による連鎖分析、細胞雑種法および酵素活性と染色体異常の関連のさまざまな角度の研究から決まった。アデニル酸キナーゼ(AK)・ABO式血液型・爪膝蓋症候群の連鎖が1976年までに家系分析から知られていた。細胞雑種法で赤血球酵素の1つAKの位置が9番染色体であることが分かった後、9番染色体に異常のある症例を集めて、その異常の型とAK酵素の活性との関係が調べられた。 9q3が重複している症例でAK酵素活性が高かったことから、AKと連鎖したABO式血液型の位置がわかった。

[分子遺伝学] AとBの対立遺伝子はそれぞれH抗原にN-アセチルガラクトサミン(GalNA)を転移するN-アセチルガラクトサミニル転移酵素とガラクトース(Gal)を転移するガラクトキシル転移酵素をコードしている。 O対立遺伝子がコードするたんぱく質にはいずれの転移酵素の活性がない。これら3複対立遺伝子のcDNAとアミノ酸配列は山本ら(1990)によって明らかにされた。 [Yamamoto F, Clausen H, White T, Marken J, Hakomori S 1990. Molecular genetic basis of the histo-blood group ABO system. Nature 345:229-233.] それによるとA遺伝子、B遺伝子ともに354個のアミノ酸からなる転移酵素をコードしている。 A遺伝子とB遺伝子の塩基配列を比べることにより、コドンの176, 235, 266, 268番目違っており、その結果4個のアミノ酸がそれぞれの転移酵素で異なることがわかった。 A転移酵素とB転移酵素の基質特異性の相違がこの違いで説明できる。一方、O遺伝子のcDNAの塩基配列はA遺伝子と類似しているが、88番目のコドンのG塩基が欠失しているため枠組みずれの突然変異となり、117個のアミノ酸からなる別のタンパク質が産生される結果となる。このタンパク質には転移酵素の活性はない。その後、O遺伝子のcDNAの塩基配列の研究が進み、B遺伝子と類似のcDNA配列や特異的なG塩基の欠失を伴わないO遺伝子も報告されている[Daniels G 1995. Human Blood Groups. Blackwell Sci. p.21-23.]。

[遺伝子頻度の推定] 3つの複対立遺伝子A, B, Oそれぞれの複対立遺伝子頻度をp,q,r(p+q+r=1)とする。ある集団から任意抽出した各血液型の個体数を[O],[A],[B],[AB]([O]+[A]+[B]+[AB]=N)としよう。 HWの法則から各血液型の予測値は次のようになる。

ABO式血液型	赤球の抗原	血清の抗体	遺伝子型	観察値	予測値
O	なし	抗A,抗B	OO	[O]	N[r**2]
A	A	抗B	AA,AO	[A]	N[p**2+2pr]
B	B	抗A	BB,BO	[B]	N[q**2+2qr]
AB	A B	なし	AB	[AB]	N[2pr]
合計				N	N

A遺伝子頻度は

p = p(p+q+r) = pq+p(p+r) = (2pq)/2+(p+r)**2-√[r**2(p+r)**2]

の関係に注意して右辺の各予測頻度をそれぞれ観測頻度と置き換えると次の公式が得られる。

p = {[AB]/2+[A]+[O]-√{[O]([A]+[O])}}/N

同様にして、B対立遺伝子の公式は次のようになる。

q = {[AB]/2+[B]+[O]-√{[O]([B]+[O])}}/N

O対立遺伝子頻度は

r = 1-p-q

から求めることができる[Yasuda N 1984. A note on gene frequency estimation in the ABO and ABO-like system. Jpn J Human Gnet 29: 371-380.]。

[計算例] 日本人の献血者の全国資料[Fujita Y, Tanimura M and Tanaka,K 1978.The distribution of the ABO blood groups in Japan. Jpn J Human Genet 23:63-109.]から、N=4,465,349、[O]=1,305,924(29%)、[A]=1,725,950(39%)、[B]=988,996(22%)、[AB]=444,479(10%)が得られた。前出の公式で計算すると、p=0.2831, q=0.1760, r=0.5409,が求める遺伝子頻度である。これからHW法則による予測値はO型が1,306,440(29%)、A型が1,725,425(39%)、B型が988,507(22%)、AB型が444,979(10%)となる。適合度のＸ2値(自由度df=1)は1.16で5%水準で有意差はない。

注意1:[HW法則への適合度検定の自由度]予測される表現型(ph)が全て実際に観測され、それぞれの観測数がいずれも5以上であれば、自由度(df)はph-mから求められる。ここでmは複対立遺伝子の(HW法則の)予測数である。ABO式血液型の場合はph=4, m=3であるから、df=4-3=1となる。
注意2:[遺伝子頻度推定のいくつかの方法]数学的にモーメント法と最尤法がある。モーメント法は観測値と予測値を等しいとして、遺伝子頻度を求める。前出の2対立遺伝子で(b)優劣関係が完全な場合では、劣性表現個体の観測数を[R]、HW法則での予測数はNr2、とすると、[R]=Nr2から、r=√{[R]/N}と遺伝子頻度が求められる。この結果は3個以上の複対立遺伝子を同時に推定した場合、表現型の種類数と複対立遺伝子の数が同じならば最尤法で求めた推定値と一致することが知られている[Bailey NTJ 1951. Testing the solubility of maximum likelihood equations in the routine application of scoring methods. Biometrics 7: 268-274]。表現型の種類と複対立遺伝子の数が同じでない場合の応用例をABO式血液型にみることができる。

[Bernsteinの公式] HWの法則からの4種類の表現型の観測値をその予測値と同じとおくと、次の3式が得られる。

[O] = Nr**2、[A]+[O] = N(p+r)**2、[B]+[O]=N(q+r)**2

これらから、

r=√{[O]/N},

p+r=√{{[A]+[O]}/N}。p+r=1-qだから、q=1-√{{[A]+[O]}/N},

q+r=√{{[B]+[O]}/N}。q+r=1-pだから、p=1-√{{[B]+[O]}/N}.

ここでD = 1-(p+q+r)とすると、適合度のＸ2は次式から求められる。

Ｘ2 = 2N{1+(r/pq)}D**2 (df=1)

この方法ではp+q+rが1とならないので、Bernsteinは補正法を考案している。補正前の遺伝子頻度をp’,q’,r’とすると

p = p'{1+(D/2)}, q = q'{1+(D/2)}, r = {r’+(D/2)}{1+(D/2)}

Bernsteinのこの方法はAB表現型の観測値考慮に入れていないので推定値としては十分ではない。

日本人の献血者のデータにBernsteinの方法を適用すると、r=0.5408, p=0.2831,q=0.176。これらからD=0.0001となり、Ｘ2=1.06と有意差はない。この場合D/2=0.00005となるので求めた遺伝子頻度の補正をするまでもない。

[Wienerの公式] Bensteinとは若干違うやり方である。 Bernsteinの方法でr=√{[O]/N}とp+r=√{{[A]+[O]}/N}から、引算により、

p = √{{[A]+[O]}/N}-√{[O]/N}

同様にして

q = √{{[B]+[O]}/N}-√{[O]/N}

日本人の献血者のデータにWienerの方法を適用すると、r=0.5408, p=0.2832,q=0.1761となり、このデータではBernstein法による推定値と小数点4桁目での違いである。

これらの方法による推定値の統計的性質(不偏性、有効性、十分性)についての検討が行われているが、この講座の範囲外と思われるので立ち入らない。 AB型を配慮に入れた最初の方法は、別名カウント法といい、反復して推定値を改良することで最尤推定値を求めることが出来る。 [Ceppellini R, Siniscalco M, Smith ACB 1955. The estimation of gene frequencies in a random-mating population. Ann Hum Genet 20: 97-115]。カウント法は一般にいうEMアルゴリズムであり、初期値の如何にかかわらず、最尤推定値に収束する性質を備えている[Dempster AP, Laird NM, Rubin DB 1977. Maximum likelihood from incomplete data via the EM algorithm. J RoyStat Soc B 39: 1-38]。

引用文献

Bailey NTJ 1951. Testing the solubility of maximum ikelihood equations in the routine application of scoring methods. Biometrics 7: 268-274 Bernstein F 1924, 1925

Daniels G 1995. Human Blood Groups. Blackwell Sci. p.21-23.

Fujita Y, Tanimura M and Tanaka K. 1978. The distribution of the ABO blood groups in Japan. Jpn J Human Genet 23: 63-109.

Landsteiner K 1900. Zur Kenntnis der antifermentativen lytishen und agglutinietenden Wirkungen des Blutserums und der Lymphe. Zbl Bakt 27: 357-366

Li CC 1976: First Course in Population Genetics. The Boxwood Press] von Dungern E,and Hirschfeld L 1910.

Yamamoto F, Clausen H, White T, Marken J, Hakomori S. 1990. Molecular genetic basis of the histo-blood group ABO system. Nature 345:229-233.

Yasuda N 1984. A note on gene frequency estimation in the ABO and ABO-like system. Jpn J Human Gnet 29: 371-380.

次回はHWの法則を用いて形質の遺伝様式判定について述べます。