基礎の遺伝疫学講座   安田 徳一 (2008/08/21)


 

3.      個体の遺伝子

遺伝性疾患の病因や分布についての情報は、集められたデータの構造単位、すなわち個人、2人一組(一対)の血縁者、核家族(両親と子ども等)、それに家系と、一般にこの順序で複雑になる。本章では個体の集合、すなわちヒト集団での基本的な方法について述べる。個体での遺伝を考えるとき、遺伝子gene、遺伝子型genotypeと表現型phenotypeの区別を理解する必要がある。遺伝子は親から子どもへ伝える遺伝情報の単位である。遺伝子型は父親と母親由来それぞれの遺伝子の組み合わせで構成される個体である。表現型は与えられた遺伝子型を構成する2つの遺伝子の組み合わせに基づいて発現する形質であり、これは観察可能である。記号で表せば 

p = g + e 

pは表現型値、gは遺伝子型値、そしてeは環境(効果)値を表す。ここで遺伝子の効果をaとすると、g=a+dと表せる。父親由来、母親由来の遺伝子の効果をそれぞれaFaMとすると、a= aF +aMである。ここにdはドミナンスdominanceといい、父親由来と母親由来の対立遺伝子間の相互作用を表す。すなわち 

              p=a+d+e 

ここで環境値eがほぼ一定{すなわち環境分散V(e)0}で、遺伝子型の表現型が唯一つであるとき完全浸透complete penetranceという。そうでないとき(たとえば同じ遺伝子型なのに環境値が違うとき)は不完全浸透incomplete penetranceという。特異的な高分子(RNAやタンパク質)を生じるDNA配列を座位locusという。

 

 

3.1 遺伝システム

任意交配の高等生物で、表現型の効果へ寄与する因子が互いに関連して密に連鎖した遺伝情報の単位を遺伝システムgenetic systemという。任意交配では対立遺伝子が無作為に結合する、あるいは機会均等に結びつくことで3.6節に詳しく述べる。遺伝システムにおいて、ある座位の父方由来と母方由来の遺伝子を便宜的に対立遺伝子と呼ぶ。2つ以上の座位を含む遺伝システムはハプロタイプhaplotypeと呼び、座位が1つの場合では対立遺伝子alleleという。相互作用のない連鎖した座位は遺伝システムとは言わない。これは対立遺伝子頻度を決める集団の大きさが無限で、任意交配が行われていると仮定するからである。仮想的な任意交配は連鎖不平衡が無くなるほど十分長い世代を経過していることがその前提にある。遺伝システムを座位に分割することが今日可能である。遺伝子geneは対立遺伝子を指すのが普通であるが、時には座位を表すこともある。マーカーや因子factorは対立遺伝子あるいは対立遺伝子の属性である。

 

3.2 因子結合表現型システムfactor union system

一般に対立遺伝子は因子factorという属性の有無、1,0で区別することができる。たとえばABO式血液型システムは、赤血球の膜表面の抗原Aと抗原Bの存在を血清ABとのそれぞれの反応により対立遺伝子AB Oを決めることがでる(3-2-1) 

3-2-1 ABO式血液型


対立遺伝子 表現型 抗 原 フェノセット
  通常 バイナリー A B {遺伝子型の集合}#

O O 00 {OO}
A A 10 + {AA, AO}
B B 01 + {BB, BO}
  AB 11 + + {AB}

                # 同じ表現型を示す遺伝子型の集合 

これら3つの対立遺伝子から6つの遺伝子型が生じ、4種類の表現型が得られる。

 ここで2つの因子(このABO式血液型の場合は血清ABそれぞれに反応する赤血球膜抗原)について次の演算が行えるものとにする。 

0+001+0=0+1=11+1=1 

対立遺伝子を因子の数でまとめたベクトルの形で表すと 

A=(10)B=(01)O=(00) 

遺伝子型は、たとえば、AAA+A=(10)+(10)=(1+1 0+0)=(10)AOA+O (10)+(00)=(1+0 0+0)=(10)。 したがって、たとえば A型はAA+AO=(10)と、同じ表現型を構成する遺伝子型をプールすることができる。特定の表現型を表す遺伝子型の集合をフェノセットphenosetという。

このように遺伝子、遺伝子型、表現型の関係を因子の結合演算で規定できる遺伝システムを因子結合表現型システムfactor union phenotype system という。コッターマン(Cotterman, 1969)は因子結合システムの遺伝子型数、フェノセットの構成、それに父権否定のルールなどの有用な諸性質を調べている。

因子と試薬の対応が明らかなのは血液型などの抗原系である。因子はまた電気泳動でのバンドの有無にも当て嵌めることが出来るであろうが、考えられるホモ接合のすべてが異なるバンド(因子に相当する)でなければならない。たとえば、ハプトグロビンシステムは電気泳動により3つの表現型1-12-21-2が得られるが、対立遺伝子HP1HP2は因子で表すと、それぞれ1001となる。ヘテロ接合の表現型は10+01=11であるが、バンドの物理的位置に関わりなく2つのバンドが観察されていれば十分である。

対立遺伝子が2つでその因子が一つであるときの表現型は因子で10である。これは優性あるいは劣性の場合である。因子の順序は本質的に問わない。

対立遺伝子が2つでその因子が2つのときには、次の6つのシステムが考えられる。 

3-2-2  因子が2つのときの6つの因子結合表現型システム


対立遺伝子 表現型 システムの例: (対立遺伝子)

11, 10, 01, 00 11, 10, 01, 00 Rh: (C,D)
11,      01, 00 11,      01, 00 ABO: (A1,A2,O)
11,      01 11,      01 ABO: (A1,A2)
11,           00 11,           00 ABO: (B1,B2,O)
        {2種類のB血清使用}
     10, 01, 00 11, 10, 01, 00 ABO: (A,B,O)
     10, 01 11, 10, 01 MN: (M,N、スニップ:A,Tなど)

 

3.3 正則表現型システム

  対立遺伝子とその産物の1:1対応は、「1遺伝子1ポリペプチド」を表しており、因子結合表現型システムはまさにこのような表現型システムである。しかし表現型が直接の遺伝子産物から遠ざかると、多様な状況が生じる。因子結合表現型システムではホモ接合はそれぞれ違う表現型を示すことが必要であるが、この条件を外した表現型システムを考えてみよう。

各遺伝子型は唯一つの表現型を示すものとする。このとき表現型システムは正則regularであるという。2対立遺伝子の座位を取り上げよう。正三角形の頂点で遺伝子型を表し、ヘテロ接合を○、ホモ接合を●とすると、同じ表現型の遺伝子型を直線で結ぶことにより、5通りの図(これを表現図phenogramという)を描くことかできる。そのうち3つは因子結合表現型システムであるが、残りの2つは因子結合表現型システムではない(3-3)。複対立遺伝子の場合では正多角形について表現図を描くことができる。

 

   表3-3 対立遺伝子AB2つであるのとき正則表現型システム


3つの[表現型]の相違(同じ=、違う≠)

表現型 システム

1. [AA]≠[BB]、[AA]≠[AB]、[BB]≠[AB] AとBは共優性 FU
2. [AA]≠[BB]、[AA]=[AB]、[BB]≠[AB] AはBに対して優性 FU
3. [AA]≠[BB]、[AA]≠[AB]、[BB]=[AB] AはBに対して劣性 FU
4. [AA]=[BB]、[AA]≠[AB]、[BB]≠[AB] Metataxy* 非FU
5. [AA]=[BB]=[AB] Parataxy* 非FU

   *(Cotterman 1953)の命名。FU=因子結合表現型システム 

  表3-35番は3つの遺伝子型すべてが同じ1つのフェノセットに属しており、これは未知のシステムで検出に適切な手法の開発が待たれるか、第3の対立遺伝子によりシステムが見つかる可能性を秘めている。4番は2つのホモ接合が同じ表現型を示す表現型システムである。たとへば、AB型の人の赤血球を試薬として、ABO式血清型を判定するなら、AB型の反応は‐で、A型、B 型、O型の反応は+である。この場合O型の存在は認知できない。表現型システムは検査技法に依存することが分かる。たとえば優性システムとか劣性システムは検査方法により共優性システムとなり得るのである。以上から、2対立遺伝子の正則表現型システムregular phenotype system5つのうちの2つが因子結合表現型システムである(2番と3番はABを入れ替えると同じであるので区別しない)3対立遺伝子ではそれぞれ52(Cotterman 1953)9、さらに4対立遺伝子では5,52581と急速に増える(Hartl & Maruyama 1968)。重要と思われることは正則表現型システムの内で因子結合表現型システムの数が非常に限定されていることである。

因子結合表現型でなく、また正則でない重要なシステムがある。それは不完全浸透imcomplete penetranceの場合である。特定の条件で集団を調査したとき、少なくとも一つの遺伝子型が二つ以上の表現型を示すことがある(多面発現pleiotropism)。浸透率は年齢、性、そのほかの要因に依存することがある。遺伝子型と表現型の対応がわかることもある。成人型ハンチントン病は30歳を過ぎて発症するが若年で発症前診断が可能である。調査のやり方次第によっては疾患遺伝子の保因者を「健常者」と誤診とすることもあり得る。これも浸透率の一因である。

以上により因子結合表現型システムでない場合として、表現型判定の誤り、あるいは直接の遺伝子型産物の同定に経費が掛かる、あるいは観察手段がない、さらには未だ何もわかっていない、などが考えられる。これらは学問の進歩で克服されようから、まずは因子結合表現型システムを理解することが肝要である。

人類遺伝学の検査法の目標の一つは、血液や体液、体細胞などを用いて、人に与える苦痛を最小限にして遺伝子型を判定することである。これは健康診断や病気の診断についても言えることである。これらが不完全であると確率を用いた判定あるいは診断となる。

 

3.4  遺伝子頻度

遺伝変異は理論的に扱うと天文学的な数になる。2対立遺伝子、3遺伝子型のシステムが1,000もあれば、二倍体の遺伝子型は31000通りが可能である。これは477桁の数になる。たくさんのシステムを同時に扱って精確な結論を導くことはできないので、1つを選び、他を無視する。それで二倍体より一倍体の集まりを考察することで、さらに取り扱いが簡単になる。

1つの座位に対立遺伝子(A1,A2,…,Am)のあるN個の配偶子(g1,…,gN)の集合 (これを遺伝子プールgene poolという)を取り上げる。このときqi=gi/Nを遺伝子頻度gene frequencyという。gi=Nであるから、0qi1qi=1である。ここで狽ヘiについて総和をとることを表す。分子遺伝学では個々の配偶子をゲノムgenomeという。

以上から、2対立遺伝子の5つの正則表現型システムregular phenotype systemのうち2つが因子結合表現型システムである。与えられたNについて、この定義を検討してみよう。たとえばN=2とすると、ホモ接合AiAiではqi=1qj=0 (ji)、ヘテロ接合AiAjではqi=qj=1/2 (ji)である。一方、Nの大きさは無限大(実際には十分大きい数)になることすらある。

2つの遺伝子プールはそれぞれの遺伝子頻度に相違があるとき、差があるという。ある世代の遺伝子プールは次の世代の遺伝子プールと差があることがある。またある集団の遺伝子プールと別の集団の遺伝子プールとで差があることもある。集団遺伝学では大きさN=12,・・・,∞の遺伝子プール間の差の有無について研究する。(二倍体の)個体は2 つの遺伝子の集合であり、グループ(亜集団)は個体の集合であり、集団は亜集団の集合であるから、一つの遺伝子プールに対して別の遺伝子プールを取り扱う方法を考える必要がある。ある集団の一部wk (0wk1) にあたるk番目の亜集団のi番目の対立遺伝子頻度はqi=wk qikと表せる。

 例題.それぞれ大きさ100200の亜集団で、スニップス(A/T)を調べて次の結果を得た。


塩基 因子表示 亜集団1 亜集団2 全集団

AA 10 9 72 81
AT 11 42 96 138
TT 01 49 32 81

合計   100 200 300

ここでw1=1/3w2=2/3である。ホモ接合AAにはA2つでT0であるから、Aの遺伝子頻度は1Tの遺伝子頻度は0である。ヘテロ接合AAではATが一つずつあるから、ATの遺伝子頻度は1/2である。したがって 

    q11={(1)9+(1/2)42}/100=0.3 q12={(1)72+(1/2)96}/200=0.6 

全集団では 

      q1=(1/3)(0.3)+((2/3)(0.6)=0.5 

これは2つの亜集団をプールしたときの遺伝子頻度 {(1)81+(1/2)138}/300 に等しい。

さて遺伝子頻度の実際的な面について考えてみたい。集団遺伝学の調査研究では多岐にわたって普遍的なcommon遺伝子とまれなrare遺伝子を区別することがある。その違いは病理学的効果、データを集める方法、それに伴う遺伝的パラメータを推定する方法、集団間の頻度の相違、近親婚の影響、遺伝子頻度が決まる組織的圧力などの原因がある。定義よりむしろ仮説に表れる相違について、主だった頻度の違いを分類する用語がある。

集団の対立遺伝子頻度pが≦0.01以下ならまれな遺伝子idiomorphs0.01<p<0.99なら多型遺伝子polymorphsp0.99以上ならよくある遺伝子monomorphsとする。

少なくとも1つの多型遺伝子があるとき、その表現型システムは多型polymorphismであるという。よくある遺伝子のときはシステムを単型monomorphismであるという。この定義は頻度だけによっており、その効果については触れていない。適応度にはっきりした影響がある場合には、まれな遺伝子は(メンデル性)疾患遺伝子あるいは私的遺伝子private alleleと呼ぶ。よくある遺伝子は公的遺伝子public alleleあるいは野生型遺伝子wild-type alleleという。多くのシステムで多型遺伝子は2つ以上である。

Kell(K)血液型システムを例として以上の考えを説明しよう。対立遺伝子セラーノK*2はすべての集団でごく普通に見られる。東洋人で単型的で、他の集団では多型的である。ケルK*1は白人で多型的だが、他の集団ではまれである。スッター対立遺伝子K*4は黒人で多型的であるが、そのほかの集団ではまれである。残りの対立遺伝子はすべてでまれである(3-4-1)

3-4-1  Kell血液型システムの対立遺伝子


遺伝子

抗原#

およその遺伝子頻度
記号 通常 バイナリー K1 K2 K3 K4 K5 K6 K7 白人 黒人 モンゴル

K*1 K 1001101 + - - + + - + 0.045 0.005 0
K*2 k 0101101 - + - + + - + 0.935 0.851 0.99
K*3 kp 0110101 - + + - + - + 0.01
K*4 ks 0101110 - + - + + + - 0 0.144 0
K*5 ko 000000 - - - - - - - 0.01

#K1=(K)=Kell, K2=(k)=Cellano, K3=(Kpa)=Penney, K4=(Kpb)=Rautenberg,

K5=(Ku)=Peltz, K6=(Jsa)=Sutter, K7=((Jsb)=Matthews

 

頻度とその効果を配慮して(対立)遺伝子の分類をしたのが図3-4.である。 

3-4. 遺伝子の表現型効果と頻度による分類。


  ← ポリジーン
 
  ||  ← オリゴジーン
|||   
  ||||
0 |||||||  ← 主要遺伝子(メンデル性因子)   
  効果  (小⇔大)

主要遺伝子major genesはまれで多くの重症のメンデル性疾患にみられる。オリゴ遺伝子oligogenesは良くある普遍的な病気の原因となるが頻度も高く様々な症状を表し環境要因との相互作用の影響もある。2型糖尿病はその例である。ポリジーンpolygenesはたとえば指紋のような正常形質の原因となるものもあり、おそらく軽症の疾患は効果の小さい多数の遺伝子が関与しているのかも知れない。

 

3.5. 完全混合

 二倍体の世代は遺伝子プールからの2つの配偶子が何らかの規則にしたがって対合し、接合体を形成することで始まる。その接合体は移動migration(主に体細胞)突然変異mutation、死亡mortality、妊性fertilityや生存率の相違、を体験し、さらに遺伝子プール(一倍体)を産生する際の組換えrecombination(生殖細胞)突然変異mutationを経由してその世代を終わる。完全混合panmixiaは配偶子が完全に無作為な対合をすることを意味する。これは集団の大きさ、近親婚、選択婚などの条件に縛られず、受精のときの状態を表す。二倍体集団が完全混合であるとは接合体が精子からAiを、卵子からAjを受け取る確率がpipjであるときに限る。これはすべてのijについて成り立つ。このことから一対の遺伝子型(AiAj, AkAl)が抽出される確率はCpipjpkplに比例する。比例定数Cは相互の遺伝子型や対のまとめにしたがって決まる(C=1,2,4,8)

完全混合はときに任意交配というが、後者は接合体の無作為対合という意味でも用いられているのであまり正確な用語ではない。性別のある小さな集団での任意交配と完全混合は同じでない。例えばある集団がA1A2A2A22個体で構成されているとする。この2個体がお互いに異性であると、接合体の(無作為)対合はA1A2×A2A2だけであるからA1A1の生まれる確率は0である。完全混合の定義で確率は(1/4)2=1/16である。後者は自家受粉のある接合体の無作為対合と数学的に同等である。すなわちA1A2×A1A2からその1/4の子どもがA1A1であるから、(1/4)2=1/16となる。集団の大きさが増すと性別の影響はなくなる。

完全混合は理想的な場合に成り立つもので、有性生殖を忠実にモデル化していない。ある生物種は自家受粉(受精)を好み、あるものは避けている。そのほかいろいろな要因が完全混合からの真のずれ、あるいは見かけ上のずれの原因となる。近親婚、選択、遺伝子型の誤分類などにも注意する必要がある。

このような問題はあるが、完全混合の考えは、物理学での理想気体のように、集団遺伝学ではたいへん有用である。いろいろの条件下で、交雑集団は完全混合のモデルにほぼ適合して、遺伝子型頻度についてのよい近似を得ることができる。すなわち、表現型から逆に遺伝子頻度piをかなり正確に求めることができる。

最初の表現型頻度が何であれ、一回(世代)の完全混合は定義により、AiAjの頻度はAjAiの頻度に等しくこれはAiAjそれぞれの頻度の積pipjで表される。それ以後の世代で、遺伝子頻度の変化を生じる他の要因がなければ(中立)、偶然によるゆらぎが無視できるほどに十分大きな集団では遺伝子型頻度はほぼ一定となる。この原理は1908年にイギリスの数学者ハーディGH Hardyとドイツの産科開業医ワインベルグW Weinbergによって独立に定式化された。

ハーディ・ワインベルグの法則。無限大の集団で、中立な常染色体システムの遺伝子型頻度は、最初の対立遺伝子型頻度が何であれ、1回の完全混合で平衡状態になる。その平衡頻度は 

遺伝子型 遺伝子型頻度
AiAi : pi2
AiAj : pipj+pjpi=2pipj(ij)

ここにp1,p2,・・・,pmはそれぞれ対立遺伝子A1,A2,・・・,Amの頻度である(p1+p2+・・・+pm=1)。この定理の汎用性の一つに何らかの要因で遺伝子頻度が平衡値からずれたとすると、続く何世代かの間にゆっくりと何らかの変化をしていくのではなく、次の世代で直に新しい平衡値になることである。性別のある生物種で接合体頻度に性差があると遺伝子プールが一過性の分集団に分かれる状態になる。父方由来と母方由来の配偶子が結合して接合体は生じるから、精子と卵子それぞれでの頻度の平均値が、子ども世代での(平衡)遺伝子頻度になる。

 

3.5.1 伴性遺伝子

性染色体については遺伝子プールの性による分割は何世代にもわたって存続する。ヒトのように男子が異形性heterogametic(AiY)である生物種を考えてみよう。遺伝子型の平衡頻度は


  遺伝子型 遺伝子型頻度
男子 AiY pi
女子 AiAi : pi2
  AiAj : 2pipj   (ij)

である。何らかの理由で最初の遺伝子頻度に精子と卵子で相違すると、平衡値に至るまで遺伝子頻度は振動しながら差を小さくしていく。女子の遺伝子頻度は平衡値からのずれの半分の大きさが次世代の頻度になるが、その偏差の大きさは世代交代ごとに符号が変化する(つまり振動する)。男子のそれは女子の変化を1世代遅れるパターンで変化する。初期頻度に大きな相違が男女にあっても数世代でほぼ完全混合に到達する。

 

3.6.  2座位システム

単一座位とは異なり、常染色体上の2つ以上の座位、同一あるいは別の染色体上にあっても、平衡状態は、直には到達しないで何世代も要する。たとえば2座位システムでは平衡値からの配偶子頻度のずれは、同一染色体に組換え率θで連鎖していると、世代あたりθの割合で減少する。平衡までに要する世代の半分の世代数t1/2

       t1/2=ln (1/2)/ln (1-θ)

                0.693/θ          (密な連鎖の場合

である。

連鎖していない場合は同一染色体上にあろうが別の染色体上にあろうがθ=1/2であるから、1世代で平衡頻度からのずれの半分になる。これは6世代で1パーセント以下になるが、たとえば、θ=0.001ならばおよそ693世代を要することになる。平衡状態に至るまで遺伝子型AB/ab(ABが相引coupling)の頻度と遺伝子型Ab/aB(ABが相反repulsion)の頻度が違う状態を配偶子不平衡gametic disequilibriumあるいは連鎖不平衡linkage disequilibriumといい、両者の頻度が等しくなった状態を配偶子平衡gametic equilibriumあるいは連鎖平衡linkage equilibriumという。

平衡状態になると、配偶子はあたかも対立遺伝子かのようにハーディ・ワインベルグの法則にしたがう。そのとき二つの連鎖の相linkage phase、相引と相反、は同じ頻度になる。たとえばAiBj の頻度はそれぞれの対立遺伝子頻度の積pAipBiとなる。遺伝子型AiBk/AjBlAiBl/AjBkの頻度はどちらも(2pAipBk)(2pAjpBl)である。ここでijklである。

明らかに長い間、完全混合の状態が続いた集団では、表現型頻度に連鎖の効果はほとんど見られない筈である。別々のシステムの遺伝因子は独立に分布するようになる。しかし、近年の人の移動で、特に密に連鎖した遺伝子で配偶子不平衡がみつかることがある。ヒトの伴性形質グルコース6リン酸脱水素酵素G6PD(glucose-6-phospate dehydrogenase)と色覚形質CB(color blindness)は女子で組換え率θf=0.01、男子では組換えが起こらないからθm=0であるので、世代あたりの集団の組換え率はθ=(2/3)×0.010.007である。したがって、平衡状態までの半分までに要する世代数はt1/2=104になる。ヒトの1世代を30年とすると、これらの2座位間で何らかの理由(たとえば遺伝子突然変異)で不平衡が生じてから、これはおよそ3,000年に相当する。別の見方をすれば幾つもの遺伝子プールの組合せがほぼ配偶子不平衡であると期待される。実際、クルド系ユダヤ人は相反が多く、サルデーニャ島の村では相引が、アフリカ系アメリカ人では配偶子不平衡が観察されている。

3座位以上についての配偶子不平衡も理論的には同様である。配偶子不平衡の考えが有用と考えられるのは最近交雑が行なわれた集団、あるいは密に連鎖した形質間での関連を調べることが考えられる。分子レベルの精密解析が近年行われている(Slatkin 2008)

 

3.7.遺伝子頻度の推定

完全混合の集団で因子結合表現型のデータから遺伝子頻度の推定値を求める方法を紹介する。統計学的には偏りのない、誤差の少ない、データの情報を十分使いきるなどの性質をもつ十分推定値が要請される。生物学的に意味のある推定値でなければならないことは言うまでもない。前者の性質をほぼ満たすのが最尤法であり、カウント法はそれぞれの対立遺伝子を数えるということで生物学的にも理に適った方法で、その推定値は最尤法で求めた推定値と一致することが知られている(Ceppellini R 他、1955 Dempster AP , 1977)ので、本講座ではこの2方法を併用する。共優性の場合を除き、多くの因子結合表現型システムのデータから、最尤方程式の解析的な解が求められていないので反復法による数値計算によらざるを得ない。そのような場合、対立遺伝子の初期値を表現型データからカウントして求め、反復法を用いてその精度を上げていくことにする。

遺伝子頻度の推定は何らか仮説に基づいて行なわれる。仮説が正しければ、推定値は集団について有用な情報を提供する。仮説に重大な誤りがあれば、それを指摘することでより妥当な仮説を見出すことができることがある。推定と仮説検定は遺伝疫学でも相補的なのである。

例題3.7.1.常染色体の2対立遺伝子:共優性。{二進法表記:A1=(10)A2= (01)


表現型 観察値 期待値 推定値 分散{V(pi)
      (カウント)  

A1A1 n11 n(p12) p1=(2n11+n12)/(2n) p1(1-p1)/(2n)
A1A2 n12 n(2p1p2)    
A2A2 n22 n(p22) p2=(2n22+n12)/(2n) p2(1-p2)/(2n)

n n p1+ p2=1  

対立遺伝子がm(例:マイクロサテライト)であれば pi=(2nii+nij)/(2n) (i<j,i=1,2,…,m),

V(pi)=p1(1-pi)/(2n)mは対立遺伝子の総数。

例題3.7.2. 常染色体の2対立遺伝子:優性。{二進法表記:A1=(1)A2= (0)


表現型 観察値 期待値 推定値 分散V(pi)

A1 n1 n(p12+2p1p2) (p1=1-p2) p1(2-p1)/(4n)
A2A2 n22 n(p22) p2=(2 n22+hn1)/2n (*) (1-p22)/(4n)
      { h=2p2/(p1+2p2)}  

n n p1+p2=1  

(*) n22 = n(p22)としたときの解と反復カウント法で求めた解とが一致する。

3.7.3. 常染色体の2対立遺伝子:ヘテロ接合とホモ接合をプール(非因子結合表現型システム)


表現型 観察値 期待値 推定値 分散{V(pi)

A1A2 n12 n(2p1p2)  2p1p2= n12/n (1-2p1p2)/4n
ホモ nn12 n((p12+p22) pi=0.5{1±√(1- 2n12/n)}/n(#)  

n n    

(#)p1+p2は−符号の解A1A2のいずれが多いかという情報がないといずれがp1 p2になるかは決まらない。n12/ =n/2のとき、p1=p2=1/2と解は一つになる。

3.7.3. 常染色体の3対立遺伝子。例:ABO式血液型。


表現型 観察値 期待値 カウント 推定値

O n0 n(r2)   r=1-p1-p2
A1 n1 n(p12+2p1r) h1=p1/( p1+2r) p1=( n1+ n12+n1 h1)/(2n)
A2 n2 n(p22+2p2r) h2=p2/( p2+2r) p2=( n2+ n12+n2 h2)/(2n)
A1A2 n12 n(2p1p2)    

n n   p1+p2+r=1

初期値は、たとえば次のようにして求めることができる。p1=p1(p1+p2+r)=(2p1p2)/2+(p1+r)2-{r2(p1+r)2}であるから右辺に観察値を代入して、p1=[(n12/2)+n1+n0-{n0(n1+n0)}]/n。同じくp2=[(n12/2)+n2+n0-{n0(n2+n0)}]/nが得られる。r=1-p1-p2。これらの値からhの値を計算してprの値を再計算する。これを繰り返す。もし優劣のない対立遺伝子Aim個ですべてのm2に対して劣性の対立遺伝子が1個ある場合は古典的なHLAシステムに相当する。初期頻度はpi=[(nij/2)+ni+n0-√{n0(ni+n0)]/n (ij)、反復のための式はhi=pi/(pi+2r) (i=1,…,m)となる。ABO式血液型を含む一般の場合の分散公式も求められている(Larsen 1977)。劣性個体数n00であれば、m個の共優性対立遺伝子の推定公式が得られる。この場合、劣性対立遺伝子がヘテロで集団中に保有されているかどうかを検定する興味ある遺伝統計学的問題が生じる(Yasuda & Tuji 1975 ) 

3.7.4. 2座位各2対立遺伝子ハプロタイプシステム: A1B1=(1010), A1B2=(1001), A2B1=(0110), A2B2=(0101)


表現型 観察値 期待値 カウント 推定値

A1B1 n1 n(r112) h=2r11r22/(2r11r22+2r12r21)  
A1B1B2 n2 n(2r11r12)    
A1B2 n3 n(r122) a1=(2n1+n2+n4)/2n r11=a1+bh (*)
A1A2B1 n4 n(2r11r21) a2=(n2+2n3+n6)/2n r12=a2+b(1-h)
A1A2B1B2 n5 n(2r11r22+2r12r21) a3=(n4+2n7+n8)/2n r21=a3+b(1-h)
A1A2B2 n6 n(2r12r22) a1=(n6+n8+2n9)/2n r22=a4+bh
A2B1 n7 n(r212) b=n5/2n  
A2B1B2 n8 n(2r21r22)    
A2B2 n9 n(r222)    

n n (*) hの初期値としてh0=a1a4/(a1a4+a2a3)を用いる(安田 2007)

3.7.5. 任意の因子結合表現型システム。遺伝子記号の2進法表示により、一般の因子結合表現型システムについての遺伝子頻度は最尤法を用いて計算することができる(Yasuda, 1969、安田1973)。その肝要な点は、同じ表現型を示す異なる遺伝子型のすべてが同じ二進法表示となることである。例えばヒトのA1A2BO式血液型では4つの対立遺伝子は使用した血清に対する反応で次のように二進法で表示することができる。


遺伝子 二進法表示 遺伝子頻度

A1 110 p1
A2 010 p2
B 001 q
O 000 r

  1

これから2つの遺伝子の対合として10種類の遺伝子型が考えられるが、それらの二進法表示のうち異なるのは次の6種類である。


表現型 二進法表示 遺伝子型 観測値 期待値

A1 110 A1A1,A1A2,A1O nA1 n(p12+2p1p2+2p1r)
A2 011 A2A2, A2O nA2 n(p22+2p2r)
B 001 BB,BO nB n(q2+2qr)
A1B 111 A1B n A1B n(2p1q)
A2B 011 A2B n A2B n(2p2q)
O 000 OO nO n(r2)

    n  

表現型の期待値のほかに、その各対立遺伝子頻度の一次微分の値も同様にしてプールできるので推定値の反復計算に必要なスコアも同様にプールして求めることができる。したがって最尤法を使うことができる。

この方法で必要な情報の一つに遺伝子頻度の初期値があるが、カウント法などを用いて別途工夫して求める。対立遺伝子の数が増えると共に、複雑な最尤方程式の数も増える。そのような状況では、異なる初期値に対する解として類似した極値が複数個得られることがあるので、生物学的に妥当な解を求めるには初期値を基準としてどの数値解が適切であるかを判断する。

  遺伝子頻度の推定は何らかの仮定に基づいている。仮定が正しければ推定値は集団についての適切な情報を示す。ときには仮説に重大な誤りがあり、推定値からの仮説検定でそれが見つかり、新たな帰無仮説を見出すことが出来よう。

遺伝子頻度の推定値に関していえば、適切なフェノセットの違いに対してはかなり頑健robustnessのように思われる。たとえばM血清とN血清を用いてMN式血液型を調べたところMM63人、MN118人、NN49人であった。これは共優性であることが分かっているから、遺伝子頻度MNはそれぞれpM=(63+118/2)/230=0.5304pN=(49+118/2)/230=0.4696となる。同じ集団をM血清だけを用いて調査したとすると、M(+)181人、M(-)49人となる。これはM対立遺伝子がNに対して優性であると仮定すると、遺伝子頻度MNはそれぞれpM=0.5385pN=0.4615となる。調査集団の大きさが3桁のオーダであるが、フェノセットの違い(この場合は共優性と優性の違い)で小数点以下2桁まで一致している。調査集団の大きさが増えれば、この頑健性はよりはっきりするであろう。また任意交配の仮説により2対立遺伝子の共優性システムではヘテロ接合MN の頻度は0.5を超えることはなく最大値のときの遺伝子頻度はpN=pM=0.5である。このデータ(ヘテロ接合の観測頻度=118/230=0.5130)は若干のずれがあるが統計的に有意ではない。おそらくデータの偏りか、血清の鮮度による判定の誤りがあったのかもしれない。多くの集団で(特に因子結合表現型システム)は完全混合に近いので、表現型頻度は集団内にある遺伝子とその推定値についての情報を表すものと考えられる。好ましい条件として考えられることは、どの対立遺伝子も家系調査で代表されているのではない。しかし、新しいまれな対立遺伝子の発見は集団調査で遅れることになる。家系調査でなく集団調査だけにたよるのは気をつけなければならないが、調査データの解釈からその存在を示すには家系調査による確認が必要である。

遺伝子頻度推定における因子結合表現型システムのモデルは次の4つの条件が満たされなければならない。

1. 技術的な誤分類を除くすべての観察表現型が説明できる。

2. まれな対立遺伝子を表現型の誤分類と仮定する。

3. 推定における反復法が収束する。標本にない理論上の対立遺伝子は存在しないと仮定する。

4. ハーディ・ワインベルグの頻度についての適合度検定はχ2値、あるいは尤度比で判断する。

これらの条件が満たされないとき、その有意な差はいくつもの理由があろう。5つばかり挙げるが、多くは最初の二つである。(i)誤分類あるいは複雑なシステムなために因子結合表現型システムのモデルが合わない。(ii)まれな対立遺伝子がモデルに組み込まれていない。(B)モデルに存在しない対立遺伝子がある。(C)無作為標本でない、たとえば、珍しい表現型の血縁者が含まれている。(D)違う遺伝子頻度の集団が複合的に混ざっている。まれな表現型に特に注意する。まれな対立遺伝子を自然に分割してしまう。誤判定のあるなしに拘わらずいくつかの集合に分けてしまうので、適切な大きさの標本でないと多型遺伝子を見落としてしまう。これらの判断については適合度の検定あるいは尤度比検定を行なう。

正則でない表現型システムでの遺伝子頻度の推定は誤分類の確率というさらに補助的パラメータが必要になる。最も簡単な不完全浸透率fはある遺伝子型の個体を「罹患」と誤分類することになるが、このfは年齢、性、そのほかの特性に依存しているかも知れない。まれな対立遺伝子の頻度を無作為標本から求めるのは実際的でなく、後述する不完全確認という特別の方法で行なう。

 

3.8  有限集団における遺伝子頻度

数学的にいうと、遺伝子プールは遺伝子頻度と関わりのある標本空間である。本来の生物学の考えでの遺伝子プールはかなり適当である範疇で関係のある個体の有限集合について定義される。この定義はある種の哲学的な問題を生じる。

 ある地域のすべての個体について共優性システムを判定したとすると、標本誤差にはどのような意味があるのだろうか。一部の研究者は無作為標本を集めるために血縁者は除くというが、その意味するところは何であろうか。2個体の遺伝子頻度が有意に異なるかどうかを問題にするのは意味がないとするならば、2つの集団あるいは同一集団の世代間の遺伝子頻度の有意差を検定するのは妥当なのであろうか。このような疑問に対する回答をするは最尤法理論の有用性と個々の独立試行の限界、すなわち無限集団について理解することが必要である。

 ある標本から選んだ個体が無限に大きな前の世代の集団からの無作為抽出であるなら、遺伝子プールは無限大でその遺伝子頻度は前の有限な世代と正確に同じである。標本の選び方が無作為(あるいは悉皆調査)であるなら、有限集団へ最尤法理論を適用するのに吝かでない。

 無作為抽出の単位が個体でなく家族の場合、より厄介な問題が生じる。何世代にも亘るデータ、あるいは一部の家族は調べやすいか調査に協力的であるような場合である。そのようなデータへ最尤法を適用すると、完全混合の下での最尤推定値に偏りは無かろうが、分散は小さめになる。したがって遺伝子頻度は2世代以上の加重平均となる。

 実際問題として続く世代間の遺伝子頻度を区別することはまれであり、遺伝子頻度の分散にはあまり関心を抱かない。2群間の遺伝子頻度が同じであるという仮説は両親が同じでなければ誤りであるに違いないから、有意性の検定は通常不適切である。したがって有限集団へ最尤法を適用することを止めることにはならない。特に遺伝子頻度が分かっている有限集団からの非復元抽出での定式化は実情にそぐわない。遺伝子頻度推定の問題は常に適切な(あるいは有限な)前の世代から生じた無限大の配偶子を基準にしている。

 

3.9 量的表現型

 定性的表現型は因子結合表現型システムで検定が行えることが分かった。量的表現型もより一般的な仮説について検定することができる。すなわち全体の分布は2種類あるいはそれ以上の異なる遺伝子型による単純な分布の混合commingling distributionである。

 残念ながら、この検定にはこれまでの文献から分散が同じいくつかの正規分布という仮定をする。分散が違うとする試みは、違うパラメータを用いても実質的に同じ尤度となるので、うまくいかない。

 混合分布が正規分布でないが簡単な数値の変換で正規化できると考えられる場合がある。すなわち、混合分布を構成する各分布でパラメータprは同じとして 

          y=(r/p)[{(x/r)+1}p-1] 

とする。ここにx=(X-μ)/σで、X の全体の平均はμ、標準偏差がσである。rが十分大きな適当な値のとき{すなわち (x/r)+1>0}、混合分布の歪度skewnessを取り除くpの値を求めることができる。prを同時に推定するなら、正規性からのずれの主な原因である歪度と尖度kurtosisを調整することができる。しかし尖度は除去できない。

 このアプローチの問題点はこの形の分布を選ぶ根拠がほとんどないことである。同じ効果を示す無限の相加的変数が考えられるとき正規分布(p=1)となる。また同じ効果を示す無限の相乗的因子のときは対数正規分布(p0)である。因子の数が有限で、相加的と相乗的変数が共存するならyの分布は正規ではないであろう。このとき単一の分布よりも二つ以上の分布のモデルにデータは表向きよく適合する。これは単純な分布族を仮定したがために得られる誤りである。すなわち混合分布の頻度推定にはしばしば間違った結論を導く。一つのチェック方法は完全混合を仮定するハーディ・ワインベルグ法則による頻度分布を調べることである。有意となれば混合分布でない証拠で分布の特異性を表しているのかも知れない。しかしハーディ・ワインベルグ法則によく合ったからといって混合分布であるとは限らない。いくつかのパラメータによって誤って観察値の分布が適合したのかもしれない。

 2つ以上の分布が考えられるとき、遺伝とは関係のない環境あるいは調査法によるのかもしれない。上記の数値変換は本来歪度と尖度を消去するものである。データの適合度を論ずるよりもむしろできるだけ少なくして分布間の相違を減少させることにある。

 赤血球酸性ホスファターゼの量的変異はACPI座位の多型による。これはこの効果が電気泳動法で因子結合表現型システムであることが分かって初めて証明された。特異性の混合分布の検定力は低かったが、決定的な証拠は家系分析から得られたのである。

 

3.10 参考文献

Cavalli-Sforza LL & Bodmer WF 1971. The Genetics of Human Populations. Freeman, San Frabcisco.

Ceppellini  R,  Siniscalco M & Smith CAB 1955. The Estimation of Gene frequencies in a random mating population. Ann Hum Genet 20: 97-115.

Cotterman 1953. Regular Two-Allele and Three-Allele Phenotype Systems. Part I. Amer J Hum Genet 5: 193-235.

Cotterman CW 1969. Factor-Union Phenotype Systems. Ed. Morton NE, In Computer Application in Genetics. University of Hawaii Press, Honolulu, Hawaii.

Crow JF & Kimura M 1970. An Introduction to Population Genetics Theory. Harper and Row, New York.

Dempster AP, Laird NM & Rubin DB 1977. Maximum Likelihood From Incomplete Data via the EM algorithm. J Roy Statist Soc B39: 1-38.

Eland-Johnson RC 1971. Probability Models and Statistical Methods in Genetics. John Wiley,New York.

Hartl DL & Clark AG 2007. Principles of Population Genetics. Fourth Ed.  Sinauer Associates, Sunderland, Massachusetts.

Hartl DL & Maruyama T 1968. Phenogram Enumeration: The Number of Regular Genotype-Phenotype Correspondences in Genetic Systems. J Theoret Biol 20: 129-163.

Larson O, 1977. Inverting the information matrix in gene frequency estimation in systems like ABO. Ann Hum Genet, Lond. 41: 107-109.

Li CC 1976. First Course in Population Genetics. Pacific Grove, California.

MacLean CJ, Morton NE, Elston RC, Yee S 1976. Skewness in Commingled Distributions. Biometrics 32: 695-699.

Slatkin M, 2008. Linkage disequilibrium-Understanding the Evolutionary Past and Mapping the Medical Future. Nature Review Genetics 9:477-485.

Yasuda N, 1969. Estimation of the Inbreeding Coefficient from Mating Type and Frequency and Gene Frequency. Ed. Morton NE, In Computer Application in Genetics. University of Hawaii Press, Honolulu, Hawaii.

安田徳一 1973. 生物学における電子計算機(8)、遺伝子頻度と近交係数。遺伝27(7)74-79。裳華房、東京。

Yasuda N & Tuji, 1975. A counting method of Maximum Likelihood for Estimating Haplotype Frequency in the HLA System. Jap J Human Genet 20: 1-15.

安田徳一 2007. 初歩からの集団遺伝学。裳華房、東京。

Wright S 1969. Evolution and the Genetics of Population II. The Theory of Gene Frequencies. University of Chicago Press, Chicago.