安田徳一{YASUDA,Norikazu}
自然集団において実験的に得られるタンパク質多型のデータはアミノ酸配列を直接調べることは少なく、電気泳動法によって識別される。これでは主として電荷の相違をみているので、実際のアミノ酸の違いのほぼ1/4を検出しているに過ぎないといわれる。電気泳動法による対立遺伝子の判別は、いはば直線上で行われるのであるから、突然変異によって生じるアミノ酸の変化は電荷の違いでその直線上の位置を移動することで観察される。検出される突然変異についていえば、新たな位置に動いたり、他の対立遺伝子の位置に動いたり、本来の位置に戻ったりなど、さまざまな可能性が起こり得る。このような事情から12.3.1節の中立無限対立遺伝子モデルをタンパク質のデータに直接適用できるかという疑問が生じる。近似的にはまず差し障りがないという(例,Fuerst他 1977)が、この観察をモデル化してみよう。
中立無限対立遺伝子モデルの電気泳動法によるタンパク質多型データへの適用がどの程度可能であるか、という問いに対してOhta and Kimura(1973)はステップ突然変異モデルを開発してしてその検討を行った。一直線上の等間隔の位置に中立対立遺伝子があるとする。突然変異により対立遺伝子は直線上を左右両隣のいずれかの位置に動くものとしよう。これは電気泳動によって認識される遺伝的変異をよく反映しているとみられる。それぞれの位置をi、iからi-1またはi+1へ移る確率は等しいとし、それをv/2であらわす。ここにvは突然変異率である。xiをiの対立遺伝子の頻度とし、次の統計量(自己共分散)を考察しよう。
Ck=E{Σxixi+k} (Σはiについての和)
Eは遺伝子頻度の確率密度での期待値をとる演算子である。
ここでC0=E{xi2}の世代あたりの変化率dC0/dtを考察すると次の関係が成り立つ。
f=xi2と置くと
d{E(f)}/dt=E{(Vx/2)f"+Mxf′} (Ohta and Kimura 1971)
の関係が成り立つ。ここに"はtについての2次微分、′は1次微分で、
Mx =(1/2)v(xi-1+xi+1)-vxi Vx =xi(1-xi)/(2Ne) (Neは集団の有効な大きさ) Wxixj =-xixj/(2Ne) (i≠j)
は中立対立遺伝子の世代あたりの変化の平均(Mxi)、分散(Vxi)、および共分散(Wxixj)である。
したがって
d{E(xi2)}/dt=E{v(xi-1+xi+1)xi-2vxi2+xi(1-xi)/(2Ne)}
が得られる。世代を2Ne単位で計る{T=t/(2Ne)}ことにすれば上の式は次のようになる。
d{E(xi2)}/dT=E{2Nev(xi-1+xi+1)xi-(4Nev+1)xi2+xi}
これをΣxi=1に注意して、すべてのiについて加えると
dC0/dT=-(1+4Nev)C0+4NevC1+1
同様にしてf=xixi+kと置けばCkに関する方程式が得られる。
dCk/dT=2NevCk-1-(1+4Nev)Ck+4NevCk+1 (k≧1)
平衡状態ではすべてのkについて世代間の変化はなくなるからdCk/dT=0で、k=∞で0となる適切な答えは
Ck =H0λk H0 =1/√(1+8Nev) λ ={1+4Nev-√(1+8Nev)}/(4Nev)
となる。
ステップ突然変異モデルでの対立遺伝子の有効な大きさne(≡1/H0)はしたがって
ne =√(1+8Nev) 〜1+4Nev-(Nev)2 (ただしNev≪1/8=0.125)
である。前節(第31回講座、12.3.1節)で求めた有限集団での対立遺伝子の有効な大きさ
1+4Nevに比べて、電気泳動法で観察される対立遺伝子頻度の有効な大きさは小さくなる。いくつかの4Nevの値について両モデルの有効な大きさとヘテロ接合性(1-1/ne)とそれぞれのモデルによる比はは次のようになる。
Nev √(1+8Nev)/(4Nev+1) ヘテロ接合性(1-1/ne) 0.001 1.0039/1.004=.99 0.0039/0.0039=1.00 0.010 1.0392/1.040=.99 0.0377/0.0384=0.98 0.025 1.0954/1.100=.99 0.0871/0.0909=0.95 0.050 1.1832/1.200=.98 0.1548/0.1666=0.92 0.100 1.3416/1.400=.95 0.2546/0.2857=0.89 0.250 1.7320/2.000=.86 0.4226/0.5000=0.84 0.500 2.2360/3.000=.74 0.5527/0.6666=0.82 1.000 3.0000/5.000=.60 0.6666/0.8000=0.83 2.000 4.3588/9.000=.48 0.7705/0.8888=0.86 4.000 5.7444/17.00=.33 0.8259/0.9411=0.86 6.000 7.0000/25.00=.28 0.8571/0.9600=0.89 8.000 8.0622/33.00=.24 0.8759/0.9696=0.90 10.000 9.4339/41.00=.23 0.8940/0.9756=0.91
Ohta(1975)はこのモデルをショウジョウバエ、ヒト(イギリス人)の酵素タンパクのデータに適用し、いずれの種でも低頻度の対立遺伝子が理論で予測されるより多く出現していることを見出した。そして多型が突然変異と機会的浮動の釣合いだけで維持されていると考えるより、一つの可能性として、さらに弱い自然選択の作用のあり得ることを指摘している。
ステップモデルの遺伝子頻度の確率密度は平衡状態ではβ分布にしたがうことが知られている(Kimura and Ohta 1975)。すなわち
Φ(x)=[Γ(a+b+1)/{Γ(a)Γ(b)}](1-x)a-1xb-1
ここでΓ(*)はガンマ関数、a=4Nev, b={a-√(1+2a)}/{√(1+2a)-1}である。
次はヒト(イギリス人)の酵素タンパク質(Harris他 1974)のデータの分析結果である。
対立遺伝子の頻度 観察値 予測値 ステップ (Kimura & Crow 1969) Nevの推定値 0.020 0.020 <0.01 59* 10.84 14.07 0.01-0.1 8 7.08 8.02 0.1-0.2 0 2.51 2.69 0.2-0.3 3 1.69 1.77 0.3-0.4 1 1.39 1.43 0.4-0.5 2 1.27 1.30 0.5-0.6 3 1.26 1.28 0.6-0.7 1 1.35 1.37 0.7-0.8 2 1.61 1.62 0.8-0.9 0 2.34 2.34 0.9-1.0 37 36.79 36.64
*統計的に有意
遺伝子の物理化学的構造が基本的にはDNAの(線状)塩基(対)配列であることは今日よく知られた事実である。イントロンがあろうがなかろうが、ポリぺプチド鎖は各コドンがアミノ酸に翻訳されることで線状(一次)構造をとる。そしてさまざまな生物物理化学的反応を経由して活性のある酵素(タンパク質)となる。ここで「部位」とはDNAでの塩基あるいはコドンを表わしている。塩基配列やその配列の翻訳は今日ではさして難しいことはなく、日常的に行われるようになった。異なった種間の相同タンパク質の比較から分子進化論が発達した(Kimura 1968; King and Jukes 1969)のは周知のことである。
このような問題を取り扱うのに適しているのがKimura(1969)による無限部位モデルである。このモデルは同じ性質の無数の多くの部位の集まりを1つの遺伝子とみなす。それぞれの部位は独立で、突然変異は部位あたりごくまれにしか起こらないから、事実上の突然変異は変異のないmonomorphic部位に生じると近似する。
ここでvmを毎世代集団に現れるゲノムの違う位置に生じる突然変異の数としよう。そこで特定の部位についてみると、集団での突然変異の最初の世代での頻度をp、t世代後の頻度をxとすると、その確率分布φ(p,x,t)は次のコロモゴロフの後ろ向きの方程式を満足する。
∂φ/∂t = (Vp/2)∂2φ/∂p2 + (Mp)∂φ/∂p
有限集団での1突然変異は有限の世代数で集団内に固定あるいは消失するから、長い時間にわたって突然変異が起こるなら、違う部位についての突然変異の頻度分布はある定常状態に落ち着く。ここでの定常分布は突然変異遺伝子が固定あるいは消失していないものだけについてである。つまり突然変異が集団で分離している部位だけを考察する。この定常分布をΦ(p,x)とすると、Φ(p,x)dxは突然変異の頻度がx〜x+Δxの範囲にある部位の予測数(相対頻度ではない)である。新しい突然変異が毎世代vm部位で生じるから、現在の頻度クラスxからt世代前に現れる突然変異はvmφ(p,x,t)dtである。過去に生じた突然変異を全部考察すると
Φ(p,x)=∫vmφ(p,x,t)dt
ここに積分範囲は分布が定常状態になるまでの時間を考えるから(0,∞)となる。
さて突然変異頻度xの任意の関数をf(x)とする。たとえばヘテロ部位を取り上げるなら f(x)=2x(1-x)である。このf(x)の期待値If(p)を考察することにする。
If(p)=∫f(x)Φ(p,x)dx
ここで積分範囲は開区間(0,1)である。離散的には集団の大きさをNとすると [1/(2N),1-1/(2N)]で和をとることになるが、ここでは連続近似となっている。
後ろ向きの方程式の両辺にvmf(x)を乗じ、最初にxについて積分し、次いでtについて積分をすると次の式が得られる。
∫∂{vm∫f(x)φ(p,x,t)dx}dt/∂t=(Vp/2)∂2If(p)/∂p2 + (Mp)∂If(p)/∂p
ここで 0<x<1 において φ(p,x,t→∞)=0 と t=0でx=p である。最初の条件は各突然変異が有限の時間で固定あるいは消失するとしたことに由来し、第二は初期頻度がpであることによる。左辺の{*}の積分は-vmf(p)と簡単になる。すなわち
(1/2)VpIf"(p)+MpIf'(p)+vmf(p)=0
この式で一世代のあたりの初期頻度pの変化率の平均と分散の典型的な例として
Mp=sp(1-p){h+(1-2h)p}, Vp=p(1-p)/(2Ne)
がよく用いられる。
この方程式の解で境界条件、p=0とp=1での突然変異は、分離が見られる部位の分布とはかかわりがないから、
If(0)=If(1)=0
を満足するのは次の通りである(Kimura 1969)。
If(p)={1-u(p)}∫pψf(y)u(y)dy+u(p)∫pψf(y){1-u(y)}dy
ここに∫pの積分範囲は(0,p)、∫pの積分範囲は(p,1)である。また、u(p)は最終的には固定する確率で
u(p)=∫pG(x)dx/∫G(x)dx, G(x)=exp{-2∫(Mx/Vx)dx}
である。ここで∫の積分範囲は(0,1)である。
さらに
ψf(y)=2vmf(y)/{Vy(du(y)/dy)}
である。
この一般解から、流れが一定の分布Φ(p,x)に関しての統計量がIf(p)でのfをxの関数として表わすことにより求めることができる。たとえば
統計量 f(x) 個体あたりのヘテロ部位の総数 2x(1-x) (Kimura 1969) 任意の世代で集団で分離している部位の総数 1 (Kimura 1969) Neの大きさの集団での置換による荷重 s-{sx2+2x(1-x)sh} (Kimura and Maruyama 1969) (Mp,Vpは前出) ………………
とくに x=y → f(x)=1,x≠y → f(x)=0 ならば
If(p)=Φ(p,y)
となるから、これより
Φ(p,y) =[2vmu(p){1-u(y)}]/{Vy(du(y)/dy)} (p≦<y<1) =[2vm{1-u(p)}u(y)]/{Vy(du(y)/dy)} (0<y≦<p)
ここで0<p<1の範囲でp任意の値であるが、p=1/(2N)のときのΦ(1/(2N),x)=Φ(x)は特に興味深い。ここにNは集団の実際の大きさである。部位あたりの突然変異が低いとき、個々の突然変異はそれが生じるのはそのときだけであると近似できる。このときΦ(x)は次の式で近似できる。
Φ(x)=[{2vm/(2N)}/VxG(x)][{∫xG(x)dx}/∫G(x)dx]
分子の積分(∫x)範囲は[x,1)、分母の積分範囲は開区間(0,1)だが、これは 1/(2N)≦x≦1-{1/(2N)}の連続近似である。
例. 中立突然変異についてはMx=0だから、u(p)=p, ψf(y)=2vmf(y)/Vy となる。有効な大きさNeの集団で個体あたりのヘテロ部位の数 H(p)は f(x)=2x(1-x),Vx=x(1-x)/(2Ne)だから
H(p) =(2Nevm){2p(1-p)} =4Nevmp(1-p)
各部位の突然変異が1回だけ生じたのであれば
H(1/2N)≒2vm(Ne/N)
である。
分散σH2の公式も求められている(Kimura 1969)。
σH(p)2=(4/3)(Nevm){p(1-p)(1+p-p2)}
σH(1/2N)2≒(4/3)(Ne/N)vm
通常集団遺伝学は1つの集団での任意交配を暗黙のうちに仮定している。つまり配偶者は集団全体から無作意に選ばれるとするもので、この仮定により数学的な取り扱いがたいへん簡単になる。生物があまり広い領域に散在していないなら、実際ほぼ妥当な模型である。そのようなときの観察データはハーデイ・ワインベルグの法則がなり立つのが普通である。
しかし種が広い地域に分布しているようなとき、種全体で任意交配が行われるとはいい難い。これは個々の個体が移動する距離が種の生存している地域全体のごく一部でしかないために生じる。Wright(1943)はこれを距離による隔離isolation by distanceと呼んだ。
その結果個体の分布に物理的な隔壁がない連続な状態でも、遺伝子頻度の局地的な相違が生じると考えられる。分集団の間に地理的な隔離があると遺伝子頻度の分化はさらに顕著になろう。人種の形成や新しい種の形成に地理的隔離はさらに効果的に働くであろう。
分集団の集まりからなる一大集団での遺伝子頻度の分化について最初に数学的モデルを考案したのはWright(1940, 1943, 1951)であった。その数学的な扱いで重要な役割をした概念は「結合する配偶子間の相関」である。対立遺伝子Gに1、その他の対立遺伝子に0を割り当てて相関係数を計算し、それを近交係数(F,fなどで表わす)と呼んだ(第9回講座、5.1.2節)。
ライトは集団全体(T)がいくつかの分集団(S)から構成されているとき、個体(I)の近交係数が次の式から求められることを示した。
FIT=FST+(1-FST)FIS
ここで
FIT=全集団(T)に関しての個体(I)の近交係数
FIS=分集団(S)に関しての個体(I)の近交係数
FST=同一分集団内で無作為に選んだ二つの配偶子の相関係数
上の関係式は混合指数panmictic index、P=1-Fで表わすとより容易に理解することができる。
PIT=PISPST
近交係数は個体の相同遺伝子が同祖的であるidentical by descent(Malecot 1948)から次のように考えることができる(Crow and Kimura 1970)。
左辺のPIT=1-FITは個体Iの2つの相同遺伝子が全集団について同祖的でない確率を表わしている。右辺のPISは個体Iの2つの相同遺伝子が分集団Sについて同祖的でない確率、そしてPSTは分集団から2つの相同遺伝子を無作為に取り出したとき同祖的でない確率である。右辺の2つの事象は互いに排反で、同祖的でない事象のすべてを表わしているから、したがって右辺の2つの確率の積は左辺のそれと等しいことが言える。
FISは部分集団S内での近親婚などの局地的な内交配の効果を反映し、FSTは機会的浮動による分集団間の遺伝子頻度の分化を反映している。FSTの値は分集団Sで任意交配が行われていても0とは限らない。FSTをFITのランダム成分random component、FISを非ランダム成分nonrandom component と呼ぶことがある。
(1) 家系図法pedigree method
子世代の集団をまず決めて、Sとして遡って調べる世代数を決める。ヒトではたとえば3世代まで遡るとすれば、集団Sで FIs=c/16、ここにcはいとこ婚の頻度である。多くの家系調査ではすべての子について3世代までの祖先すべてを確実に調べているとは限らず、不明のものは他人婚としているからFIsは過小評価されている可能性が大である。一方、家系調査による近親婚の調査はもし見つかれば3世代以上を念入りに行うため、特定の家系についてのFISを過大評価をする恐れがある。日本で過去に行われた家系調査によるFISの値はこれらの偏りが評価されていない。また調査方法から常にFST=0であるから、FIT=FISとなる。
(2) 同姓率法isonymy method(Crow and Mange 1965))
人間社会では親から子への姓氏の伝達がある決まりで行われていることから、姓氏の同じ男女が夫婦、同姓婚isonymous marriageとなる割合(A)から、F係数を求めることができる。Crow and Mange(1965)によると、大部分の近親婚でF=A/4の関係が成り立つ。たとえばいとこ婚ではF=1/16であるが、いとこのそれぞれの両親、計4人のうちの2父親(祖父の世代に相当する)が兄弟であると、通常そのいとこは同姓であるから、A=1/4 である。したがってF=A/4の関係が成り立つ。ただし偶然に同姓となることを差し引く必要があるが、それは男子と女子それぞれの特定の姓氏の頻度をai,biとすれば、Σaibiである。すなわち
FIS=(1/4)(A-Σaibi)/(1-Σaibi)
FST=(1/4)Σaibi
これらの式から実際に調査した例を2つあげる。
集団 FIS FST FIT 著者 Hutterite 0.0052 0.0445 0.0495 Crow and Mange(1965) Uto,Kumamoto 0.0086 0.0019 0.0113 Yasuda and Furusho(1971)
アメリカのHutterite集団では全集団の内交度(FIT)のほとんどが機会的浮動(FST)によることがうかがえるが、九州の一農村ではかなり近親婚(FIS)によることが示唆される。また、
Hutterite集団の子の世代から5世代前の祖先までの家系調査からの近交係数はf=0.0226であったから、これとFIT=0.0495とを比べると、全体の内交度のうちほぼ50%が6世代前以前の近交によると言えよう。ブラジル東北地方での血液型、酵素型頻度分布の観測頻度と歯ーデイ・ワインベルグ予測値とのずれから求めたα=FITと家系調査からのFISの比較でもほぼ同様な結果が得られている(第16回講座、6.1節; Yasuda 1969))。
(3)ヘテロ接合性から求める方法
この方法については第10回講座5.3節を参照されたい。原著はNei and Chesser(1983)である。簡単に方法を述べると、分集団ごとに観察されるヘテロ接合性の平均HI、各分集団で任意交配を仮定して得られるヘテロ接合性の平均値Hs,分集団すべてをプールした集団全体で任意交配を仮定して得られるヘテロ接合性HTを求める。F統計量は次のようになる。
FIS=(HS-HI)/HS, FST=(HT-HS)/HT, FIT=(HT-HI)/HT
(4)分集団の遺伝子頻度からFST求める方法
分集団の遺伝子頻度を調べてあれば、FSTは定義により直接求めることができる。すなわち
FST=σp2/{p(1-p)} (Wright 1943)
ここにp、σp2はそれぞれ特定の対立遺伝子頻度の平均、分散である。Cavalli-Sforza, Barrai and Edwards(1964)はイタリーのパロマ渓谷の村々で血液型の遺伝子頻度をもとめ、FST=0.0356±0.0060を得た。村々での遺伝子頻度の相違は機会的浮動によると考えられた。
遺伝子頻度の分化の問題を地理的距離との相関で研究を最初に始めたのはMalecot(1948; 1955; 1967)が最初である。遠方に居住するものより、身近に居住するものほど互いに遺伝的によく似ているのではないかという考えを取り入れたのである。
マレコーの理論の基本となるパラメータは親縁係数coefficient of kinship(φ(y))である。
これは距離y離れた二個体それぞれから無作為に抽出した2個の相同遺伝子が同祖的 identical by descentである確率として定義される。
一様な密度δの棲息地に個体が連続的に分布しているとしよう。確率密度m(x)を子の出生地から親の出生地までの距離xとする。xはベクトル表記で、その座標は一次元なら(x1)、二次元なら(x1,x2)である。この距離xは親子距離parental distanceという。第t世代での親縁係数を前のt-1世代の親縁係数で表わすと次のような関係式になる。
φn(y)= (1-u)2{∫φn1(y+z-x)m(x)m(z)dzdx} +[{(1+f0)/2-φn1(0)}/δ]∫m(x)m(x-y)dx
ここでuは突然変異率、f0は親の近交係数である(Malecot 1955)。
これは次のような考察から得られる。n世代の2個体をI,Jとする。yはIとJの距離とする。またI,Jの親をそれぞれPI,PJとする。PIとIの距離をx、PjとJの距離をzとする。そうするとPiとPjの距離はy+z-xとなる。二つの親子距離の移動を表わす確率はm(x)m(z)dzdxであり、 PiとPjの親縁係数はφn1(y+z-x)、IとJの親縁係数に関与するPiとPjの寄与分はφn1(y+z-x)m(x)m(z)dzdxとなる。
式の右辺の第一項の中括弧の中は、PiとPjが別個体であるときのx、zのとり得る値すべてについて加えたことを表わしている。右辺第二項はPiとPjが同一個体である場合の寄与を表わしている。すなわちy+z-x=0,z=y-xでxである。δdx個体が同一地点にいる(δは距離dxの人口密度)から、PiとPjが同一個体で、Iからの距離がxである確率はm(x)m(y-x)dx/δである。
同一個体から無作為に抽出した2つが同祖的である(親縁係数が1)確率は1/2、あるいは2つが違うが相同遺伝子である(親縁係数は近交係数f0に等しい)確率は1/2であるが、PI とPJが同じ個体であるときはφn1(0)を差し引く必要がある。
さらに上の関係式は配偶子に突然変異がまったく生じないとしたときに成り立つのだから、したがって親から子に伝わる際の突然変異により同祖性が失われる補正項(1-u)2が必要となる。
親子距離の移動分布を正規分布と仮定して、平衡状態ではφn(y)=φn1(y)≡φ(y)、局地的には任意交配、すなわちφ(0)=f0なら、近交係数は
f0=1/(1+kδ)
ただし、
k=4σ√(2u) (一次元棲息モデル) k=8πσ2(-1/loge2u) (二次元棲息モデル)
と表わすことができる。σ2は親子距離の分散である。
Malecot(1955;1959)は親縁係数と親子距離の関係を導いた。
φ(x)〜exp{-x√(2u/σ)} (一次元棲息モデル) φ(x)∝exp{-x√(2u/σ)}/√(x) (二次元棲息モデル)
さらにMalecot(1967)は2次元の等方向移動isotoropic migrationのモデルとしてK分布を提唱して、f0、φ(x)について上述と同じ結論を得た。K分布は第2種の修正べッセル関数で表わされる。
m(x)=h(xh)b+1Kb(xh)/{2bΓ(b+1)} (b>-1)
イタリーのパロマ渓谷の村々(Cavalli-Sforza, Kimura and Barrai,1966)での父子距離、母子距離の分布をK-分布に適用したところ、次の結果が得られた(Yasuda 1975)。
母子: b=-0.9538±0.0056, h=0.0217±0.0052, σ=18.8±3.7km 父子: b=-0.9768±0.0036, h=0.0098±0.0041, σ=30.2±10.5km
ここでσは距離の標準偏差である。この地域では平均して女子の移動距離のばらつきが男子にくらべて少ないことがわかる。なお三島での調査は平均距離は男子の方が大きいが、ばらつきは女子の方が大きい(Yasuda and Kimura, 1973)。
配偶者距離y+z-xについても、K分布のパラメータが求められている。
配偶者: b=-0.9333±0.0096, h=0.0171±0.0054, σ=28.3±7.5km(パロマ) b=-0.2489±0.0511, h=0.4299±0.0265, σ=2.93±0.07km(三島)
いずれのK分布のパラメータbが-1に近いのは、データがヒストグラムの形でまとめられることに起因する。距離dxを具体的にきめるのはかなり恣意的である。三島での調査 (Yasuda and Kimura 1973)では配偶者距離について経験的な分布(Cavalli-Sforza 1958)
m(r)=(k4/12)x・exp{-k√(x)}
がよく合うことがわかった。ここにk=2.85で、m(0)=0である。当時、出生地の調査は戸籍および土地公図を用いて行ったが、それでも出生地が同じケースが1例あった。移動関数としてK分布は理論的によいが、そのパラメータの推定値は「距離0」の取り方に依存することに留意する必要がある。上記の経験的な分布関数はm(0)=0の性質を満たしているが、親縁係数との関りでは解析的な解は得られていない。シミュレーションで調べるのも一つの方法であろう。