統計の目的の一つは生資料の性質を理解する上で、大量の測定値にみられる性質を簡潔に記述することにある。 少なくとも、測定値の分布の中心がどのあたりにあるのか、またどの程度のばらつきがあるのかを示す必要がある。 ときには、分布が中心の値について対称的であるかなどの分布の形を表す尺度なども有用である。
中心の値の尺度 分布の中心の位置を測るのに一番よく使われる尺度としてよく知られているのは算術平均、あるいは単に平均である。 平均は測定値の合計を測定数で割ったものである。 ときには便利な中央値を使う。 これは測定値を小さいものから大きいものへと順番に並べたとき、中心にくる測定値である(または測定値が偶数個であれば中心となる二つの値の平均値である)。 分布がかなり非対称的なら、平均より中央値のほうがより適切であることが多い。 たとえば寿命の分布で平均余命より中央値余命のほうが知りたいと思うことに近いのかも知れない。 乳幼児死亡率の高い国では平均が中央値よりかなり低くなる。 もう一つ役に立つ尺度として最頻値がある。 これは資料で最も度数の多い測定値である。 分布の峰の数により、一峰性分布、二峰性分布、さらに多峰性分布という。
一峰性分布の多くは、中央値(median)が平均値(mean)と最頻値(mode)の間にあり、ちょうど単語がアルファベット順に並んでいるので覚えるのに都合がよい。 さらに平均値と中央値の(絶対値)差は、しばしば中央値と最頻値の(絶対値)差の約半分である。 統計学でよく用いられる正規分布ではこれら三つの値は一致するが、一般にはほぼ次の関係があることが知られている。
集団生物学でよく使われる平均に調和平均と幾何平均とがある。 調和平均は逆数の平均の逆数である。 数量が分数で表されるとき、分子よりも分母の影響が重要なときに使う。 たとえば、遺伝子頻度の機会的浮動は集団の大きさの逆数に比例する。 したがっていくつかの集団の大きさを平均するにはそれらの調和平均を求める方が機会的浮動の効果を検討するのには適切である。
幾何平均はN個の数値のN乗根である。 あるいは数値の対数値の算術平均である。 生物の資料はしばしば非対称的に分布する。 たとえば体重やヒトの結婚年齢は数値の大きい方に歪む。 対数をとることで対称になることがしばしばである。 生物の増殖が幾何級数的であることと関係があるのかも知れない。 数値計算でもかけ算より足し算の方が桁落ちの問題が少なくて済む。 幾何平均は極端な数値があると分布の中心の尺度として使えないことがある。 例えば、数値0があると幾何平均は常に0となるし、極端に大きな数値があると幾何平均は大きくなってしまう。
正の数について、算術平均≧幾何平均≧調和平均の関係があることはよく知られている。 等号はすべての数値が同じときに成り立つ。
数値例:便宜上、小さい値から大きい値の順序でならべた N=17 の 6,7,8,9,9,10,10,10,11,11,12,13,17,19,21,25,30。 最頻値は10。 中央値は11。 (算術)平均は13.41。 幾何平均は12.12。 調和平均は11.10。
算術平均>幾何平均>調和平均,の関係が成り立つことに注意(数値がすべて同じだと等号が成り立つ)。 算術平均は大きな数が一つあると影響を受けるが、調和平均は小さな数の影響が大きい。 集団の大きさがゆらぐとき、その有効な大きさは狭い瓶首効果の影響が支配的である。
変異の尺度
変異またはばらつきの測定に最もよく使われるのが分散である。 分散は個々のの測定値と平均との差を二乗した値の平均である。 分散が二乗した値であるためばらつきを直観的に理解し難い。 そのためには多くの場合、その平方根を用いる。 これを標準偏差という。 しかし、ばらつきの原因が複数のたがいに相関がないとき、観察された分散は個々の原因による分散に分割することができる。 標準偏差ではこのようなことはできない。
xとyが独立な測定値であれば、x±yの分散はxの分散とyの分散の和になる。 たとえば、ある植物の背丈が独立な遺伝要因と環境要因の和で決まるなら、背丈の分散は遺伝要因の分散と環境要因の分散の和である。 多くのの場合でこの相加性は単位の一致より重要である。 さらに飼育動植物の選抜では、遺伝的な標準偏差でなく、遺伝分散に比例して変わる。 そのため変異の要因を分析するには、標準偏差でなく分散をよく用いる。
いくつかの基本の統計公式
(x1,y1),(x2,y2),...,(xn,yn)は測定値、,nは測定個体数とする。
平 均 | = | (x1+x2+...+xn)/n (=μx) |
分 散 | = | {(x1-μx)**2+(x2-μx)**2+...+(xn-μx)**2}/n |
= | (x12+x22+...+xn2)/n-μx2 (=σx**2),/TD> | |
共分散 | = | {(x1-μx)(y1-μy)+(x1-μx)(y2-μy)+...+(xn-μx)(yn-μy)}/n |
= | (x1y1+x1y2+...+xnyn)/n-μxμy (=σxy) | |
標準偏差 | = | σx(=√σx**2) |
相関係数 | = | σxy/(σxσy)(=ρxy) |
回帰係数 | = | σxy/σx**2(=βyx) |
もしいくつかの(n1)測定値が同じ値であるときはp1=n1/nとおいて、平均、分散、共分散の公式は次のように荷重平均(=頻度x測定値の合計)で表すことができる。
平 均 | = | p1x1+p2x2+... |
分 散 | = | p1(x1-μx)**2+p2(x2-μx)**2+...{=E(x-μx)**2=σx**2} |
共分散 | = | p11(x1-μx)(y1-μy)+p12(x1-μx)(y2-μy)++p21(x2-μx)(y1-μy) |
+p22(x2-μx)(y2-μy)+... {=E(x-μx)(y-μy)=σxy} |
身長、体重、知能指数などの量的形質 quantitative,character の特徴は多数の座にある遺伝子によって決まることである。 しかも1遺伝子座あたりの表現効果は環境の効果より小さいのが普通で、このため遺伝子の分離によって生じる不連続な変異は環境による変異と混ざり合ってあたかも連続的な形で変異が現れる。 このような遺伝子はMather(1949)の研究以来ポリジーンpolygeneの名で呼ばれている。 しかしその分析にはメンデルの行った分離比を調べる方法は使うことができない。 これに代わるのが分散分析analysis of varianceの方法である。
Fisher(1918)の研究を初めとして、古典的な研究としてWright(1935), Mather(1949),Kempthorne(1957), ...が特に顕著である。 Darwin(1859)は生物進化の本質をなすものは微小な遺伝的変異の自然淘汰による正の選択の蓄積であると述べている。 このことからも量的形質が生物進化において重要であることを伺い知ることができる。 違う変種あるいは種を交配するとF2以後で変異が増大し、しかも連続変異が観察されることはよく知られている。 また収量、生長速度、器官の大きさなどの育種の対象となる形質の多くは量的形質であるから、この方面の研究が近年の育種家によって活発に研究が行われている。
これまでは遺伝子頻度や遺伝子型頻度を用いて集団の特徴を調べてきたが、形質あるいは表現型の測定値を用いてもそのような検討が行える。 個体の形質の測定値を表現型値henotypic valueというが、集団の構成員から得られる表現型値から、平均、分散、共分散などの統計量が得られるが、これらはまた集団の特徴を示す。 集団の遺伝的性質を理解するには、表現型値をそれが決まる原因別に分割することが必要になる。
表現型値(P)はまず遺伝子型値(G)と環境偏差値(E)で表すことができる。 すなわち個体の測定値はその遺伝と環境で決まると考えるのである。 各個体について表現型値と遺伝子型が与えられ、その差が環境偏差値であえる。 観察された数値をある遺伝モデル
で説明しようとする試みである。 ここで環境偏差値の合計が0となるように測定値の尺度を選ぶことにする。 つまり表現型値の平均は遺伝子型値の平均に等しくなるように測定値の尺度を決める。
継代的な実験を行うに際しては環境条件は一定に保つことが重要である。 この前提が成立しているのであれば、遺伝的な変化がない限り表現型値や遺伝子型値の集団平均は変わらない。
原則として遺伝子型値は測定することができるが、関与する遺伝子座数がわからないことが多くて実務的にはできない。 しかし1遺伝子座を仮定することで、しかもそれで決まる各遺伝子型値が区別できる場合、あるいは各遺伝子型が純系に近い近交系である場合には遺伝子型値を測定することができる。
1つの遺伝子座に対立遺伝子A1,A2があるとする。ホモ接合の1つに遺伝子型値aを、別の遺伝子型値に-aを、そしてヘテロ接合に遺伝子型値dを決める。 たとえば次のようになる。
遺伝子型 A1A1 A1A2 A2A2 ---------------------------------- 遺伝子型値 +a 0 d -a
この尺度では原点0は2つのホモ接合の中位値である。 dはヘテロ接合の遺伝子型値でこれはの度合(degree of dominance)で決まる。 d=0なら優性なしno dominance、d>0ならA2はA1に対して優性、d<0ならA1はA2に対して優性という。 d=±aなら、いずれかの対立遺伝子は完全優性であるという。 またd>+a、d<-aのとき超優性という。 優性の度合をd/aで測ることがある。
例:小形pygmyマウスはdwarfing,gene(pg)による(King,1950)。 6週令の体重を3遺伝子型について測定したところ、次の通りであった。
遺伝子型 | 体重(g) |
---|---|
2つのホモ接合の中位値は (14+6)/2=10 で、これが原点になる。 この例ではa=4g、d=2gとなる。
形質の平均と対立遺伝子頻度の関わりを明らかにしよう。 対立遺伝子A1とA2の頻度をそれぞれpとqする。 任意交配の行われている集団で、3つの遺伝子型について遺伝子型値などは次のようになる。
遺伝子型 | 頻度 | 値 | 頻度 x 値 |
---|---|---|---|
合計 | 1 | a(p-q)+2pqd (=M) |
それぞれの値に頻度を乗じたものの和は定義により平均(M)である。 表現型値の平均が複数の遺伝子座の相加的な作用によるなら、
と表すことができる。 Σは関与する遺伝子座についての合計を示す。 関与する遺伝子座間に非相加的な関係が大きいとエピスタシスepistasisがあるという。
平均効果average effect:遺伝子型は配偶子である遺伝子の結びつきで決まるから、遺伝子にある値を割当ることで、これらにより遺伝子型値が決まると考えることができる。 Fisher(1941)は遺伝子の置換による平均効果average effect of a gene substitutionを遺伝子型A1A1,A1A2,A2A2の対立遺伝子A1の数(y)へのそれぞれの遺伝子型のA1の数2,1,0(これを遺伝子量gene dosageという)(x)の回帰係数として定義した。 回帰係数はσxy/σx**2と共分散と分散の比で定義されるが、xとyの共分散とxの分散は
σxy | = | (+a)(2)p**2+(d)(1)2pq+(-a)(0)q**2-{a(q-p)+2pqd}*{(2)p**2+(1)(2pq)+(0)q**2} |
= | 2pq(a+(q-p)d | |
σx2 | = | (2)2p**2+(1)2(2pq)+(0)q**2-(2p)**2 |
= | 2pq |
だから遺伝子の置換による平均効果(α)は
αは回帰直線の勾配を表すから、遺伝子型値の遺伝子A1の数への勾配である。 遺伝子A1、A2の平均効果をそれぞれα1、α2とすれば
ここでα1p+α2q=0であることに注意すれば、対立遺伝子の平均効果は
α2 | = | -pα | = | -p{a+(q-p)d} |
α1 | = | qα | = | q{a+(q-p)d} |
となる。 平均効果は前に定義した遺伝子型値a,dと遺伝子頻度p,qで表すことができる。 また以上をA2対立遺伝子について考察すると符号は反転する。
数値例:pygmy遺伝子と体重について。 a=4g,d=2gの測定値が得られた。 pg遺伝子の頻度がq=0.1であれば、遺伝子置換の平均効果はα=4+2(0.1-0.9)=2.4g。 もしq=0.4なら、α=4+(2(0.4-0.6)=3.6g。個々の対立遺伝子の平均効果は
q | ||
---|---|---|
α1 | ||
α2 | ||
α |
遺伝子の置換による平均効果(α)は遺伝子頻度が高いほど大きい。 pg遺伝子の平均効果が遺伝子頻度の違いで同じ値となっているのは偶然の一致である。
Fisher(1941)は特定の対立遺伝子を持つ群に着目し、その遺伝子の数で荷重した平均の郡間の差を平均過剰average,excessと定義した。 任意交配の集団では平均効果と平均過剰eは一致するが、一般には一致しない。 一定の近親婚集団では近交係数をfとすると
なる関係がある(Kempthorne,1957)。 平均効果と平均過剰についてのわかり易い解説はFalconer(1985)を参照されたい。
育種値(A)breeding value。親が子に伝えるのは遺伝子で遺伝子型ではない。 したがって親の遺伝子の平均効果が子の遺伝子型値を定めることになる。 たとえば単一遺伝子座で2つの対立遺伝子A1、A2が分離しているならば
遺伝子型 | 育種値 |
---|---|
すなわち、育種値は父方及び母方由来の遺伝子の平均効果の和で決まる相加的な量である。 相加的遺伝子型値ともいう。 飼育栽培の育種における品種改良で重要な統計量である。 複数の座位が関与する場合は各座位の寄与の合計が個体の育種値となる。
数値例:平均効果を計算した前出のマウスのpygmy,遺伝子の育種値を求めてみよう。
遺伝子頻度 | 育種値 | ||
---|---|---|---|
q | ++ | +pg | pgpg |
2つ以上の対立遺伝子がある座位について各個体の育種値は対の平均効果の和で求めることができる。 さらに複数の遺伝子座が関与するなら、それぞれの座で定まる育種値の合計が各個体の育種値となる。
以上をまとめると集団平均を基準として測ったときの遺伝子型値は次のようになる。 2対立遺伝子の単一座位においては
集団平均 | |
---|---|
遺伝子の置換による平均効果 |
遺伝子型 | |||
---|---|---|---|
頻度 | |||
値 |
育種値 | |||
---|---|---|---|
ドミナンス | |||
遺伝子型値 |
Darwin C 1859. The origin of species. John Murray, London.
Falconer DS 1985. A note on Fisher's `average effect' and `average excess'. Genet Res Camb 46:337-347.
Fisher RA 1918. The correlation between relatives on the supposition of Mendelian inheritance. Trans Roy Soc Edinb 42: 321-341.
Fisher RA 1941. Average excess and average effect of a gene substatution. Ann Eugen 11: 53-63.
Kempthorne O 1957. An introduction to genetic statistics. John Wiely, New York.
King JWR 1950. Pygmy, a dwarfing gene in the house mouse. J Hered 41:249-252.
Mather K 1949. Biometrical genetics. Methuen, London.
Wright S 1935. The analysis of variances and the correlations between relatives with respect to deviations from an optimum. J Genet 30: 243-256.