サーベイランスSurveillance(モニタリングmonitoringともいう)は測定の繰り返しの続く任意の連続過程で、測定値に何か変化が生じたとき何らかの行動を採るのが目的である。この行動には補助テストも伴う必要があるが、それにはハザードを除去するか減らすかの尺度についての基礎として、変化の事実を証明し、その原因を確立しなければならない。サーベイランスは工業製品の品質管理でごく日常的に行われているが、連鎖分析でたいへん有用であることが証明された逐次検定sequential analysisを用いることを提案する。適切な無作為標本および症例の登録で、グループの比較、時間の経過での増加、時空でのクラスタリングについての適切な方法が幾つか考えられる。検出すべき生物学的ハザードとして突然変異原mutagen、催奇原teratogen、催がん原carcingenが挙げられる。
体細胞突然変異は別として、生殖細胞突然変異原のハザードについてのサーベイランスは適応度の低い監視表現型sentinel phenotypeとそれに相当する新しい突然変異の割合が高いことが考えられる。この条件を満たす例としてすべての染色体異数性と常染色体優性と伴性遺伝子の幾つかがある。ほとんどのidiomorphはわずかな新しい突然変異がほとんど無視できる割合でしかないので不適当である。たとえば、私的対立遺伝子private alleleの突然変異率が10-6/座位/世代、放射線倍加線量を1Gy/世代(緩被ばく)、親子関係の誤りが0.01、遺伝的事実による親子関係否認の効率が0.99とする。そうすると片親が2Gy被ばくの集団で、遺伝的事実を排除できない弧発例が突然変異である確率は
5×10-6/{5×10-6+0.01×(1-0.99)} = 0.05
である。この確率は小さくはない。突然変異原(放射線2Gy(片親被ばく)によるハザードの影響より少ないとも考えられるし、親子関係判定の誤りはもっと大きいであろうが、さらに親子関係排除の効率はこれより低いと思われる。親子関係判定の誤りは先験的に未知であるし、集団内のグループで違うことも考えられる。したがって被ばく群と対照群でも違うかもしれない。これに対して、異数体と有害突然変異についてのサーベイランスは後ろ向き調査か前向き調査のいずれかである。好都合な状況では、突然変異の結果が生産児より多い人工流産児や自然流産児を利用することも考えられる。
10.1 環境ハザード
ある特定の環境作因による生物学的ハザードがありそうだと考えられたとする。問題はこの仮説をテストし、確かめられれば、ハザードの大きさ(量)に対する対応を確立することができる。
量dに暴露したi番目の個体あるいは標本についての確率変数をXiとする。そうすると
zi=log {Pd(Xi)/P0(Xi)}
は生物学的ハザードがないという仮説をテストするロッド値である。そうすると
log B<∑zi<log A
はその逐次検定の継続域である。このとき第I種の誤り(言い過ぎる誤り)は
P(∑zi>log A|H0)=α、
第Ⅱ種の誤り(見過ごす誤り)は
P(∑zi<log B|H1)=β
である。ここに
A≒(1-α)/β、 B≒β/(1-α)
である。サーベイランスではα=β=0.1とするのが妥当なようである(Wald 1947)。したがってA=9、B=1/9≒0.11である。それで「有意」という結果は「疑いがある」であり、確定を正当化するものではない。Aが大きくなると、結果は真であり、P0(Xi)は正しく特定されたことを証明するものであるという確信が高まることを意味する。
最初に、ハザードになるかもしれない監視表現型を取り上げよう。無作為標本なら、罹患しているならXi=1、健常ならXi=0として二項分布を考える。線形応答linear responseの場合は
Pd(Xi)=(1+Kd)p Xi=1
=1-{1+Kd)p } Xi=0
放射線が対数線形log linearの応答では次のようになる。
Pd(Xi)=1-e-Kd(1-p) Xi=1
= e-Kd(1-p) Xi=0
出来事Xi=1はハザードに対して感受性あり、Xi=0はハザードに対して抵抗性であるとする。たとえば、前者は男子で、ハザードは母親被ばくである。この場合は
Pd(Xi)=pe-Kd/(1-p+pe-Kd) Xi=1
=(1-p)/ (1-p+pe-Kd) Xi=0
である。考えられる応答数はいくらでも大きくなる。Pd(Xi)はそれぞれの生物学的ハザードについて決まる筈である。
サーベイランスが健常者を除いた患者だけの登録であれば、罹患者についてのXiはポアソン分布に従う。
Pd(Xi)={(1+Kd)m}Xie-(1+Kd)m/Xi!
ここにmはd=0のときの罹患者数である。
サーベイランスの結果が罹患者でなく、むしろ姉妹染色分体交換のように一個体からのN個の細胞に沢山観察する細胞単位であるとき、平均のまわりのばらつきにも配慮しなければならない。σ2を同じ線量の個体間の分散とする。大きさNの標本からのXi事象の確率は
Pd(Xi)=exp[-{Xi-(1+Kd)m}/σ2]/√(2πσ2)
さらに一般化して、(1+Kd)を特異的な反応を示す関数形f(d)で表すことも考えられる。
10.2 リスクの増加
しばしばサーベイランスは時間と共に増える非特異的なハザードに直接向けられることがある。監視表現型に必要な適切な分布は
P(Xi)=Kp Xi=1
=1- Kp Xi=0
結果Xi=1はハザードに対して感受性、Xi=0は抵抗性なら、
P(Xi)=pK/(pK+1-p) Xi=1
=(1-p)/(pK+1-p) Xi=0
である。サーベイランスが罹患者だけであるなら
P(Xi)=(Km)Xie-Km/Xi!
表10.2にダウン症の例を示した。
表10.2 スエデーンでのダウン症の年次発生についての逐次検定モニタリング
年 | ni | mi | 生産児数 | Z | 判定 |
---|---|---|---|---|---|
1968 | 165 | 144.3 | 133,087 | 1.37 | 継続 |
1969 | 131 | 137.4 | 107,662 | -0.19 | 継続 |
1970 | 142 | 140.6 | 110,150 | -0.92 | 継続 |
1971 | 135 | 144.9 | 113,512 | -2.91 | H0を容認 |
1972 | 137 | 142.0 | 111,252 | -1.44 | 継続 |
1973 | 138 | 138.8 | 108,749 | -2.39 | H0を容認 |
計 | 848 | 848 | 664,414 |
継続:モニタリングを続ける。H0:帰無仮説(変化なし)。H1:対立仮説(変化あり)。
最後にXiが平均Km、分散σ2の正規分布にしたがうのであれば、
P(Xi)=exp{-(Xi-Km)2}/√(2πσ2)
となる。
10.3 時間的クラスター
前節で考慮した分布はある一定の長期間のハザードに対して適切である。しかし、あるハザードは、季節あるいは他の規則的な再発を除き比較的短い期間に症例が集中することがある。監視表現型がまれであるなら、クラスターは数が小さくて通常の有意性検定は信頼が容易におけない。しばしば主要目的として監視表現型の増加を検出し、さらにクラスターを検定することになる。
まずデータファイルは罹患者と健常者に順位を付けて登録するものとする。たとえば登録ファイルは染色体異常で定義される罹患として自然流産児、あるいは生産児のファイルと胎児死亡登録が考えられる。どちらの場合も推定した受胎日を基準としで適切な順位を決めることができる。
クラスターがないとする仮説H0で、最後に観察した症例の後、次にn回の健常児が続いた後に異常児を観察する確率として幾何分布を取り上げてみよう。
P0(n)=p(1-p)n-1 (0<p<1, n>0)
クラスターがあるとする仮説H1で、リスクp/KとpKの2つの分布を考える。K>1とすると、最初の分布は流行性でなくnon-epidemic、後者は流行性epidemicである。異常で終わる試行の配列は2つの分布のうちの1つを無作為に取りだす。その確率は最初の場合は1/(K+1)である。待ち時間はそれぞれK/pと1/(pK)であるから、最初の分布での試行の割合の平均は1/(K+1)より大きい。すなわち
{1/(K+1)}(K/p)/[{1/(K+1)}(K/p)+{K/(K+1)}(1/Kp)]=K/(K+1)。
平均の待ち時間は
E1(n)= {1/(K+1)}(K/p)+ {K/(K+1)}(1/Kp)]=1/p
である。クラスターは短い待ち時間と長い待ち時間の過剰であるから、平均の症例頻度と平均の待ち時間には変化がない。クラスターがあるとする仮説H1で、尤度は
P1(n)={1/(K+1)}(p/K)(1-p/K)n-1+{K/(K+1)}(Kp)(1-Kp)n-1
である。実際に、pは目標が起こると考えられるクラスターを検出するのであれば事前の経験から得たものを用いるし、検出を急ぐのでなければ分析中のデータから経験的に求める。事前にpが得られているのであれば逐次検定を、pを同時に推定したのであれば標本の大きさを固定した検定となる。どちらの場合もKの関数としてロッド値∑log{P1(n)/p0(n)}の表を作り、クラスターについて適切な検定を行う。この検定は小標本で信頼性があり、標本をプールすることができ、標本間の異質性を検定することができる。表10.3は自然流産にこの検定を適用したもので、いずれにもクラスターは認められていない。
表10.3 自然流産児のクラスタリングの検定
監視マーカー(X1 =1、X0=0) | 標本数 | 罹患者数 | K | Z |
核型(判定不可、可能) | 563 | 53 | 1 | 0 |
核型(異常、正常) | 510 | 243 | 1.09 | 0.007 |
(男児、女児) | 267 | 115 | 1 | 0 |
三染色体(あり、なし) | 243 | 113 | 1 | 0 |
構造異常(あり、なし) | 243 | 12 | 1 | 0 |
一染色体(あり、なし) | 243 | 61 | 1.37 | 0.070 |
三倍体(あり、なし) | 243 | 40 | 1.61 | 0.405 |
四倍体(あり、なし) | 243 | 19 | 1.89 | 0.392 |
XXX三倍体(あり,なし) | 243 | 9 | 2.85 | 0.620 |
標本の大きさが待ち時間とは独立で観察データを一まとめにしたのなら、それに相当する標本の大きさsでr症例の2重二項分布double binomial distributionが適切である。
P1(r,s)={K/(K+1)}(p/K)r(1-p/K)s-r+{1/(K+1)}(pK)r(1-pK)s-r
健常者を標本から省くのであれば、2重ポアソン分布double Poisson distributionになる。
P1(r,s)={K/(K+1)}(m/K)re-m/K+{1/(K+1)}(mK)re-mK
10.4 空間的クラスター
集団構造の理論が空間クラスターについての検定に使える。空間として地理、親縁度、混合、あるいはいかなる距離の尺度に適用できる。クラスターがないとする仮説は7.7節での式でb=0に相当する。
10.5 補助テスト
H0を逐次検定の結果として受け入れるか棄却するかが決まったら、いくつかの点で再検討する必要がある。
- リスクを考える集団は正しく決めているか。出産率、死亡率あるいは転出入率、さらには行政区分の変更で集団そのものが変る。
- 層別により集団は一定であるか。出産時の母親年齢あるいは民族あるいは社会経済層の変化は罹患率を変える。
- 各グループのリスクは適切か。多くの場合、適用のできない別の集団を含めてしまうことがあるかも知れない。
- 確認の確率に変化はないか。より軽症あるいはより疑いのある症例をあらかじめ定めた診断基準をゆるめて含める、あるいは疑わし症例を除く、あるいは最初の診断を細かくしたりまとめたりして診断基準を改良する。また症例の死亡率の低下は確認の確率を変えることにつながる。より精力的なスクリーニングプログラムや新しいより進んだ登録法も同様な影響がある。人材や方法の変化は起こるべくして生じる。
確認の確率の問題は罹患者の登録のサーベイランスに必ず入り込む。原則として、確認の確率の変化は登録症例の確認分布から見つけることができる。非常に多くの独立なスコアが、それぞれ一定の確率であるとき、切れたポアソン分布が現れる。切れたスケラム型分布truncated Skellam distributionはスコアが有限で、それぞれの確認確率が異なり、β分布で記載したときにこのモデルが使える。切れた負の二項分布はポアソン分布の一般化で、スコアは十分多く、その確認確率の相違がガンマ分布をするというモデルである。実際、スコアが2つ3つと少なくなければ、これらのモデルのどれかが適切なのであろう。3以上のスコアがあれば特定の確率分布を適合度の検定の自由度と共に選択することができるかもしれない。
有意な健康ハザードの可能性が検出(あるいは見逃す)されたとき特に逐次検定をやめて以上や他の補助テストや時間的傾向は絶えず行う必要がある。
逐次検定サーベイランスの利点のあるものとして累積和を用いる標本抽出計画もある。第Ⅱ種の誤りよりむしろ連の長さrun lengthの平均を固定するので検定の性質がぼやける。計算は近似で少しの融通も利かないし、標本の大きさ、確認の確率が変わる、また集団層別で違う母親年齢あるいは出生順位などのリスク因子では使えない。違う方法を比べると若干の利点はみつかることがあるかも知れないがわずかであろう。完全に逐次検定法がよい。
サーベイランス計画を始めるにあたって、逐次検定をデザインするべきである。逐次検定はハザードが突然変異原、催奇形原、催がん剤のサーベイランスに当てはまる。しかしリスク範疇の異質性に問題である。たとえば、サリドマイドはアザラシ症phocomeliaへ特異的効果を表す。アザラシ症は他の奇形とプールされると検出できないであろう。一つの可能性はプールした範疇に対して逐次検定を実行するのである。それと共に検定が終わるときの特定の実体の尤度比を調べる。mjをH0でのj番目の異常の期待値、njを観察数とすると
2∑njln(nj/mj) nj>0、mj>0
は大標本でH0での自由度k-1のχ2分布をする尤度比の基準値である。この検定はまれな診断グループで、診断基準や確認の確率の変更に対して通常の配慮にも感受性を増す。一旦疑わしいことがあると、診断範疇はそれで適切な逐次検定を行う。逐次検定サーベイランスの利点は第I種と第Ⅱ種の誤りを定めて求めた標本の期待数が小さくて済むだけではない。さらに、サーベイランスプロトコールを提供する。十分に多くの頻度で判断をする(標本抽出を続ける、補助テストをする、H0を棄却するか採用する)。登録は未解析のデータ以上になる。逐次検定は登録の品質、研究者の士気、モニターする集団に対するサーベイランス計画の価値に貢献する。サーベイランスは帰無仮説を棄却したとき、ハザードは決定しなければならないし、その線量応答、作用の様式、そしてその制御を決めなければならない。
生物学的ハザードのサーベイランスは遺伝疫学で問題からより発展した興味深い問題へと解決が進むよい一例である。
10.6 参考文献
Klingberg MA, Weatherall JAC, Papier C (eds): Epidemiologic Methods for Detection of Teratogens. Karger, Basel, 1979.
Morton NE, Lindsten J: Surveillance of Down’s Syndrome as a paradigm of population monitoring. Hum Hered 26:360-371, 1976.
Wald N: Sequential Analysis. John Wiley, New York, 1947.
付記
「遺伝疫学の基礎」は今回で終了とする。
遺伝情報の分子物理的構造が解明されるようになり、それと共に大型計算機の開発お多くのコンピュータプログラム(ソフト)が開発されている。本講座はソフトのユ―ザーを対象としたものでなく、生物(特にヒト)集団の遺伝情報の構造と集団遺伝学を理解し、新しい数理統計学を駆使して、いわゆる「遺伝疫学」の手法を開発することを目的としている。若干古くなるが、本講座のあと例えばZiegler A & Konig IR, 2006. A Statistical approach to Genetic Epidemiology. Wiley-VCHを読むとよい。この本の翻訳を5年前に済ませたが、出版社が見つからなかったので止むを得ず未発表である。
このような本講座を無理にお願いして採用して発表の機会を戴いた寺尾恵治博士には感謝してもしきれない気持で一杯です。本当に有難うございました。最後になり大変恐縮しておりますが、高野淳一朗さんには配信の上でたいへんお世話になり、ありがとう御座いました。