分散分析
理学療法分野の研究(以下,理学療法の研究)において取得されたデータの解析では,3標本以上の平均値の差の比較を行う機会が多い。この場合,単にt検定を繰り返すのは誤りであり1),分散分析(analysis of variance;以下,ANOVA)の適用となる。
ANOVAはFisher2)による実験計画法の3原則−繰り返し測定,無作為化,局所管理−に基づいたデータに対する統計的手法である。この他,“幾つかの仮定”の下で取得されたデータを解析の対象とする。これらの仮定を満たさなければ,結果として理論と異なる結果を招くことになる。
ANOVAに限らず,最近ではパソコン用統計ソフトの進歩により高度な解析でも容易に実行できる環境にある。医学研究における統計解析は,統計的手法を決定するためのフローチャート(決定樹)を利用しさえすれば,データの性質はともかく検定を行うことは可能である。しかし,前提となる条件を満たさず,あるいは留意しないで行う検定は判定の誤りを招いてしまう。
本稿ではまず,最近の理学療法における研究報告を一部レビューして3標本以上の平均値の差の検定(以下,3標本以上の検定)の適用に関する現状を調査してみる。次に実験計画法,幾つかの代表的なANOVAの手法を簡単に述べ,それぞれ適用の手順を解説する。加えて,理学療法の研究報告でよくみられる誤った適用を指摘し,どのように改善すべきか具体例も挙げて述べる。
理学療法関連の雑誌に掲載されている一部の論文をレビューして,理学療法の研究における3標本以上の検定の適用状況を調査する。
「理学療法研究」11号(1993年)〜17号(2000年)に掲載された論文のうち,3標本以上の検定を扱った報告は3編であった。これらのうち,3編とも手法の選択経過を記載しておらず,また2編は明確な統計的手法の掲示を行っていないため,問題点を指摘するに至らない。
「東北理学療法学」5号(1993年)〜12号(2000年)では,3標本以上の検定を扱った報告は比較的多いが,統計的手法を記述したものは少なく,また手法の選択手順・理由を明記しているものは存在しない状況であった。
「理学療法学」26巻1号(1999年)〜27巻5号(2000年)の掲載論文では統計的手法は必ず記載されていたが,統計的手法の選択手順が明記されているものは存在しなかった。なお,これ以外の理学療法関連の論文では記載されている可能性はあるが,かなり少数であると予想する。
このような現状は理学療法(以下,PT)のみならず医学に関連する研究報告でも見られ,結果として以下のような問題が生じる。
(1)統計的手法の記載がなければ,適用した手法の利点・欠点を考慮した結果の解読,または手法の適用が正しいか誤りかを判断できない。
(2)統計的手法選択の手順を記載していなければ,解析者がどのような考えでデータを見ていたか,解釈の限界をどれくらいにしているか把握できない。またはその手順が正しいか誤りかを判断できない。
ここでは統計的手法の選択手順や適用の誤りを指摘するに至らなかった。ルーチン的に“3群以上の平均値の比較であればANOVA”という適用を行っているに過ぎないという印象を受ける。そこで,以降では基本的な事項を再確認する目的で,実験計画法によるデータの取り方,3標本以上の検定の選択手順を説明することにする。
この節では実験計画法の3原則を述べ,それを活用する具体的な方法も述べる。
1)繰り返し測定
測定には常に誤差がつきまとう。従って,1回の測定値よりも100回の測定値の方がはるかに誤差の割合を相殺できる。誤差の原因は何であれ,繰り返し測定の目的は誤差の減少である。
2)無作為化
実験の結果が完全に偶然の法則に支配されるという仮定を正当するのに必要な,実験技術の物理的条件を検討しなければならない。ランダムに,つまりでたらめに対象を割り付けても潜在的規則的な要素が入っていれば“無作為化”とならない。従って,誤差をコントロールしつつ無作為化を意識しなければならない。
誤差には,偶然誤差と系統誤差がある。偶然誤差とは一般に認識されている測定やサンプルの誤差といわれ,統計的処理が可能である。系統誤差は実験の順序,日時などによって生じるものである。通常,系統誤差は統計的処理が不可能である。比較したい群間に系統誤差が入っていると“交絡”の状態になり,比較の意味はなくなる。この系統誤差をコントロールするのである。
3)局所管理
例えば実験順序などの系統誤差の因子をブロック因子a,層別化された個々をブロックと呼ぶ。実験計画時にブロックを均等に割り付けて,系統誤差を偶然誤差に変えるbことが局所管理である。
4)具体例
実際に例を挙げて,3原則の説明をする。片麻痺の脳卒中患者各16名を対象として,ブルンストロームステージ(以下,Stage)別に健側上肢握力の比較を行ったとしよう。Stage因子の各水準ごとに4回繰り返し測定を行い,測定の順序はランダムとした。ここで,“因子”とは“要因”とも呼ばれ,差があるかどうかについて検討されるものをいう。“水準”とは“処理”ともいい,因子を細分化した層,群のことをいう。
繰り返し測定と無作為化を考慮したこの実験を完全無作為化法と呼ぶ。実験結果は表1の通りであった。
ところで,握力を測定した時間帯は被検者を表1と同じ配列にすると表2のように表せる。時間帯の基準はPT施行前・施行中・施行直後・施行後3時間
表1 握力測定の結果
|
|
StageV |
W |
X |
Y |
1
2
3
4
|
10.0
11.0
7.0
5.0
|
7.5
10.5
12.0
13.0
|
15.5
12.5
19.0
20.0
|
25.0
28.0
25.0
30.0
|
|
|
後としている。
測定の時間帯をみると,特にStageVはPT前・中が多く,StageYはPT後が多い。仮に握力値が測定
表2 握力測定の時間帯
|
|
StageV |
W |
X |
Y |
1
2
3
4
|
PT前
PT前
PT中
PT中
|
PT前
PT中
PT前
PT中
|
PT直後
PT直後
PT中
PT直後
|
3時間後
3時間後
PT直後
3時間後
|
|
|
※表中「3時間後」とは,PT後3時間経過時
の時間帯の影響を受けると考えれば,この実験には偏りがあることになる。
それでは時間帯をブロック因子と考えて,改めて表3のように割り付けてみるとどうだろうか。
表3 握力測定の時間帯の割り付け例
|
|
StageV |
W |
X |
Y |
1
2
3
4
|
PT前
PT中
PT直後
3時間後
|
PT前
PT中
PT直後
3時間後
|
PT前
PT中
PT直後
3時間後
|
PT前
PT中
PT直後
3時間後
|
|
|
今度は各Stageごとにすべての時間帯が含まれるように配慮してある。これを乱塊法(完備ブロック実験とも呼ばれる)といい,完全無作為化法に加えて局所管理も考慮した実験計画である。実際の測定
は,行ごとに無作為に(Stage水準間の測定順序は無作為とする)測定していく。
ところで,この実験で握力計はA,B,C,Dの4種類使用しなければならなく,かつ,1日1種類の握力計しか使用できない制約があるとする。今度は“握力計の違いによる影響”も考えるとする。最も単純な方法は1つの握力計を用いて表3の実験を1日で終え,計4日繰り返して測定すればよい。但し,被検者数は16×4人に増加する。時間,被検者に制限があるときには,表4の様にラテン方格法を利用すればよい。
実験順序は表4の1行目を,その日使用できる握力計Aで測定,次の日は2行目を握力計Bで測定,と順次繰り返せば,時間帯の違いと握力計の種類の違いが相殺される。このラテン方格法は,因子の水準数(ここではStage数)とブロック因子の水準数が等
表4 実験順序も考慮した割り付け例
|
|
StageV |
W |
X |
Y |
A
B
C
D
|
PT前
3時間後
PT中
PT直後
|
3時間後
PT前
PT直後
PT中
|
PT直後
PT中
PT前
3時間後
|
PT中
PT直後
3時間後
PT前
|
|
|
しいときに限り適用できる計画で,水準数の少ない(4〜8程度まで)時は有効2)である。
以上の方法以外にグレコラテン方格法(反復測定ではこれを変形させた循環法が適する),ユーデン方格法,釣り合い型不完備デザイン,一部釣り合い型不完備デザインなど複雑なデザインはあるが,詳細は他の成書2)を参考にされたい。
W 分散分析の手法
ANOVAの計算理論については多くの専門書があり,最近ではリハビリテーション関連の雑誌でも解説されている3)4)ので,本稿では詳しく述べないことにする。ANOVAの手法選択には,例えば以下のような線形模型,
yij=μ+aj+eij
(i=繰り返し測定数;j=因子Aのj水準;eij=誤差)
を考えると非常に簡単となる。しかし,ここでは具体例を挙げて説明していくことにする。
ところでANOVAを適用させるためには,
@データ(正確には誤差)は正規分布に従う。
A従属変数の値は互いに独立である。
@各水準の等分散性が保証できる。
といった前提条件を満たしていなければならない。
1.一元配置モデル
一つの因子に対して3つ以上の水準間で差の検定を行うためには,主に図1のような手法が挙げられ
図1 一元配置モデルの手法選択手順
る。ここでは特に一元配置ANOVAの適用について説明する。
例えば,前節の表1のデータは“Stage因子”の1つであるから,一元配置モデルとなる。まず,統計的手法を適用させるために図1の手順で上記前提条件を確認していかなければならない。@の条件については,χ2値を利用した正規性の検定などが存在するが,標本の大きさが小さいときは有効な判断ができない。経験的な知識とヒストグラムなどの図による表現から判断するのが妥当である。また,データが連続変数か離散変数かによって判断してはならない。あくまで,正規分布に従うか否かの判断である。順序尺度でかつ,飛び離れ値が存在し,専門的見地からもそれを除去できないときはノンパラメトリック法(図1中Kraskal-Wallis検定)の適用となる。
互いに異なる対象であれば条件Aは満たされる。同じ対象を反復測定していれば,“反復測定によるANOVA”を適用する。これは利用される機会が多いため,後にまとめて述べることにする。
最も重要な条件BについてはLevene検定,Bartlett検定などがほとんどの汎用コンピュータの統計ソフトに組み込まれているから,容易に確認で
図2 二元配置モデルの手法選択手順
きるc。どちらかというと頑顕性の高いLevene検定を推奨する。等分散性の検定は有意確率αで帰無仮説を棄却できなかったとき“各群の分散値が異なるとはいえない”と判断する。
ANOVAの全般にいえることであるが,前提条件の@に関しては頑健性(ロバストネス)というのがある。つまりデータが多少,正規分布に従わなくても比較的理論的な結果が得られるというものである。前提条件AとBについて頑健性は保証できない。
2.二元配置モデル
一元配置モデルを二因子に拡張したものは,二元配置モデルといわれ,主に図2の手法が挙げられる。ここでも上記の前提条件を確認していく必要がある。データ例として表5を考える。なお,表5は繰り返しのない二元配置ANOVAの適用となる。
表5 二因子のANOVA例
|
StageV |
W |
X |
Y |
3カ月
6カ月
9カ月
12カ月
|
7.0
12.0
12.0
13.0
|
10.0
13.5
15.0
14.0
|
8.5
15.0
13.0
15.5
|
15.0
20.0
18.0
25.0
|
|
|
Stage別(列の因子)に,また発症からの期間別(行の因子)に,健側上肢の握力差があるかを知りたい。実験デザインから考えると表3と類似しているが,表3では行がブロック因子であるのに対し表5の行因子は水準間の差に興味がある因子として考えている。
前述の条件@は,各因子について一元配置モデルと同様に行う。互いに異なる対象であるから条件Aは満たされる。条件Bは,各因子につき等分散性の検定を行うのが一般的であろう。等分散性が保証できないときは,変数変換を行って分散値を等しくする必要がある。
取り扱う因子数が三因子であれば,三元配置分散分析,四因子では四元配置分散分析という形で拡張できる。しかし理学療法の研究で四元配置以上の手法を要求される例は少ない。
ところで,二因子以上のANOVAでは交互作用という概念が存在する。図3はStageと握力間の2次の
図3 交互作用の模式図
交互作用例を挙げたものである。図3a.は交互作用の無い例であるから,StageVの時はWの時よりも握力値は大きく,3ヵ月よりも6ヵ月の握力値は大きいと解釈できる。
図3.b.,図3.c.は交互作用が存在する例で,stageの変化に伴い,握力値の変化は一定してないことがわかる。常に“Stage+発症からの期間因子”が混在した形で変化する。このように交互作用の存在する解析結果に対しては,慎重な解釈が必要となる。厳密には交互作用がどの水準間に存在するかを解析しなければならないし,因子の差(主効果という)の解釈も若干異なってくる。なお,3次以上の交互作用(3元配置以上のANOVAで得られる)は無理に解釈はしない。
3.反復測定によるANOVA
反復測定によるANOVAが用いられる機会は多い。本邦における理学療法の研究で,この適用を判断する手順の誤りは,ほぼ100%に近いと確信する。運良く正しい結果が得られているといった現状であろう。反復測定によるANOVAでは,条件Aは満たされない。従って,他の重要な確認を行わねばならない。理学療法の報告を見ると,ほとんどが先に述べた2因子のANOVAと同様の手順で解析を進めているが,誤った判定を下している可能性は高い。
条件Aが満たされない反復測定によるANOVAではF値が歪むため,まず“球形検定”を行う必要がある。SASやSPSSにはMauchlyの球形検定(球状性検定とも呼ばれる)がプログラムされている。実際は“Boxの修正による球形検定(付録解説A参照)”の方がより近似は良いが,プログラムされているソフトが存在しない。解析を既存の統計ソフトに委ねている場合は,Mauchlyの球形検定を利用せざるを得ない現状であろう。球形検定の後,必要であればBoxのε修正(Greenhouse-Geisserのε修正[付録解説B参照]またはHuynh-Feldtのε修正)を行って自由度を補正する必要がある。二因子の反復測定によるANOVAでは,更に複雑な手続dが必要となる。
反復測定によるANOVAのノンパラメトリック手法は,一因子であればFriedman検定が該当するが,二因子以上となるとノンパラメトリック検定は存在しない。代わりに,多重ロジスティック回帰分析や後述の多変量分散分析を適用させる方法もあるが制約条件が伴う。
表6は反復測定によるANOVAの適用となるデータ例である。このデータは,上腕骨骨折患者4名(年齢層,性別,体重はマッチング済み)を対象に握力値を入
表6 測定の結果
|
|
受傷から
1ヵ月後 |
受傷から2ヵ月後 |
受傷から
3ヵ月後 |
受傷から
4ヵ月後 |
1
2
3
4
|
7.0
5.8
3.3
10.4
|
15.5
19.5
12.0
20.0
|
20.0
25.0
17.0
19.0
|
32.5
25.0
25.0
35.0
|
|
|
院日,退院日,退院後1ヵ月・6ヵ月時と経過を追って計測したものである。解析の目的は“受傷からの4カ月の期間で,握力値に差が見られるか”である。
検定の帰無仮説H0は“骨折受傷後4カ月間で握力値に変化は無い”となる。まず,このデータが球形性を満たすかについて検定を行って確認してみる。以降の検定は筆者が作成したプログラムにより行った。まず,Boxの修正による球形検定を行った(付録解説A参照)。検定の結果,χ2=3.51となり,5
%有意水準のχ2=16.92に満たないため,“球形性を満たしていないとはいえない”と判断した。
ANOVAの結果は以下の表7の通りであった。参考
表7 反復測定によるANOVAの結果
握力 1756.7 3 585.6 45.2 p<0.001
までにGreenhouse-Geisserのε修正(付録解説B参照)値は0.81であった。自由度にこの値をかけてもp<0.001となったため,握力因子の水準間には有意に差が認められると考えた。実際,データを見て
も経時的に握力値は増加しており,4カ月後で著しい。従って,上腕骨骨折受傷後4カ月までの期間において握力値は向上すると結論づけることができる。
4.その後の検定(post-hoc test)
ANOVAの後,どことどこの水準間に差が見られるかを検定したいなら,多重比較を利用すると良い。しかし,最終的に水準間の差を検定したいならばANOVAの手順は行わず,最初から多重比較を行うのが正しい。
5.共分散分析(以下,ANCOVA)
理学療法の研究では,ANCOVAを利用した研究報告は見当たらない。まず表8の様なデータ例を考えてみる。
表8 ANCOVAのデータ例
|
StageV |
W |
X |
|
握力 |
年齢 |
握力 |
年齢 |
握力 |
年齢 |
1
2
3
4
|
7.0
12.0
12.0
13.0
|
32
35
40
55
|
10.0
13.5
15.0
14.0
|
43
67
56
40
|
8.5
15.0
13.0
15.5
|
36
51
50
62
|
|
|
いままでの例と同様に,ブルンストロームステージ別の握力値に差があるかを検定したい例であるが,“握力値と年齢は相関する”と仮定して年齢を考慮した握力値の差を見る必要がある場合,ANCOVAの対象となる。この例では「年齢」を共変量と呼ぶ。以上のように差を検定したいデータ(握力)に影響する共変量(年齢)を考慮して解析を行う必要がある時は,ANCOVAを適用する。この検定には対応したノンラメトリック検定は存在しない。
6.多変量分散分析(以下,MANOVA)
前小節の例では握力に影響する年齢を共変量と見立てて,ANCOVAを行った。しかし,握力とともに健側の膝伸展筋力(以下,膝伸展筋力)の差も解析したい場合(表9)は,握力と膝伸展筋力を2因子とするMANOVAが適用となる。
一見,握力と膝伸展筋力を2因子とする二元配置のANOVAを適用すれば良いと考えるが,それはス
表9 MANOVAのデータ例
|
StageV |
W |
X |
|
握力 |
膝伸* |
握力 |
膝伸* |
握力 |
膝伸* |
1
2
3
4
|
7.0
12.0
12.0
13.0
|
10
18
25
30
|
10.0
13.5
15.0
14.0
|
11
21
18
28
|
8.5
15.0
13.0
15.5
|
9
10
14
32
|
|
テージに対する影響を握力と膝伸展筋力のそれぞれ独立した形で解析することになる。MANOVAではステージに対する影響を握力と膝伸展筋力が並行して影響すると考えて解析する点で異なる。また,表6のように共変量を設けて多変量共分散分析(MANCOVA)という解析方法もある。
7.枝分かれ(階層的)ANOVA
(Nested[Hierarchical]Analysis of Variance)
枝分かれANOVAは因子が2レベルまたは3レベルの階層的構造となっているときに,上位レベル因子の影響を下位レベル因子の影響を取り除いて検討する時に適用される。例えば,表10の様なデータはその適用である。
表10は2レベル枝分かれANOVAの例である。“ステージV”と“ステージW”が因子となっており,それぞれ下位項目(2つ目の因子)として施設別の条
表10 枝分かれANOVAのデータ例
|
StageV |
StageW |
A病院 |
B病院 |
C病院 |
D病院 |
|
握力 |
握力 |
握力 |
握力 |
1
2
3
4
|
10.0
11.0
15.5
9.0
|
12.0
8.0
7.0
6.5
|
15.0
16.0
18.0
9.0
|
20.0
25.0
8.0
10.0
|
|
件がネストしている。ステージの違いが握力値に及ぼす影響について,施設別の変動を取り除いて解析したいときに用いる手法である。
本稿では3標本以上の検定を利用するための基本的事項として,主に実験計画法とANOVAを紹介してきた。ANOVAはここで挙げた基本的な手法以外にも様々存在するから,データの形式によって使い分ける必要がある。現在のところ,反復測定によるANOVAは充実した統計ソフトが出回っていないため,専門的な知識がないと正しい解析ができない状況にある。
当然ではあるが,統計的手法が正しく適用されていても研究の質は高くなるとは言えない。勿論,いくら高度な統計的手法を適用しても同様である。しかし研究の結論を得るために,最低限の条件として正しく統計的手法を適用できていなければならない。そのために研究者は,少なくとも課題の仮説を明確にしておいて,その仮説を立証するためにはどの様にデータを取れば良いか,どのような仮説を検定したら良いかを把握してさえおけばよい。さまざまな手法は知識として備わっているに越したことはないが,極端には必要無いものである。
とはいうものの医学論文を読む者は,データ解析についてある程度の正しい知識と解読能力を身につけておくことが必須であることに自覚的でなければならない。
1) 対馬栄輝:平均値の差の検定に対する選択方法について.理学療法研究 17:33-38,2000.
2) Fisher RA(遠藤健児,鍋谷清治共訳):実験計画法,森北出版,1971.
3) 古名丈人:分散分析法と研究デザイン.PTジャーナル 29:113-118,1995.
4) 池田正人:リハビリテーションに必要な統計学−分散分析.総合リハ 28:457-464,2000.
a ブロック因子は他の興味のある因子またはブロック因子との間の交互作用を仮定しない。
b 通常,偶然誤差は正規分布に従い,系統誤差は正規分布に従うとは限らない。実験の順番の影響等を各水準に均等に割り付けることによって偶然誤差と同等の性質を持たせようとする手順である。
c ANOVAの前に等分散性の検定を適用させる手続は慣習的なものであり,正しい手続であるとは言い切れない。なお,この手順に関する問題が取り上げられている報告は多い。
d 大局的球形検定(全体的循環性)と局所的球形検定(局所的循環性)の手続きが必要となる。原理としては一因子の反復測定デザインと同様である。