第10回　統計学的仮説検定の実際

トップ
記事・コラム
連載
第10回　統計学的仮説検定の実際

2024.03.28宮下　光令（東北大学大学院医学系研究科保健学専攻緩和ケア看護学分野教授）

はじめに

　前回は統計学的検定の基本的な考え方を説明しました。この回では最初に前回の復習をしたのちに、具体的な検定方法について扱っていきます。また、検定方法だけを説明する授業内容ですと１時間くらいで終わるので、残りの30分を使って相関係数についても話しています。
　統計学的検定方法の選択ですが、私はフローチャートで教えています。フローチャートの基本になるのは、図１にある①尺度の型、②正規分布に従うデータか、③傾向性がある仮説か、です。最初にこの３つについて説明します。

尺度の型

　尺度の型（図２）は名義尺度、順序尺度、連続尺度です。間隔尺度と比尺度に関しては区別していません。ちなみにそれぞれの文字色の違いは統計ソフトウェア「JMP」上の色分けに沿っています。東北大学ではJMPが無料で使えるので、実際に演習をするような場合はJMPを使ってきました。

正規分布に従うデータか

　次は「正規分布に従うデータか」についてです。学部の講義では正規分布に従うかどうかをどのように判断するかは教えていません。大学院ではある程度教えますが、それでも分布の形で判断すればよいと教えています（図３）。もちろん、本来はランダムサンプリングを前提として母集団の分布が正規分布ということが分かっていればよい、ということになるのだと思いますが、実際には母集団の分布が分からないことが大半であり、加えてランダムサンプリングもされていないので、実際には手元にある標本の分布の形が偏っているかどうかで判断していいように思っています。分布がそれほど山なりになっていない、一様分布のような分布でも大きな偏りがなければ正規分布を前提とした手法を使っていいと考えています。

傾向性がある仮説か

　学部でここまで教えるべきかは賛否があると思いますが、私は傾向性がある仮説かどうかまで教えてフローチャートに組み込んでいます。傾向性がある仮説で傾向性検定を用いないと、しばしば大きな検出力のロスにつながるからです。

検定方法のフローチャート

　ここからが今回の講義のメインになります。本学では保健師教育は大学院で行っています。保健師国家試験には検定方法の選択の問題が出ますが、看護師・助産師国家試験には出ません。ですから、私は学部生であれば個々の検定手法の名前を覚える必要はなく、以下のフローチャート（図５、６）に沿って方法が選択できればよいと教えています。

　検定方法選択のフローチャートは尺度の型によって連続尺度と名義尺度・順序尺度（カテゴリカルデータ）の２つに分けて提示しています。チャートの分岐は最初に説明した正規分布に従うデータか、傾向性がある仮説かに加えて、連続尺度の場合は２群比較か、対応があるデータか、名義尺度・順序尺度に関しては2×2分割表か、対応があるデータか、少数セルがあるかどうかで分岐します。
　実際の講義にあたっては、１つ１つの手法（群）について、実際のデータをみせながら例示していきます。ここで使っているデータは外から持ってきたものが多いので１つ１つをご紹介することができないのですが、たとえば図５の「対応があるｔ検定」に関しては、（正規分布に従う）薬剤投与前の血圧の値と投与後の血圧の値のようなペアのデータがここに該当することを説明したのちに、実際の研究論文で便秘がある人の乳酸菌投与前後の下剤使用回数、下剤使用量の変化の図やデータを出して、対応があるｔ検定の結果を示す、といったようなものです。これをチャートの左から１つ１つやっていきます。

補足

　いくつか、読者の方々が気になりそうな点について説明しますと、対応がないｔ検定の等分散性のＦ検定による使い分けは教えています。賛否はあると思いますが、この点に限らず、私は学部の講義ではオーソドックスなよく使われている方法や判断を教えるようにしています。以前の講義で交絡についても述べましたが、この交絡の定義も古典的なものです。私は学部生が論文を読んだときに混乱しないように、それが統計学的にベストな方法かどうかにこだわらず、まず初学者はこのように理解しておけば大きな間違いは起こさない、という方法を教えるようにしています。
　分散分析やクラスカル・ワリス検定などを教えるときには、帰無仮説が群間で差がない（群の順位は関係ない）ということを重視して教えています。その後に、傾向性がある仮説の検定を教えるためです。ｔ検定や分散分析は平均の検定、Wilcoxonの順位和検定やクラスカル・ワリス検定は分布全体の検定ということは、言葉ではしゃべっていますがそれ以上のことは教えていません。数理統計学を前提としていないのでこの理解は難しいと思います。

　多重比較に関しては次のスライド（図７）を用いて、パラメトリック法はボンフェローニ法、チューキー法、ダネット法について教えています。ノンパラメトリックなケースでは同様にボンフェローニ法、スティール・ドゥワス法、スティール法、シャーリー・ウイリアムズ法があるよ、ということまで教えていますが、今まで試験に出したことはありません。私自身、多重比較はあまり好きではなくて、滅多に使ったことがありません。確証的研究のときだけ使えばいいと思っています。ただし、この講義は検査技術科学専攻の学生も受けていますので、実験データの解析ではよく使われるでしょうから、一応教えてはいます。

　カテゴリカルデータのフローチャート（図６）に関しては、分割表の例を出しつつ、実際にどのような統計手法を選択するか教えています。Fisherの直接確率検定は大雑把にいえば5以下の少数セルがあるような時に使うと教えていますが、図８のようにカイ２乗検定との使い分けについても教えています。

　2×n分割表はコクラン・アーミテージ検定、m×2分割表はWilcoxonの順位和検定と教えています。m×2分割表はコクラン・アーミテージ検定でもほぼ同じ結果になるとは教えていますが、マンテル検定には触れません。マンテル検定と教えてしまうと統計ソフトウェアを使うときに苦労するからです。３群以上の連続変数の傾向性検定やm×n分割表の傾向性検定はSpearmanの相関係数でよいと教えています。相関係数についてはこの講義の後半で扱います。これらの傾向性検定を教えるときには、同じ形をしたデータや表に傾向性検定を用いる場合と用いない場合でどれだけP値が異なるかを示しています。傾向性検定を適切に用いるべき場面で用いないことは、自分の卒業研究などが意味のある結果とみなされるかどうかに強くかかわってくるということを学生に実感してもらっています。

相関係数

　残りの30分を使って相関係数（図９）について教えます。最初に相関とは「２変数の間に一方の変数が大きくなれば、もう一方の変数の値も大きく（小さく）なる」といった関係性が成立することであり、必ずしも因果関係を意味しないことや、相関（correlation）と言うのはテクニカルタームであり、相関係数が大きい小さいということを示すこともあるので、論文で事象の関連性をいうときには関連（association）という言葉を使ったほうが良いことを説明します。

　その次に、実際に散布図をいろいろ見せながら、相関係数の説明をしていきます。今の学部生は高校で相関係数を習ってきているので、この辺はスムーズに進むようになりました。相関係数の直観的理解としてベクトルの内積と等しいことも教えています。これは学生から「目から鱗だった、こんなところで内積が出てくるとは思わなかった」という感想をもらうことも多いです。

　相関係数を教えるときに注意しているのは、（今回の記事では省略していますが）散布図をたくさん見せながら教えることと、相関係数の解釈をどう考えるかです。図10は相関係数の解釈について述べたものです。

　少なくとも看護学の領域ではRowntreeの古典的な教科書に載っている例がいいと思っています。これに関してはOverholserらによるレビュー^１）が参考になると思います。もちろん、これはケース・バイ・ケースで、たとえば血圧を観血的に測る場合と非観血的に測る場合では相関係数は0.9以上のものが求められますので、そのような違いについても話しています。相関係数の解釈については、図11のように相関の強さや方向をしっかり記述することの重要さも強調しています。

　相関係数を使うときの注意点としては、まず外れ値の影響について、Pearsonの相関係数では直線関係しか考慮されないので外れ値があると非常に高く出る場合があり、Spearmanの相関係数を使ったほうがいいことを説明します。次に、これを見つけるのは難しいのですが、たとえば身長のデータの男女など2つの集団が混ざっていると低くもしくは高く出ることがあるので、サブグループに分けて解析すべきケースがあることを話します。大学入試の得点など、切断された分布においては、しばしば逆の向きの相関が出ることなども話しています。
　最後に相関係数の検定（図12）についても話しますが、これは帰無仮説が相関係数＝0の検定をすることが多いので、これは大抵意味がなく、相関係数はその絶対値を見ることが重要であることを話します。

　ここまでで本日の講義は終了です。最後に、どのようなデータが与えられたらどの検定方法を選択するか、相関係数のデータを与えてどのように解釈するかといったクイズを5問程度出題して講義を終えるようにしています。試験では検定方法の名前を問うようなことはしませんが、フローチャートとシナリオを提示して、フローチャートから検定方法を選ばせるような問題をよく出しています。

参考文献
1)　Overholser BR, Sowinski KM. Biostatistics primer: part 2. Nutr Clin Pract. 2008 Feb;23(1):76-84.

本連載では、読者のみなさまからのご意見やご要望、ご質問などを募集しております。こちらのフォームより、ぜひお気軽にお寄せください。

宮下　光令

東北大学大学院医学系研究科保健学専攻緩和ケア看護学分野教授

みやした・みつのり／東京大学医学部保健学科卒業、看護師として臨床経験を経て、東京大学にて修士・博士を取得。東京大学大学院医学系研究科健康科学・看護学専攻助手、講師を経て、2009年10月より現職。日本緩和医療学会理事、日本看護科学学会理事、日本ホスピス緩和ケア協会副理事長。専門は緩和ケアの質の評価。主な編著書は「ナーシング・グラフィカ成人看護学6 緩和ケア」(メディカ出版)、「緩和ケア・がん看護臨床評価ツール大全」( 青海社）など。

連載

宮下光令の看護研究講座「私はこう教えている」

　この連載は、私が担当している学部2年生の「看護研究」の講義の流れに沿って進めていきます。私の講義では、“判断の根拠となる本質的な点は何か”ということを中心に伝えています。あくまで私の経験に基づく、私はこう考えている、ということを解説していますので、読者の皆様には「個人の独断と偏見に基づくもの」と思っていただき、“学部生にわかりやすく伝えるにはどうすればよいか”を重視した結果としてお許しいただければと思います。自由気ままに看護研究を語り、そのことが何かしら皆様の看護研究を教える際のヒントになるのであれば、これ以上嬉しいことはありません。

記事・コラム一覧へ

第10回　統計学的仮説検定の実際

はじめに