独立性の検定(χ2-test for independence)

はじめに

ある大学の学生336人について,性別とパソコンの所有について調べたところ下のような表を得た。

この表をみると,男性の方がパソコンを所有している割合が高いように思えるが,はたして, 性別とパソコンの所有には関係があるといってよいのだろうか?

クロス集計表

n 個の標本に対して2つの異なる属性 A, B があり,それぞれが k 種類のカテゴリ A1, A2, ..., Akr 種類のカテゴリ B1, B2, ..., Br に分類されているものとする。また,カテゴリ「Ai かつ Bj」の観測度数を, Oij とする。これを下表のように表現したものをクロス集計表という。

クロス集計表と独立性の検定

上のような分割表が独立であるとは,「Ai かつ Bj」の各確率に対して,

P(Ai かつ Bj) = P(Ai)× P(Bj)

が成り立つことをいう。

クロス集計表を用いて,2つの属性 A, B が独立であるかどうかを検定するのを独立性の検定という。

さて,クロス集計表が独立であれば,観測度数 Oij に対応する期待度数(の推定値) Eij は,

となる。

いま,統計量

を定義すると,母集団がいかなる分布であっても n が十分大きければ, この値は自由度 (k-1)(r-1) の χ2分布に従うことが知られている。

このことを利用して,次の仮説の検定を行うのが,独立性の検定である。

注意点

この検定を用いる際には,

ということを目安にするのが良い。このような条件を満たさない場合には,いくつかのカテゴリをまとめるとよい。

例題(性別とパソコン所有の関係)

ある大学の336名の学生に対し,生活調査を行った結果が下表である。

各列が1件(1人)のデータを表し,それぞれの項目は次のようなものである。

このデータを用いて,性別とパソコンの有無に関係があるか否かを有意水準5%で検定せよ。

使用データ

解答例

帰無仮説と対立仮説

クロス集計表の作成

まずは,クロス集計表を作成しよう。Excelにはピボットテーブルという強力なツールがあります。「挿入」→「ピボットテーブル」を選択してください。

出現したダイアログでOKボタンをクリックしてください。

新しいシートが作られますので,右側フィールドリストから,「性別」→「行ラベル」,「パソコン」→「列ラベル」,「ID」→「Σ値」のようにドラッグ&ドロップしてください。

行ラベル・列ラベルの右側の▽をクリックして,降順などを選べば並び順を変えることができます。

期待度数の計算

期待度数を計算しましょう

  1. セルB9に「=$D5*B$7/$D$7」と入力
  2. セルB9をB9〜C10にコピー

χ2値の計算

χ2値を計算してみます。

  1. セルB12に「=(B5-B9)^2/B9」と入力
  2. セルB12をB12〜C13にコピー
  3. セルA13に「=SUM(B12:C13)」と入力

セルA13の値がχ2 値です。観測度数と期待度数の違いが大きいほど,χ2 値が大きくなるのは理解できると思います。

p値の計算

上で求めたχ2 値は,自由度1のχ2-分布に従います。

自由度というのは,a1〜ak,b1〜bk が与えられた時に,自由に決められる観測度数の個数のことです。この例では,

という関係があるので,どこか1つ(例えば,男性でパソコンを持っている人の数)が分かれば,残りの3か所の人数も必然的に決まってしまいます。これを自由度1というのです。

自由度1のχ2-分布の確率密度関数は下図のような形をしています。p値(観測度数と期待値の違いが得られた結果以上に大きくなる確率)は,下図で与えられたχ2 値より右側の面積になります。

この計算はとても人間にはできないので,コンピュータに任せます。Excelでは,次のような関数を使います。

CHIDIST(χ2値, 自由度)

それでは,具体的にこの例題でp値を求めてみましょう。

  1. セルA16に「=CHIDIST(A13,1)」と入力

結果の吟味

これまでの操作で,p = 0.0186 ということがわかりました。p < 0.05 なので,帰無仮説は棄却し,対立仮説を採用します。つまり「性別とパソコンの有無には関係がある」といえます。

性別とパソコンの有無に関係があることは分かりましたが,もちろんこの検定でその理由まではわかりません。一般的に,男性の方が,機械好きの傾向があることが要因だとは思いますが。

補足1

性別とパソコンの有無が無関係だ(男女によってパソコンを所有するかどうかの差はない)としたら,今回のように結果が偏る確率は2%(50回に1回)程度になります。有意水準を1%にすると,帰無仮説は棄却できません,つまり「性別とパソコンの有無には関係がある」とはいえないのです。

補足2

Excelでは,χ2 値を求めなくても,観測度数と期待度数のセットがあれば,CHITEST関数を使って p値を直接求めることもできます。

CHITEST(観測度数範囲, 期待度数範囲)
この例題では,「χ2 値の計算」を省いて,次のようにp値を求めることもできます。

余裕のある人は…