ある大学の学生336人について,性別とパソコンの所有について調べたところ下のような表を得た。
この表をみると,男性の方がパソコンを所有している割合が高いように思えるが,はたして, 性別とパソコンの所有には関係があるといってよいのだろうか?
n 個の標本に対して2つの異なる属性 A, B があり,それぞれが k 種類のカテゴリ A1, A2, ..., Ak,r 種類のカテゴリ B1, B2, ..., Br に分類されているものとする。また,カテゴリ「Ai かつ Bj」の観測度数を, Oij とする。これを下表のように表現したものをクロス集計表という。
上のような分割表が独立であるとは,「Ai かつ Bj」の各確率に対して,
が成り立つことをいう。
クロス集計表を用いて,2つの属性 A, B が独立であるかどうかを検定するのを独立性の検定という。
さて,クロス集計表が独立であれば,観測度数 Oij に対応する期待度数(の推定値) Eij は,
となる。
いま,統計量
このことを利用して,次の仮説の検定を行うのが,独立性の検定である。
この検定を用いる際には,
ある大学の336名の学生に対し,生活調査を行った結果が下表である。
各列が1件(1人)のデータを表し,それぞれの項目は次のようなものである。
このデータを用いて,性別とパソコンの有無に関係があるか否かを有意水準5%で検定せよ。
まずは,クロス集計表を作成しよう。Excelにはピボットテーブルという強力なツールがあります。「挿入」→「ピボットテーブル」を選択してください。
出現したダイアログでOKボタンをクリックしてください。
新しいシートが作られますので,右側フィールドリストから,「性別」→「行ラベル」,「パソコン」→「列ラベル」,「ID」→「Σ値」のようにドラッグ&ドロップしてください。
行ラベル・列ラベルの右側の▽をクリックして,降順などを選べば並び順を変えることができます。
期待度数を計算しましょう
χ2値を計算してみます。
セルA13の値がχ2 値です。観測度数と期待度数の違いが大きいほど,χ2 値が大きくなるのは理解できると思います。
上で求めたχ2 値は,自由度1のχ2-分布に従います。
自由度というのは,a1〜ak,b1〜bk が与えられた時に,自由に決められる観測度数の個数のことです。この例では,
という関係があるので,どこか1つ(例えば,男性でパソコンを持っている人の数)が分かれば,残りの3か所の人数も必然的に決まってしまいます。これを自由度1というのです。
自由度1のχ2-分布の確率密度関数は下図のような形をしています。p値(観測度数と期待値の違いが得られた結果以上に大きくなる確率)は,下図で与えられたχ2 値より右側の面積になります。
この計算はとても人間にはできないので,コンピュータに任せます。Excelでは,次のような関数を使います。
CHIDIST(χ2値, 自由度)
それでは,具体的にこの例題でp値を求めてみましょう。
これまでの操作で,p = 0.0186 ということがわかりました。p < 0.05 なので,帰無仮説は棄却し,対立仮説を採用します。つまり「性別とパソコンの有無には関係がある」といえます。
性別とパソコンの有無に関係があることは分かりましたが,もちろんこの検定でその理由まではわかりません。一般的に,男性の方が,機械好きの傾向があることが要因だとは思いますが。
性別とパソコンの有無が無関係だ(男女によってパソコンを所有するかどうかの差はない)としたら,今回のように結果が偏る確率は2%(50回に1回)程度になります。有意水準を1%にすると,帰無仮説は棄却できません,つまり「性別とパソコンの有無には関係がある」とはいえないのです。
Excelでは,χ2 値を求めなくても,観測度数と期待度数のセットがあれば,CHITEST関数を使って p値を直接求めることもできます。
CHITEST(観測度数範囲, 期待度数範囲)この例題では,「χ2 値の計算」を省いて,次のようにp値を求めることもできます。