「アンケート結果に偏りがあるか」「性別と好みに関連があるか」。スプレッドシートでこうした疑問に統計的な答えを出すには、カイ二乗検定のp値が必要ですよね。
p値を求めるとき、CHISQ.DIST関数で「1 – CHISQ.DIST(x, df, TRUE)」と書くのは少し面倒です。もっと直接的に右側確率を返してくれる関数があれば便利ですよね。
そこで使いたいのがCHISQ.DIST.RT関数です。この記事ではGoogleスプレッドシートでのCHISQ.DIST.RT関数の使い方を、基本構文から実務活用まで解説します。CHISQ.DISTとの違いもあわせて紹介しますよ。
スプレッドシートのCHISQ.DIST.RT関数とは
CHISQ.DIST.RT関数(読み方: カイ・スクエア・ディスト・アールティー関数)は、カイ二乗分布の右側確率を返す関数です。「RT」は「Right-Tail(右裾)」の略で、指定した値より大きくなる確率を直接求められます。
カイ二乗分布(観測データと期待値のズレを数値化する分布)は右に裾を引く非対称の形が特徴です。カイ二乗検定では「右側の確率=p値」がそのまま判定基準になります。CHISQ.DIST.RT関数を使えば、p値をワンステップで取得できますよ。
CHISQ.DIST.RT関数にできることをまとめると、次のとおりです。
- カイ二乗検定のp値を直接算出する
- アンケートの回答に統計的な偏りがあるか判定する(適合度検定)
- 2つのカテゴリに関連があるか調べる(独立性検定)
- 品質管理で不良品の発生パターンにばらつきがあるか確認する
NOTE
CHISQ.DIST.RT関数はGoogleスプレッドシートの全バージョンで使えます。Excelにも同名の関数があり、動作は同じです。
CHISQ.DIST.RT関数の基本的な使い方
基本構文と引数
=CHISQ.DIST.RT(x, 自由度)
カッコの中に2つの引数を指定します。CHISQ.DIST関数と違い、累積フラグ(TRUE/FALSE)の指定は不要です。
| 引数 | 必須/任意 | 説明 |
|---|---|---|
| x | 必須 | カイ二乗分布で評価する数値(0以上) |
| 自由度(degrees_freedom) | 必須 | 自由度。1以上の正の整数 |
TIP
自由度(データから自由に値を決められる個数)の決め方は検定の種類で変わります。適合度検定では「カテゴリ数 – 1」、独立性検定では「(行数 – 1) x (列数 – 1)」です。小数を渡した場合は整数部分だけが使われます。
サンプルデータで試してみよう
自由度3のカイ二乗分布で、xの値を変えたときの右側確率を見てみましょう。
| x | CHISQ.DIST.RT の結果 | 意味 |
|---|---|---|
| 1 | 0.8013(80.1%) | xが1を超える確率は約80% |
| 3 | 0.3916(39.2%) | xが3を超える確率は約39% |
| 5 | 0.1718(17.2%) | xが5を超える確率は約17% |
| 7.81 | 0.0500(5.0%) | xが7.81を超える確率は約5% |
| 10 | 0.0186(1.9%) | xが10を超える確率は約2% |
xが大きくなるほど右側確率は小さくなります。7.81が自由度3・有意水準5%の臨界値にあたることがわかりますね。
CHISQ.DISTとの関係
CHISQ.DIST.RTの結果は、CHISQ.DISTのTRUE(左側累積確率)を1から引いた値と一致します。
=CHISQ.DIST.RT(5.3, 4)
=1 - CHISQ.DIST(5.3, 4, TRUE)
どちらも結果は約0.2578です。CHISQ.DIST.RTのほうが数式がシンプルなので、p値を求める場面ではこちらを使うのがおすすめですよ。
実務活用3パターン
CHISQ.DIST.RT関数の基本がわかったところで、実際の業務で使える3つのパターンを紹介します。
適合度検定——アンケート結果に偏りがあるか判定する
「4つの選択肢に均等に回答が分かれているか」を統計的に判定する例です。
回答数合計80のアンケート結果が次のとおりだったとします。
| 選択肢 | 観測度数 | 期待度数(均等なら) |
|---|---|---|
| A | 30 | 20 |
| B | 18 | 20 |
| C | 12 | 20 |
| D | 20 | 20 |
まずカイ二乗統計量を求めます。各カテゴリの「(観測値 – 期待値)^2 / 期待値」を合計する計算です。
=(30-20)^2/20 + (18-20)^2/20 + (12-20)^2/20 + (20-20)^2/20
結果は8.4です。自由度は「カテゴリ数 – 1 = 3」です。
次にCHISQ.DIST.RT関数でp値を求めます。
=CHISQ.DIST.RT(8.4, 3)
結果は約0.0385です。有意水準5%(0.05)を下回るので、「回答に有意な偏りがある」と判断できます。選択肢Aへの集中が統計的に有意ですね。
独立性検定——2つのカテゴリに関連があるか調べる
「年代と購入チャネルに関連があるか」を調べる例です。
| 店舗 | オンライン | 合計 | |
|---|---|---|---|
| 20代 | 10 | 40 | 50 |
| 40代 | 35 | 15 | 50 |
| 合計 | 45 | 55 | 100 |
期待度数は「行合計 x 列合計 / 総合計」で計算します。たとえば20代×店舗の期待度数は 50 x 45 / 100 = 22.5 です。
カイ二乗統計量を計算します。
=(10-22.5)^2/22.5 + (40-27.5)^2/27.5 + (35-22.5)^2/22.5 + (15-27.5)^2/27.5
結果は約25.2525です。自由度は (2-1) x (2-1) = 1 です。
=CHISQ.DIST.RT(25.2525, 1)
結果はほぼ0(0.0000005未満)です。有意水準5%を大幅に下回るので、「年代と購入チャネルには強い関連がある」と判断できます。20代はオンライン、40代は店舗を好む傾向がはっきり出ていますね。
品質管理——製造ラインの不良率に差があるか確認する
3つの製造ラインの不良品数を比較する例です。合計60個の不良品が均等なら各20個ずつ期待されます。
| ライン | 観測度数 | 期待度数 |
|---|---|---|
| A | 25 | 20 |
| B | 15 | 20 |
| C | 20 | 20 |
=(25-20)^2/20 + (15-20)^2/20 + (20-20)^2/20
結果は2.5です。自由度は2です。
=CHISQ.DIST.RT(2.5, 2)
結果は約0.2865です。有意水準5%より大きいので、「ライン間で不良率に有意な差があるとはいえない」と結論できます。特定のラインに問題が集中しているわけではなさそうですね。
CHISQ.DISTとの違い・使い分け
CHISQ.DIST関数とCHISQ.DIST.RT関数は、どちらもカイ二乗分布の確率を求める関数です。大きな違いは「どちら側の確率を返すか」と「引数の数」です。
| 比較項目 | CHISQ.DIST | CHISQ.DIST.RT |
|---|---|---|
| 確率の方向 | 左側(x以下の確率) | 右側(xを超える確率) |
| 引数の数 | 3つ(x, 自由度, 累積) | 2つ(x, 自由度) |
| 確率密度(PDF) | FALSEで取得可能 | 取得不可 |
| p値の算出 | 1 – CHISQ.DIST(x, df, TRUE) | CHISQ.DIST.RT(x, df) |
| 主な用途 | 累積確率の計算・グラフ描画 | 検定のp値算出 |
使い分けの基準はシンプルです。
- 検定のp値を求めたい → CHISQ.DIST.RT(引数2つで直接算出)
- 累積確率を知りたい → CHISQ.DIST(TRUE指定)
- カイ二乗分布のグラフを描きたい → CHISQ.DIST(FALSE指定)
p値の算出が目的なら、CHISQ.DIST.RTを使うのが最もシンプルですよ。
TIP
同じ「右側確率」を返す統計関数として、T.DIST.RT関数(t分布の右側確率)があります。カテゴリデータの偏り検定にはCHISQ.DIST.RT、少数サンプルの平均差の検定にはT.DIST.RTと使い分けましょう。NORM.DIST関数は連続データの確率計算に使います。
よくあるエラーと注意点
CHISQ.DIST.RT関数でつまずきやすいポイントをまとめました。
xに負の値を指定して#NUM!エラー
カイ二乗分布は0以上の値しか取りません。xに負の値を渡すと#NUM!エラーになります。
=CHISQ.DIST.RT(-1, 3) → #NUM! エラー
自由度に0以下を指定して#NUM!エラー
自由度は1以上の正の整数が必要です。0を指定するとエラーになります。
=CHISQ.DIST.RT(3, 0) → #NUM! エラー
引数に文字列を渡して#VALUE!エラー
数値であるべき引数にテキストが入ると#VALUE!エラーです。セル参照を使うときは、参照先が数値であることを確認しておきましょう。
期待度数が5未満のセルがある場合
カイ二乗検定は、各セルの期待度数が5以上あることが前提です。5未満のセルがあると検定精度が下がります。カテゴリを統合して期待度数を5以上にするか、フィッシャーの正確検定(少数データ向けの厳密な検定手法)を検討してみてくださいね。
p値の判定方向に注意
CHISQ.DIST.RT関数の結果が0.05より小さければ「有意差あり」と判断します。「結果が大きいから有意」と逆に読まないよう気をつけてくださいね。
まとめ
CHISQ.DIST.RT関数は、カイ二乗分布の右側確率(p値)を直接返す関数です。
- 引数は2つだけ(x, 自由度)。累積フラグの指定は不要
- 結果は「xを超える確率」=カイ二乗検定のp値そのもの
- 適合度検定(回答の偏り判定)や独立性検定(カテゴリ間の関連分析)に使える
- p値 < 0.05 なら「統計的に有意な差がある」と判断できる
- CHISQ.DIST関数の
1 - CHISQ.DIST(x, df, TRUE)と同じ結果を、よりシンプルに求められる
カイ二乗検定のp値を求めるなら、CHISQ.DIST.RT関数が最も手軽です。アンケート分析やクロス集計の統計的裏付けに、ぜひ活用してみてくださいね。
