第3回試験のブループリント(出題基準)では,
心理統計に関する分野について,以下のとおりに出題内容が掲載されています。
心理学で用いられる統計手法 | 分散分析・因子分析・重回帰分析・多変量解析・構造方程式モデリング・テスト理論・メタ分析 |
統計に関する基礎知識 | 尺度水準・度数分布・代表値・散布度・相関係数・仮説検定・点推定・区間推定・ノンパラメトリック検定・確率と確率分布・標本分布 |
第2回試験の内容とほとんど変わっていないので,第4回も同様と考えて,この内容に沿って解説していきます。
今回は,「統計に関する基礎知識」について取り上げて,「心理学で用いられる統計手法」については次回に持ち越します。
目次
尺度水準
尺度水準とは,測定によって得られた数値を情報の性質によって分類する基準のことを言います。
スティーブンス(Stevens,S.S.)が提案した,以下の4つの分類がよく用いられています。
名義尺度 | 数字は大小関係を意味しておらず,分類のために用いられる。 | (例)マイナンバー |
順序尺度 | 大小関係を意味するが,目盛りは等間隔ではない。 | (例)ランキング |
間隔尺度 | 目盛りは等間隔であるが,0は「何もない」ことを意味しない。 | (例)温度 |
比率尺度 | 目盛りは等間隔で,0は「何もない」ことを意味する。 | (例)身長 |
上から水準が低い順番に並んでおり,高い水準はより低い水準の性質を含む形になっています。高い水準でのデータを低い水準に変換して扱うこともできます。
また,名義尺度と順序尺度を質的変数,間隔尺度と比率尺度を量的変数と言います。
要約統計量
ある学年の100点満点のテスト得点のデータがあるとします。
個々の生徒の得点を眺めているだけでは,学年全体の学習の定着度合いやある生徒が学年の中でどのくらいの位置にいるのかなどのテストに関する特徴を把握することは難しいです。
そこで,平均点などを算出するのが一般的になっています。
この平均値のように,複数のデータを一つに集約した値のことを要約統計量と言います。
そして,要約統計量には,代表値と散布度があります。
代表値とは,データの分布の中心がどこに位置しているのかを示す値です。
平均は代表値の1つであり,他には最頻値と中央値があります。
- 平均:すべてのデータの値を加えて,データの個数で割ったもの
- 最頻値:最も個数が多いデータの値
- 中央値:データの値を大きい順に並べたときにちょうど中央に位置する値
散布度とは,分布の広がりを示すものです。
代表値だけではデータがどのような分布を持っているのか分かりません。
例えば,国語と数学のテストの平均点が同じ80点であっても,国語の方は高得点者と低得点者の差が大きく,数学の方は平均点周辺に集まっているかもしれません。
このようにデータの広がり具合を見ることで,データがどのような特徴を持っているのかについてより詳しく知ることができます。
散布度には分散,標準偏差,平均偏差,範囲などがあります。
- 分散:散らばりの程度を表す値であり,個々のデータの平均からの距離を平均したもの。偏差(個々の数値と平均との差)の二乗の平均を取る。
- 標準偏差:分散の平方根を取ったもの。分散は二乗をしているために元の変数とは単位が異なっており,それを平方根を取ることで元の単位に戻したものが標準偏差。
- 平均偏差:偏差の絶対値を平均したもの。標準偏差と似ているが,標準偏差よりもデータのばらつきの評価が弱くなるため,あまり使用されていない。
- 範囲:最大値から最小値を引いたもの。
例えば,国語のテストの点数で{62,45,89,72,75,81,59,75,68,94}という10人分のデータがあったとします。
このとき,平均=72(すべて足して人数で割る),最頻値=75(75のみ2人いる),中央値=73.5(45,59,62,68,72|75,75,81,89,94)です。
分散=188.6(偏差(-10,-27,17,0,3,9,-13,3,-4,22)の二乗(100,729,289,0,9,81,169,9,16,484)の平均),標準偏差=13.73(√188.6),平均偏差=10.8(偏差の絶対値を平均),範囲=49(94-45)です。
2変数の記述統計
「身長が高い人は自己肯定感が高いのか」などのように2つの変数の関係を検討することがあります。この例の場合,身長と自己肯定感はどちらも量的変数であり,量的変数同士の関係は相関と言います。相関を1つの数値に集約したものが相関係数です。また,「居住地と通勤形態の違い」などのような質的変数同士の関係は連関と言います。連関を1つの数値に集約したものは連関係数です。
相関係数では,ピアソン(Pearson,K.)の積率相関係数が最もよく使われています。-1から1までの値を取り,0から離れるにしたがって相関が強くなります。相関係数が正の値のときは正の相関,負の値のときは負の相関があると言います。例えば,身長の高さと自己肯定感の高さの相関係数が0.6のとき,身長が高い人は自己肯定感が高い傾向があるということになり,逆に,相関係数が-0.6のときは,身長が高い人は自己肯定感が低い傾向があるということになります。
注意点として,相関係数は因果関係を説明するものではありません。さきほどの例で言うと,身長が高いから自己肯定感が高いとまでは言い切れず,説明できるのは身長の高さと自己肯定感の高さがリンクしているという点のみです。また,相関係数は順序尺度であり,比率尺度ではないため,例えば「0.2と0.4という相関係数があるとき,後者は前者より2倍の相関がある」などと言うことはできません。
連関係数は,クラメール(Cramer,H.)の連関係数がよく用いられます。相関係数と同様に-1から1までの値を取り,解釈も同様です。χ(カイ)二乗検定によって得られたχ二乗値をもとに算出します。
(補足)χ二乗検定:クロス集計表を作成し,実際に測定された観測地と全体の度数の比率から算出された期待値との関係を検討する方法。ノンパラメトリック検定の代表的な方法の1つ。ノンパラメトリック検定とは,母集団の分布について特定の確率分布を仮定しないで行う検定のことであり,質的変数(名義尺度・順序尺度)に対して主に用いられる。
推測統計
研究対象者のすべてに調査を行うことは難しいため,実際に得られた一部のデータから全体の様子を推測する推測統計という手法を用いています。
研究対象者の全体を母集団,そのうちの実際に調査された集団を標本と言います。標本から計算される標本統計量(標本平均,標本相関係数,標本分散など)によって母数(調べたい本当の値)を推定します。
母数の推定には,点推定と区間推定の2種類があります。
点推定では,「母比率は50%である」のように1つの値で母数を推定します。
区間推定では「55%~60%の間の値である」のように範囲によって推定します。なお,この範囲のことを信頼区間と言います。
母数の推定のために用いられる標本統計量のことを推定量と呼びます。推定量は確率変数であり,標本が変われば推定値も変動します。推定量の変動が大きすぎる場合,母数の推定は当てにならないため,推定量の変動の大きさを知る必要があります。
そこで,標本分布が用いられます。標本分布は推定量の確率分布のことであり,推定量がどんな確率でどんな値を取るかを表したものになります。標本分布の標準偏差が標準誤差と呼ばれるもので,標準誤差によって推定量のばらつきの大きさを知ることができるため,推定量の変動の大きさを評価できます。
統計的仮説検定
標本から母数を推定するために,母数に関する仮説を立てて検証する方法があり,これを統計的仮説検定と言います。統計的仮説検定の進め方は以下のとおりです。
①帰無仮説と対立仮設の設定
最初に,本来主張した内容とは反対の仮説(帰無仮説)を立てます。これを棄却することで本来主張したい仮説(対立仮説)を採用することができます。
②有意水準を定める
どの程度の確率が示されたら帰無仮説を棄却できるのかという基準を設定します。心理学の研究では1%か5%であることがほとんどです。有意水準を設定することで,帰無仮説を棄却し対立仮説を採用するときの境目となる臨界値が決定されます。
③標本から検定統計量の実現値を計算する
帰無仮説のもとでの検定統計量の標本分布(帰無分布)における,臨界値より外側にある棄却域を求めます。
④帰無仮説を棄却するかどうか判断する
検定統計量の実現値が棄却域に入れば,帰無仮説を棄却できることになります。帰無仮説が正しいとしたらめったに起こらないような結果が起こっているのだから,前提となっている帰無仮説が間違っているという理屈です。
以上で,「統計に関する基礎知識」に関する説明を終わります。次回は「心理学で用いられる統計手法」を取り上げます。統計は難しい分野ですが,何度もおさらいして少しずつ理解していきましょう。