総合研究所の概要

お問い合わせ

資料請求リスト

人材開発活動に必要なテストの作成方法と考え方・すすめ方【連載】~第4回

第4回 テストの妥当性と信頼性

本Web誌上セミナーでは、これまでテストに関する理論である古典的テスト理論の紹介や、項目分析の方法について解説してきました。
今回は、原点に戻って、そもそも良いテストとはどういうものかについて考えたいと思います。

キーワードは「妥当性」「信頼性」です。

1.新しい「テストの妥当性」の考え方

妥当性(validity)とは、そのテストが、『測定しようと考えている特性』を的確に捉えているかどうかを示したものです。テストの観点からは、測定用具が適切に設計され、適切に使用されているかを表しています。

例えば、身長(という特性)を測定したいときに体重計(測定用具)を使用したとしたらどうでしょう?
体重計が60を示していた場合に、その値を身長の指標にするということです。前提として身長を測定したいのですから、これは妥当だとは言えません。このように適切な用具を適切に使用することが妥当性を考える根幹にあります。

伝統的な妥当性の考え方として、以下の3つがあります。

種類 内容
(1)内容的妥当性 専門家によって判断される項目の適切性のこと。
(2)基準関連妥当性 尺度と関連性が強いと考えられる外的基準との相関によって評価される妥当性のこと。
(3)構成概念妥当性 尺度得点の高低が、構成概念の強弱を支持しているかどうかを表す指標のこと。

これら3つの妥当性は、それぞれ並列的な位置づけで捉えられていました。

しかし現在では、内容的妥当性と基準関連妥当性が構成概念妥当性に吸収され、「妥当性は1つの統合体である」という考え方が主流になりつつあります。
つまり、内容的妥当性も基準関連妥当性も、「妥当性」という1つの大きな統合体の「側面」を表しているのだという考え方です。

この考えに従うと、これまで報告されてきた妥当性は、様々な「側面」から見た「証拠」であると言えます。
したがって、妥当性を示す1つの証拠が確認されたからといって、妥当性の検証は終わりではありません。長い時間をかけて、いくつもの証拠を集め続け、妥当性の高さを証明し続けていく不断の努力が重要なのです。

さて、妥当性の証拠集めのための「側面」ですが、メシック(Messick、1995)は以下の6つを挙げています。

側面 証拠の内容
(1)内容的側面 項目の内容が測りたい特性に対応しているか?十分に代表しているか?
(2)本質的側面 項目への反応が何らかの理論に基づいて説明できるか?
(3)構造的側面 得点の構造が特性の下位概念や次元性などの理論的構造に一致しているか?
(4)一般化可能性の側面 ある特定の測定条件においてだけでなく、他の集団や実施場面、実施時期などに対しても不変であるか?
(5)外的側面 他の変数との間に想定される相関が示されるか?
(6)結果的側面 テストを使用した結果として生じた事態によって示される証拠。社会的インパクト。

妥当性の証拠集めは、上記の6つをすべて満たすのが理想的ですが、最初から多くの証拠を満たしたテストを作成するのは不可能です。特に「(6)結果的側面」は、テストを運用した結果によってはじめて示されるものであり、テスト作成時に示すことは原理的にできません。

妥当性の検証とは、テストを使用することで明らかとなっていく証拠を、順番に積み重ねていくプロセスそのものなのです。テストの作成者は、このことを念頭に置いた上で妥当性の検証を進めていく必要があるでしょう。

2.信頼性と妥当性は両立するのか?

第2回目のコラムで、テストを設計・運用するための背景理論として古典的テストモデルを紹介しました。古典的テストモデルは、項目得点のときと同様に、テスト得点(項目得点の総和)の場合も以下のように表現されます。

テスト得点 = 真の得点 + 誤差 (1)式

このようにテスト得点には必ず誤差が含まれます。
ここから、テスト得点に対する誤差の混入が少ない場合に、そのテストは信頼がおけると考えることができます。逆に言うと、テスト得点に対して真の得点の割合が大きくなる場合に、そのテストの信頼性(reliability)は高くなるということです。

詳しくは後述しますが、テストの信頼性を示す指標としてよく使われるものに「信頼性係数」があります(ちなみに、メシックの妥当性の各側面の内、「(4)一般化可能性の側面」の証拠の一つとして信頼性係数は位置づけられます)。信頼性係数は各種提案されていますが、中でもよく使われるα(アルファ)係数やω(オメガ)係数は内的整合性の指標と呼ばれています。

内的整合性とは「項目がすべて一貫して同じ特性を測定している度合い」のことです。
したがって、似たような項目を集めれば内的整合性は高まります(図1(a)を参照)。しかしこの場合、測定したい特性(概念)の1部分しか測定できていないという欠点があります。

一方、測ろうとしている特性には一定の概念幅(帯域幅)があるのが普通であり、妥当性の観点から、理想的にはそのすべてをカバーできるような項目群を作成するのが望ましいです。しかしそうすると、色々な観点から項目を作成することになり、内的整合性(忠実度)は下がってしまいます(図1(b)を参照)。

図1 ある概念を複数の項目で測定したときの模式図

このように信頼性を高めようとすれば妥当性が犠牲になり、妥当性を高めようとすれば信頼性が犠牲になってしまいます。このような問題のことをクロンバック(Cronbach)は「帯域幅と忠実度のジレンマ(bandwidth-fidelity dilemma)」と呼びました。

一般的に、「テストを作成するときには信頼性と妥当性を十分確保することが望ましい」と説明されますが、現実的にはこの双方を同時に満たすことは困難です。このことは、実際に有用なテストを作成するということがいかに難しいかを物語っています。

3.信頼性係数の算出方法

前項で、テスト得点に対して真の得点の割合が大きくなる場合に、そのテストの信頼性は高くなるというお話をしました。そこで、この「信頼の高さ」を指標化するために各得点の「バラツキの比」なるものを考えてみましょう。

つまり下記の式のようになります。

真の得点のバラツキ / テスト得点のバラツキ (2)式

テスト得点は被験者間で単一の値を取ることはなく、必ずある程度はばらつきます。
そしてそのバラツキを、「どの程度、真の得点によってばらついているか?」で説明したのが(2)式です。誤差が小さければ(2)式は大きな値となります。

では、最大でどのくらい大きな値を取るでしょうか?
例えば、誤差が0、すなわちテスト得点のバラツキはすべて真の得点によるバラツキのみで説明できると仮定します。その場合、「真の得点のバラツキ = テスト得点のバラツキ」となりますので、(2)式は1となります。
逆にテスト得点が完全に誤差のみで決定されるような場合は、真の得点のバラツキは0となりますので、(2)式は0になります。ここから(2)式は0~1までの値を取り、1に近いほど信頼性の高いテストだと考えることができるでしょう。

そこで、この(2)式をテストの信頼性の指標として採用し、信頼性係数ρと名付けます(ρはギリシャ文字で「ロー」と読みます)。

ρ = 真の得点のバラツキ / テスト得点のバラツキ (3)式

3.1 同族測定とタウ等化測定

さて、第2回目のコラムでは、テスト得点ではなく5つの項目得点で、(1)式の古典的テストモデルを構成しました。それを以下に再掲します。

項目得点A = 真の得点A + 誤差A  (4.1)式 項目得点B = 真の得点B + 誤差B  (4.2)式 項目得点C = 真の得点C + 誤差C  (4.3)式 項目得点D = 真の得点D + 誤差D  (4.4)式 項目得点E = 真の得点E + 誤差E  (4.5)式 仮定1:誤差の平均は0である 仮定2:真の得点と誤差の間は無相関である 仮定3:誤差間は無相関である

上記のような仮定のとき、「項目は互いに同族測定である」といいます。
この同族測定に、さらにもう1つ、以下のような「仮定」を付け加えます。

仮定4:各被験者ごとに以下が成り立つ。

真の得点A - 真の得点Aの平均 = ・・・ = 真の得点E - 真の得点Eの平均

上記の仮定は、「真の得点をその平均値で調整した場合、すべての項目は同じ真の値を測っている」という意味です。このとき、「項目は互いにタウ等化測定である」といいます。
(この仮定は直感的に非常に理解しにくいと思います。しかしここでは、この仮定が「なぜ必要なのか?」と考えるのではなく、「そういうものだ」と納得することをオススメします。)

3.2 α信頼性係数の算出方法

タウ等化測定のもとでは仮定4が追加されました。
仮定4は「真の得点の偏差が項目間ですべて等しい」というものですが、偏差が等しければ当然項目間でバラツキ(分散)も等しくなります。つまり、仮定4は以下と同等です。

仮定4’:すべての項目間で平均調整後の真の得点のバラツキが等しい

このような仮定の下でテスト全体(5項目間)のバラツキを求めると、「25×ある項目1つ分のバラツキ」となります。
ここで「25という数字はどこから出てきたのか?」と思われる方がいるかもしれません。あるいは「5項目なのだから『5×ある項目1つ分のバラツキ』でよいのではないか?」と思った人もいるでしょう。

しかし、以下のような表で考えるとなぜ25なのかがわかります。

表1 項目間の(平均調整後の真の得点の)バラツキ
項目1 項目2 項目3 項目4 項目5
項目1
項目2
項目3
項目4
項目5

つまりここで言う「バラツキ」とは、項目単体のバラツキ(表1のa・g・m・s・y)だけではなく、項目1と項目2(表1のb)、項目1と項目3(表1のc)………のように、異なる2項目による共分散※(表1の非対角要素)も含めているのです。そして仮定4’とは、「表1のa~yまでがすべて等しい」ということを意味しています。
一般に項目数がN個のときはN2個のバラツキがすべて等しくなります。したがって、信頼性係数を求める (3)式は以下のように再表現されます。

ρ = N2 × 真の得点のバラツキ / テスト得点のバラツキ (5)式

このようにして、タウ等化測定のもとで計算された信頼性係数のことを「クロンバックのα係数」と呼びます。

α係数は、現在、色々なテストを作成するときに、その信頼性の指標として多用されますが、このように仮定4という直感的には不自然な仮定を前提としています。
そこで「この不自然な仮定4を緩和し、同族測定のもとで信頼性係数を構成できないか?」という動きが出てきました。つまり、直感的に理解が容易な仮定1~仮定3のみで信頼性係数を構成するということです。そこでもう一度、古典的テストモデルに立ち返ります。

共分散とは、項目1と項目2のような2組の対応するデータにおいて、偏差(平均との差)の積を算出し、データ数で割ったもの。
例えば、Aさん~Jさんの10人が数学と物理のテストを受けたとします。このとき数学と物理の共分散は以下のようになります。

分散共分散行列

表1のように対角要素にはその項目の分散を、非対角要素に2つの項目の共分散を並べた表のことを、「分散共分散行列」と言い、データの散らばり具合を表すものとしてよく使われています。

ω信頼性係数の算出方法

古典的テストモデルでは、項目得点は真の得点と誤差との和で表現されました。
したがって、バラツキも以下のように分解されます。

項目得点のバラツキ = 真の得点バラツキ + 誤差のバラツキ (6)式

テスト得点は項目得点の総和なので、(6)式をさらに以下のように表現します。

テスト得点のバラツキ = 項目得点のバラツキの総和  = 真の得点バラツキの総和 + 誤差のバラツキの総和 (7)式

(7)式を少し調整し、

真の得点バラツキの総和 = 項目得点のバラツキの総和 - 誤差のバラツキの総和 (8)式

これを(3)式に代入して、信頼性係数を再定義します。

ρ = 1 - 誤差のバラツキの総和 / 項目得点のバラツキの総和 (9)式

このようにして定義された(9)式のことを「マクドナルドのω係数」といいます(ωはギリシャ文字でオメガと読みます)。
ω係数は直感的に自然(理解が容易)な仮定(同族測定における仮定1~3)のみで計算されていますので、理論的にもα係数より正確だと考えられます。因子分析を使ってテストを設計したときは、α係数だけではなく、ω係数も報告するようにしましょう。

具体的な計算方法に関しては専門書(例えば、「因子分析入門」-Rで学ぶ最新データ解析-豊田秀樹編著(2012)・東京図書)を参照して下さい。

今回は、古典的テスト理論の観点から、作成したテストの信頼性と妥当性について解説しました。そして信頼性と妥当性の2つを同時に確保したテストを作成することがいかに難しいかということを考察しました。

次回は、古典的テスト理論の限界と、それを克服するために考案された最新のテスト理論について解説します。

(担当 : 経営管理研究所 福中 公輔)

【連載】人材開発活動に必要なテストの作成方法と考え方・すすめ方

構成 内容
第1回 テスト実施のステップ テストの作成に関する手続きや運用方法などの大まかな流れ
第2回 古典的テスト理論 テストそのものに関する理論である古典的テスト理論
第3回 項目分析 作成したテスト項目の分析の仕方
第4回 テストの信頼性と妥当性 テストの信頼性と妥当性の理論
第5回 現代テスト理論 最新のテスト理論である、現代テスト理論について

ページ先頭へ

関連情報

調査・診断
人材アセスメントツールと組織・職場サーベイツールをご案内します。
調査・診断関連用語解説
  • 導入のご相談、提案のご依頼、各種ご質問はこちらからどうぞ
  • 資料をご希望の方はこちらからどうぞ(無料)
  • デジタルカタログはこちらから
  • 官公庁・自治体職員向け研修案内
  • 総合研究所 経営管理研究所
  • グローバルマネジメント研究所
  • サンノーWebサポート
  • SuperGrace Web成績管理システム
  • マナビバサンノー
  • sannoメール登録