【第4回】⼈材開発活動に必要なテストの作成⽅法と考え⽅・すすめ⽅

第4回 テストの妥当性と信頼性

本Web誌上セミナーでは、これまでテストに関する理論である古典的テスト理論の紹介や、項目分析の⽅法について解説してきました。
今回は、原点に戻って、そもそも良いテストとはどういうものかについて考えたいと思います。

キーワードは「妥当性」「信頼性」です。

1.新しい「テストの妥当性」の考え⽅

妥当性(validity)とは、そのテストが、『測定しようと考えている特性』を的確に捉えているかどうかを⽰したものです。テストの観点からは、測定⽤具が適切に設計され、適切に使⽤されているかを表しています。

例えば、⾝⻑(という特性)を測定したいときに体重計(測定⽤具)を使⽤したとしたらどうでしょう?
体重計が60を⽰していた場合に、その値を⾝⻑の指標にするということです。前提として⾝⻑を測定したいのですから、これは妥当だとは⾔えません。このように適切な⽤具を適切に使⽤することが妥当性を考える根幹にあります。

伝統的な妥当性の考え⽅として、以下の3つがあります。
種類 内容
(1)内容的妥当性 専門家によって判断される項目の適切性のこと。
(2)基準関連妥当性 尺度と関連性が強いと考えられる外的基準との相関によって評価される妥当性のこと。
(3)構成概念妥当性 尺度得点の⾼低が、構成概念の強弱を⽀持しているかどうかを表す指標のこと。
これら3つの妥当性は、それぞれ並列的な位置づけで捉えられていました。

しかし現在では、内容的妥当性と基準関連妥当性が構成概念妥当性に吸収され、「妥当性は1つの統合体である」という考え⽅が主流になりつつあります。
つまり、内容的妥当性も基準関連妥当性も、「妥当性」という1つの⼤きな統合体の「側⾯」を表しているのだという考え⽅です。

この考えに従うと、これまで報告されてきた妥当性は、様々な「側⾯」から⾒た「証拠」であると⾔えます。
したがって、妥当性を⽰す1つの証拠が確認されたからといって、妥当性の検証は終わりではありません。⻑い時間をかけて、いくつもの証拠を集め続け、妥当性の⾼さを証明し続けていく不断の努⼒が重要なのです。

さて、妥当性の証拠集めのための「側⾯」ですが、メシック(Messick、1995)は以下の6つを挙げています。
側面 証拠の内容
(1)内容的側⾯ 項目の内容が測りたい特性に対応しているか?⼗分に代表しているか?
(2)本質的側⾯ 項目への反応が何らかの理論に基づいて説明できるか?
(3)構造的側⾯ 得点の構造が特性の下位概念や次元性などの理論的構造に⼀致しているか?
(4)⼀般化可能性の側⾯ ある特定の測定条件においてだけでなく、他の集団や実施場⾯、実施時期などに対しても不変であるか?
(5)外的側面 他の変数との間に想定される相関が⽰されるか?
(6)結果的側⾯ テストを使⽤した結果として⽣じた事態によって⽰される証拠。社会的インパクト。
妥当性の証拠集めは、上記の6つをすべて満たすのが理想的ですが、最初から多くの証拠を満たしたテストを作成するのは不可能です。特に「(6)結果的側⾯」は、テストを運⽤した結果によってはじめて⽰されるものであり、テスト作成時に⽰すことは原理的にできません。

妥当性の検証とは、テストを使⽤することで明らかとなっていく証拠を、順番に積み重ねていくプロセスそのものなのです。テストの作成者は、このことを念頭に置いた上で妥当性の検証を進めていく必要があるでしょう。

2.信頼性と妥当性は両⽴するのか?

第2回目のコラムで、テストを設計・運⽤するための背景理論として古典的テストモデルを紹介しました。古典的テストモデルは、項目得点のときと同様に、テスト得点(項目得点の総和)の場合も以下のように表現されます。

このようにテスト得点には必ず誤差が含まれます。
ここから、テスト得点に対する誤差の混⼊が少ない場合に、そのテストは信頼がおけると考えることができます。逆に⾔うと、テスト得点に対して真の得点の割合が⼤きくなる場合に、そのテストの信頼性(reliability)は⾼くなるということです。

詳しくは後述しますが、テストの信頼性を⽰す指標としてよく使われるものに「信頼性係数」があります(ちなみに、メシックの妥当性の各側⾯の内、「(4)⼀般化可能性の側⾯」の証拠の⼀つとして信頼性係数は位置づけられます)。信頼性係数は各種提案されていますが、中でもよく使われるα(アルファ)係数やω(オメガ)係数は内的整合性の指標と呼ばれています。

内的整合性とは「項目がすべて⼀貫して同じ特性を測定している度合い」のことです。
したがって、似たような項目を集めれば内的整合性は⾼まります(図1(a)を参照)。しかしこの場合、測定したい特性(概念)の1部分しか測定できていないという⽋点があります。

⼀⽅、測ろうとしている特性には⼀定の概念幅(帯域幅)があるのが普通であり、妥当性の観点から、理想的にはそのすべてをカバーできるような項目群を作成するのが望ましいです。しかしそうすると、⾊々な観点から項目を作成することになり、内的整合性(忠実度)は下がってしまいます(図1(b)を参照)。
このように信頼性を⾼めようとすれば妥当性が犠牲になり、妥当性を⾼めようとすれば信頼性が犠牲になってしまいます。このような問題のことをクロンバック(Cronbach)は「帯域幅と忠実度のジレンマ(bandwidth-fidelity dilemma)」と呼びました。

⼀般的に、「テストを作成するときには信頼性と妥当性を⼗分確保することが望ましい」と説明されますが、現実的にはこの双⽅を同時に満たすことは困難です。このことは、実際に有⽤なテストを作成するということがいかに難しいかを物語っています。

3.信頼性係数の算出⽅法

前項で、テスト得点に対して真の得点の割合が⼤きくなる場合に、そのテストの信頼性は⾼くなるというお話をしました。そこで、この「信頼の⾼さ」を指標化するために各得点の「バラツキの⽐」なるものを考えてみましょう。

つまり下記の式のようになります。

テスト得点は被験者間で単⼀の値を取ることはなく、必ずある程度はばらつきます。
そしてそのバラツキを、「どの程度、真の得点によってばらついているか?」で説明したのが(2)式です。誤差が⼩さければ(2)式は⼤きな値となります。

では、最⼤でどのくらい⼤きな値を取るでしょうか?
例えば、誤差が0、すなわちテスト得点のバラツキはすべて真の得点によるバラツキのみで説明できると仮定します。その場合、「真の得点のバラツキ = テスト得点のバラツキ」となりますので、(2)式は1となります。
逆にテスト得点が完全に誤差のみで決定されるような場合は、真の得点のバラツキは0となりますので、(2)式は0になります。ここから(2)式は0〜1までの値を取り、1に近いほど信頼性の⾼いテストだと考えることができるでしょう。

そこで、この(2)式をテストの信頼性の指標として採⽤し、信頼性係数ρと名付けます(ρはギリシャ⽂字で「ロー」と読みます)。

3.1 同族測定とタウ等化測定

さて、第2回目のコラムでは、テスト得点ではなく5つの項目得点で、(1)式の古典的テストモデルを構成しました。それを以下に再掲します。

上記のような仮定のとき、「項目は互いに同族測定である」といいます。
この同族測定に、さらにもう1つ、以下のような「仮定」を付け加えます。

上記の仮定は、「真の得点をその平均値で調整した場合、すべての項目は同じ真の値を測っている」という意味です。このとき、「項目は互いにタウ等化測定である」といいます。
(この仮定は直感的に非常に理解しにくいと思います。しかしここでは、この仮定が「なぜ必要なのか?」と考えるのではなく、「そういうものだ」と納得することをオススメします。)

3.2 α信頼性係数の算出⽅法

タウ等化測定のもとでは仮定4が追加されました。
仮定4は「真の得点の偏差が項目間ですべて等しい」というものですが、偏差が等しければ当然項目間でバラツキ(分散)も等しくなります。つまり、仮定4は以下と同等です。



このような仮定の下でテスト全体(5項目間)のバラツキを求めると、「25×ある項目1つ分のバラツキ」となります。
ここで「25という数字はどこから出てきたのか?」と思われる⽅がいるかもしれません。あるいは「5項目なのだから『5×ある項目1つ分のバラツキ』でよいのではないか?」と思った⼈もいるでしょう。

しかし、以下のような表で考えるとなぜ25なのかがわかります。

表1 項目間の(平均調整後の真の得点の)バラツキ

項目1項目2項目3項目4項目5
項目1 a f k p u
項目2 b g l q v
項目3 c h m r w
項目4 d i n s x
項目5 e j o t y
つまりここで⾔う「バラツキ」とは、項目単体のバラツキ(表1のa・g・m・s・y)だけではなく、項目1と項目2(表1のb)、項目1と項目3(表1のc)………のように、異なる2項目による共分散※(表1の非対角要素)も含めているのです。そして仮定4ʼとは、「表1のa〜yまでがすべて等しい」ということを意味しています。
⼀般に項目数がN個のときはN2個のバラツキがすべて等しくなります。したがって、信頼性係数を求める (3)式は以下のように再表現されます。

このようにして、タウ等化測定のもとで計算された信頼性係数のことを「クロンバックのα係数」と呼びます。

α係数は、現在、⾊々なテストを作成するときに、その信頼性の指標として多⽤されますが、このように仮定4という直感的には不⾃然な仮定を前提としています。
そこで「この不⾃然な仮定4を緩和し、同族測定のもとで信頼性係数を構成できないか?」という動きが出てきました。つまり、直感的に理解が容易な仮定1〜仮定3のみで信頼性係数を構成するということです。そこでもう⼀度、古典的テストモデルに⽴ち返ります。

※ 共分散とは、項目1と項目2のような2組の対応するデータにおいて、偏差(平均との差)の積を算出し、データ数で割ったもの。
例えば、Aさん~Jさんの10⼈が数学と物理のテストを受けたとします。このとき数学と物理の共分散は以下のようになります。


表1のように対角要素にはその項目の分散を、非対角要素に2つの項目の共分散を並べた表のことを、「分散共分散⾏列」と⾔い、データの散らばり具合を表すものとしてよく使われています。

ω信頼性係数の算出⽅法

古典的テストモデルでは、項目得点は真の得点と誤差との和で表現されました。
したがって、バラツキも以下のように分解されます。

テスト得点は項目得点の総和なので、(6)式をさらに以下のように表現します。
(7)式を少し調整し、

これを(3)式に代⼊して、信頼性係数を再定義します。
このようにして定義された(9)式のことを「マクドナルドのω係数」といいます(ωはギリシャ⽂字でオメガと読みます)。
ω係数は直感的に⾃然(理解が容易)な仮定(同族測定における仮定1〜3)のみで計算されていますので、理論的にもα係数より正確だと考えられます。因⼦分析を使ってテストを設計したときは、α係数だけではなく、ω係数も報告するようにしましょう。
具体的な計算⽅法に関しては専門書(例えば、「因⼦分析⼊門」-Rで学ぶ最新データ解析-豊⽥秀樹編著(2012)・東京図書)を参照して下さい。

今回は、古典的テスト理論の観点から、作成したテストの信頼性と妥当性について解説しました。
そして信頼性と妥当性の2つを同時に確保したテストを作成することがいかに難しいかということを考察しました。

次回は、古典的テスト理論の限界と、それを克服するために考案された最新のテスト理論について解説します。

(担当 : 経営管理研究所 福中 公輔)

関連ソリューション