【第2回】⼈材開発活動に必要なテストの作成⽅法と考え⽅・すすめ⽅

第2回 古典的テスト理論

今回はテストの設計と運⽤のために必要な理論の1つである古典的テスト理論(classical testtheory)について解説します。

1.測定について

第1回目のコラムではテストを設計するための⼀般的な流れと注意事項について述べました。 そのとき、重要なこととして以下の4点を挙げました。

1.複数項目すべてで単⼀の特性を測定できるようにすること
2.対象となる領域すべてをカバーできるように構成すること
3.難易度を適切に設定し、易しすぎる、あるいは難しすぎる項目は⼊れないこと
4.非本質的な問いを避け、本質的な内容の項目で構成すること

ここで1点目の注意事項についてもう少し考えてみましょう。
まず冒頭に「複数項目」とありますが、なぜ1つの特性を測るのに複数の項目が必要なのでしょうか?単⼀項目で単⼀特性を測定してはいけないのでしょうか?
⽇常的な直観からすると、1つの特性に対しては、測定を1回しか⾏わないのが普通です。

例えば健康診断において、⾝⻑を測定するような状況を考えてみましょう。
このとき測りたい「特性」は「⾝⻑」になります。
⾝⻑を測りたいとき、必要な器具(テスト⽤具)は「⾝⻑計」です。多くの⼈は健康診断で⾝⻑を測ったことがあると思いますが、そのとき複数回測定したり、あるいは測定器具である⾝⻑計を変更して測定を繰り返したりした⼈はあまりいないでしょう。これは体重を測定する場合も同様です。このように、⽇常⽣活では1つの特性に対して測定を繰り返すことはそれほど多くありません。

それでは能⼒測定や性格検査の場合、なぜ1つの特性を測定するのに複数項目を準備するのでしょうか?
それは「能⼒」「性格」が「⾝⻑」や「体重」と異なり、物理的に安定した測定ができないからです。

このため「能⼒」や「性格」などのことを、物理特性(⾝⻑など直接測れるもの)に対して「潜在特性」とか「構成概念」と呼んだりします。

潜在特性は目に⾒えないため、物理特性ほどに精度良く測定することはできません。
そのため1項目による測定だけでは「誤差」の混⼊が⼤きくなってしまいます。


この点を考慮し、複数項目を準備して、複数の観点から1つの特性をあぶり出そうとするわけです。
これがテストによる測定の本質です。

2.古典的テストモデル

さて、前項で「ある項目による測定には無視できない誤差が混⼊する」と述べました。
このことをもう少し詳しく考えてみましょう。

今、ある研修を受けた受講者が、その研修に満⾜したかどうかに興味があるとします。
このとき測りたい(潜在)特性は「満⾜度」になります。

そこでこの満⾜度を測定するために以下のような質問項目を考えたとします。

質問内容

あなたはこの研修に満⾜しましたか?


回答には以下のような5段階評価を⽤いるとします。
全く満⾜しなかった 1
やや満⾜しなかった 2
どちらともいえない 3
やや満⾜した 4
すごく満⾜した 5
この場合、受講者は⾃分の満⾜度の度合いによって、1をつけたり、5をつけたりします。
このような項目への受講者の回答のことを、テスト理論では「項目への反応」と⾔います。

先ほども⾔いましたが項目反応には受講者の満⾜度だけでなく、その他の要因も関わってくるでしょう。
例えば、そのときの気分や体調などです。これが誤差になります。したがって、受講者の満⾜度の「真の得点」を測定したいなら、項目得点(項目反応)から誤差を引かなければなりません。
つまり、

となります。

この(1)式は、誤差を左辺に移項することで、以下のように変形できます。

この(2)式のことを古典的テストモデルと呼びます。
これをグラフィックで表現すると図1のようになります。
この古典的テストモデルには重要な2つの仮定を前提して成り⽴ちます。
仮定1: 誤差の平均は0である
仮定2: 真の得点と誤差の間は無相関である

まず仮定1についてですが、誤差は正負バランス良く出現すると考えられますので、これは直感的に納得できると思います。また仮定2に関してですが、これについても誤差は真の得点の⾼低にかかわらず、正負バランス良く出現すると考えることは⾃然です。
このように、この2つの仮定はそれほど不⾃然なものではなく、容易に納得できるでしょう。

3.テストモデルの構成

先ほど「潜在特性を測定するには複数の項目が必要である」と述べました。
そこで、具体例としてあげた、研修の満⾜度を測定する項目を、以下の5項目(項目A~E)に変更してみましょう。

質問内容

項目A この研修の内容は、期待通りであった。
項目B この研修の難易度は、適切であった。
項目C この研修のこ講師の説明はわかりやすかった。
項目D この研修の教材はわかりやすく書かれていた。
項目E この研修の環境は適切であった。

複数観点から測定するために、研修の「内容」だけでなく「講師」や「教材」「環境」などの項目を考案してみました。項目への反応の仕⽅は先ほどと同様に5件法としますが、項目内容に合わせて以下のように変更します。
全くあてはならない 1
ややあてはならない 2
どちらともいえない 3
ややあてはまる 4
すごくあてはまる 5
この場合、古典的テストモデルは、
となります。したがって、グラフィック表現は図2のようになるでしょう。
ここで「真の得点」について、もう少し深く考えてみます。
複数観点から測定するために項目は5つ準備しましたが、測りたい特性は「満⾜度」1つです。真の得点は項目ごとに存在しますので5つありますが、これを「1つの特性からの影響⼒の違い」として捉えなおします。

つまり、「測りたい特性は1つであるが、そこからの影響⼒が項目ごとに異なるため、真の得点に違いが⽣じる」ということです。

これを式で表現すると以下のようになります。

ここで「特性値」とは、今回の場合、「ある受講者が持っている研修満⾜度の具体的な実現値」のことです。

したがって、研修に満⾜している⼈はその特性値は⾼得点になりますし、研修に不満⾜な⼈は低得点になります。つまり、当該受講者がどの程度、本当にその研修に満⾜したかの得点がこの特性値の得点に表れることになります。⾔い換えると、その研修への受講者の「真の満⾜度」が、特性値の値として表現されるということです。

この(4)式を(3.1)式~(3.5)式に代⼊し、古典的テストモデルを再表現してみましょう。
すると以下のようになります。
このとき先ほどの2つの仮定に加え、
仮定3: 誤差間は無相関である
という第3の仮定を追加します。
誤差とは、測ろうとしている特性では説明できないすべての要因を含んでいますので、それらが互いに無相関であると考えるのはそれほど不⾃然ではありません。

したがって、以上をもとに図2を描き直すと、図3のようになります。

図3のような形のモデルを⾒たことがある⼈も多いでしょう。
これは⼼理統計学の分野では因⼦分析モデルと呼ばれています。因⼦分析は、⼼理学をはじめとした⼈⽂・⾏動科学系の分野で頻繁に登場する有名な分析⼿法の⼀種ですが、今回の考察から、古典的テストモデルに⼀致することが⽰されました。
つまり、古典的テストモデルと因⼦分析モデルは等価ということです。項目を作成するときに因⼦分析を使⽤することが多いのはこのためなのです。

今回のコラムではテストを設計するための理論的背景である古典的テスト理論について解説しました。
また、今回の考察から、古典的テスト理論を⽤いて項目の作成やテストの運⽤をしたい場合は、因⼦分析と呼ばれる分析⼿法を活⽤すればよいということも分かりました。(実際に因⼦分析やそれを⽤いた項目作成の⽅法について詳しく知りたい⽅は専門書を参照して下さい。)

次回は、作成したテストを実施後、テストを改善したい場合に、各項目の善し悪しを判断するため
の⽅法である「項目分析」について解説します。


(担当 : 経営管理研究所 福中 公輔)


関連ソリューション