総合研究所の概要

お問い合わせ

資料請求リスト

人材開発活動に必要なテストの作成方法と考え方・すすめ方【連載】~第2回

第2回 古典的テスト理論

今回はテストの設計と運用のために必要な理論の1つである古典的テスト理論(classical test theory)について解説します。

1.測定について

第1回目のコラムではテストを設計するための一般的な流れと注意事項について述べました。
そのとき、重要なこととして以下の4点を挙げました。

1.複数項目すべてで単一の特性を測定できるようにすること
2.対象となる領域すべてをカバーできるように構成すること
3.難易度を適切に設定し、易しすぎる、あるいは難しすぎる項目は入れないこと
4.非本質的な問いを避け、本質的な内容の項目で構成すること

ここで1点目の注意事項についてもう少し考えてみましょう。
まず冒頭に「複数項目」とありますが、なぜ1つの特性を測るのに複数の項目が必要なのでしょうか?単一項目で単一特性を測定してはいけないのでしょうか?
日常的な直観からすると、1つの特性に対しては、測定を1回しか行わないのが普通です。

例えば健康診断において、身長を測定するような状況を考えてみましょう。
このとき測りたい「特性」は「身長」になります。
身長を測りたいとき、必要な器具(テスト用具)は「身長計」です。多くの人は健康診断で身長を測ったことがあると思いますが、そのとき複数回測定したり、あるいは測定器具である身長計を変更して測定を繰り返したりした人はあまりいないでしょう。これは体重を測定する場合も同様です。このように、日常生活では1つの特性に対して測定を繰り返すことはそれほど多くありません。

それでは能力測定や性格検査の場合、なぜ1つの特性を測定するのに複数項目を準備するのでしょうか?
それは「能力」「性格」が「身長」や「体重」と異なり、物理的に安定した測定ができないからです。

このため「能力」や「性格」などのことを、物理特性(身長など直接測れるもの)に対して「潜在特性」とか「構成概念」と呼んだりします。

潜在特性は目に見えないため、物理特性ほどに精度良く測定することはできません。
そのため1項目による測定だけでは「誤差」の混入が大きくなってしまいます。


この点を考慮し、複数項目を準備して、複数の観点から1つの特性をあぶり出そうとするわけです。
これがテストによる測定の本質です。

2.古典的テストモデル

さて、前項で「ある項目による測定には無視できない誤差が混入する」と述べました。
このことをもう少し詳しく考えてみましょう。

今、ある研修を受けた受講者が、その研修に満足したかどうかに興味があるとします。
このとき測りたい(潜在)特性は「満足度」になります。

そこでこの満足度を測定するために以下のような質問項目を考えたとします。

質問内容 あなたはこの研修に満足しましたか?

回答には以下のような5段階評価を用いるとします。

全く満足
しなかった
やや満足
しなかった
どちらとも
いえない
やや
満足した
すごく
満足した

この場合、受講者は自分の満足度の度合いによって、1をつけたり、5をつけたりします。
このような項目への受講者の回答のことを、テスト理論では「項目への反応」と言います。

先ほども言いましたが項目反応には受講者の満足度だけでなく、その他の要因も関わってくるでしょう。
例えば、そのときの気分や体調などです。これが誤差になります。したがって、受講者の満足度の「真の得点」を測定したいなら、項目得点(項目反応)から誤差を引かなければなりません。
つまり、

となります。

この(1)式は、誤差を左辺に移項することで、以下のように変形できます。

この(2)式のことを古典的テストモデルと呼びます。
これをグラフィックで表現すると図1のようになります。

この古典的テストモデルには重要な2つの仮定を前提して成り立ちます。

仮定1: 誤差の平均は0である
仮定2: 真の得点と誤差の間は無相関である

まず仮定1についてですが、誤差は正負バランス良く出現すると考えられますので、これは直感的に納得できると思います。また仮定2に関してですが、これについても誤差は真の得点の高低にかかわらず、正負バランス良く出現すると考えることは自然です。
このように、この2つの仮定はそれほど不自然なものではなく、容易に納得できるでしょう。

3.テストモデルの構成

先ほど「潜在特性を測定するには複数の項目が必要である」と述べました。
そこで、具体例としてあげた、研修の満足度を測定する項目を、以下の5項目(項目A~E)に変更してみましょう。

質問内容
項目A この研修の内容は、期待通りであった。
項目B この研修の難易度は、適切であった。
項目C この研修のこ講師の説明はわかりやすかった。
項目D この研修の教材はわかりやすく書かれていた。
項目E この研修の環境は適切であった。

複数観点から測定するために、研修の「内容」だけでなく「講師」や「教材」「環境」などの項目を考案してみました。項目への反応の仕方は先ほどと同様に5件法としますが、項目内容に合わせて以下のように変更します。

全く
あてはならない
やや
あてはならない
どちらとも
いえない
やや
あてはまる
すごく
あてはまる

この場合、古典的テストモデルは、

となります。したがって、グラフィック表現は図2のようになるでしょう。


ここで「真の得点」について、もう少し深く考えてみます。
複数観点から測定するために項目は5つ準備しましたが、測りたい特性は「満足度」1つです。真の得点は項目ごとに存在しますので5つありますが、これを「1つの特性からの影響力の違い」として捉えなおします。

つまり、「測りたい特性は1つであるが、そこからの影響力が項目ごとに異なるため、真の得点に違いが生じる」ということです。

これを式で表現すると以下のようになります。


ここで「特性値」とは、今回の場合、「ある受講者が持っている研修満足度の具体的な実現値」のことです。

したがって、研修に満足している人はその特性値は高得点になりますし、研修に不満足な人は低得点になります。つまり、当該受講者がどの程度、本当にその研修に満足したかの得点がこの特性値の得点に表れることになります。言い換えると、その研修への受講者の「真の満足度」が、特性値の値として表現されるということです。

この(4)式を(3.1)式~(3.5)式に代入し、古典的テストモデルを再表現してみましょう。
すると以下のようになります。

このとき先ほどの2つの仮定に加え、

仮定3: 誤差間は無相関である

という第3の仮定を追加します。
誤差とは、測ろうとしている特性では説明できないすべての要因を含んでいますので、それらが互いに無相関であると考えるのはそれほど不自然ではありません。

したがって、以上をもとに図2を描き直すと、図3のようになります。

図3のような形のモデルを見たことがある人も多いでしょう。
これは心理統計学の分野では因子分析モデルと呼ばれています。因子分析は、心理学をはじめとした人文・行動科学系の分野で頻繁に登場する有名な分析手法の一種ですが、今回の考察から、古典的テストモデルに一致することが示されました。
つまり、古典的テストモデルと因子分析モデルは等価ということです。項目を作成するときに因子分析を使用することが多いのはこのためなのです。

今回のコラムではテストを設計するための理論的背景である古典的テスト理論について解説しました。
また、今回の考察から、古典的テスト理論を用いて項目の作成やテストの運用をしたい場合は、因子分析と呼ばれる分析手法を活用すればよいということも分かりました。(実際に因子分析やそれを用いた項目作成の方法について詳しく知りたい方は専門書を参照して下さい。)

次回は、作成したテストを実施後、テストを改善したい場合に、各項目の善し悪しを判断するための方法である「項目分析」について解説します。

(担当 : 経営管理研究所 福中 公輔)

【連載】人材開発活動に必要なテストの作成方法と考え方・すすめ方

構成 内容
第1回 テスト実施のステップ テストの作成に関する手続きや運用方法などの大まかな流れ
第2回 古典的テスト理論 テストそのものに関する理論である古典的テスト理論
第3回 項目分析 作成したテスト項目の分析の仕方
第4回 テストの信頼性と妥当性 テストの信頼性と妥当性の理論
第5回 現代テスト理論 最新のテスト理論である、現代テスト理論について

ページ先頭へ

関連情報

調査・診断
人材アセスメントツールと組織・職場サーベイツールをご案内します。
調査・診断関連用語解説
  • 導入のご相談、提案のご依頼、各種ご質問はこちらからどうぞ
  • 資料をご希望の方はこちらからどうぞ(無料)
  • デジタルカタログはこちらから
  • 官公庁・自治体職員向け研修案内
  • 総合研究所 経営管理研究所
  • グローバルマネジメント研究所
  • サンノーWebサポート
  • SuperGrace Web成績管理システム