総合研究所の概要

お問い合わせ

資料請求リスト

人材開発活動に必要なテストの作成方法と考え方・すすめ方【連載】~第5回

第5回 現代テスト理論

今回は、古典的テスト理論の限界と最新のテスト理論である項目反応理論について解説します。

1.古典的テスト理論の限界

第2回目のコラムで、以下のような古典的テストモデルを紹介しました。

テスト得点 = 真の得点 + 誤差  (1)式

この理論は直感的に非常に理解しやすいので、「古典的」という名前は付いていますが、テストの設計や運用に現在でも頻繁に利用されています。
しかし、長年の研究から、いくつかの無視できない限界も指摘されてきました。これら限界にはいろいろありますが、大きく分けて以下の3つにまとめられます。

まずは、これら3つの限界について考えていきましょう。

(1)結果がテストを実施した被験者集団に依存してしまう

古典的テスト理論の第1の限界は、項目分析や標準化からの知見が、それを計算した被験者集団の分布に、完全に依存してしまうことです。

例えば、あるテストをA社とB社の両方で別々に実施したとします。ただし、テストを構成する項目は両社で共通であるとします。しかしながら、たとえテスト内容が同じであっても、平均値を計算すると両社で異なる値になると考えられます。これは標準偏差や偏差値でも同様です。

A社で求められたこれらの値は、A社のみにしか通用しないのです。B社の社員がB社内での自分の位置(あるいは自分の能力や特性)を知るために、A社で求められた値と比較しても、何も分かりません。
当たり前のように思うかもしれませんが、テストを考えるときに本質的に重要な点です。

(2)結果がテストそのものに依存してしまう

古典的テスト理論の第2の限界は、項目分析や標準化からの知見が、項目の集まりであるテストそのものに依存してしまうことです。

テストそのものの性質を知りたいのだから、これは一見すると限界ではないように聞こえます。しかし、テストは1回実施すると受験者に知られてしまい、厳密に言えば、2度実施することは基本的にできません。

つまり、テストの結果がテストそのものに依存してしまっていては、たとえ項目の内容を秘匿したとしても、何度も繰り返し実施するのは難しいということです。そのため実施したテストを苦労して標準化したとしても、そのテスト自体は使いにくくなってしまっているので、その知見を積極的に次に生かすことができません。

標準化という方法は、既に実施してしまったテストを理解するための手段であって、次に実施するテストに対して有効な知見(例えば、平均値をテスト実施前に制御するなど)を積極的に与えるような方法とは言えない側面があります。
このためテスト結果がテストそのものに依存してしまう古典的テスト理論では、実社会における現代的なテストの運用には耐えられないのです。

(3)古典的信頼性の限界

古典的テスト理論の第3の限界は、テストの信頼性に関するものです。
(1)式のような古典的テストモデルから定式化される信頼性係数を、第4回目のコラムで紹介しました。

ρ = 真の得点のバラツキ / 真の得点のバラツキ + 誤差のバラツキ  (2)式

この信頼性係数の欠点は、この指標がテスト固有のものではなく、「そのテスト」と「それを実施した集団」の組に対して与えられるものであるということです。

例えば、「英語力」を測定するためのあるテストをA社の新規採用者の集団のみに実施した場合と、管理職等も含めたA社全体の集団に実施した場合を比較してみましょう。

まずこの2つの集団では、常識的に考えて新規採用者集団の方が集団として等質だと考えられます。逆に言うと、A社全体集団の方が集団としてのバラツキは大きいはずです。したがって、「英語力」という特性の真の得点のバラツキも、A社全体集団の方が新規採用者集団よりも大きくなると考えられます。その一方で、誤差のバラツキは測定用具としてのテスト自身の性質なので、どちらの集団でも大きく変化することはありません。したがって、新規採用者集団に実施した場合と、A社全体集団に実施した場合とを比較すると、同一のテストであるにもかかわらず、A社全体集団の方が信頼性は高く定義されますし、また実際に高く推定されます。

このように古典的な信頼性係数は、テストそのものとテストを実施した集団の「組」に対して定義される指標であり、純粋にテスト固有の測定精度を表現した指標ではありません。

大抵の場合、テストを作成すると基礎調査を行い、その集団で標準化し、信頼性係数を算出します。その場合の信頼性係数とは、あくまでそのテストと基礎調査集団の組で推定されたものであり、その後、別の集団にそのテストを実施した場合には別の信頼性係数が算出されてしまいます。
これではそのテストの測定精度を評価できていないのとほとんど変わらず、不便です。

2.項目反応理論

以上のように、古典的テストモデルには様々な限界が指摘されています。これらの困難を克服できるテスト理論こそが、現代テスト理論である項目反応理論(item response theory;IRT)です。

項目反応理論(IRT)

IRTで設計・運用されたテストは、いつ・どこで実施しようと、項目の内容が変わっていようと、同じ人に何度実施したとしても、どのような集団に実施したとしても、同じ特性を測定していることを保証し、テストそのものの精度を推定することが可能。

例えば、IRTで運用されているテストで有名なものにTOEIC(Test of English for International Communication)があります。TOEICで測定する特性は「英語力」です。このテストは、英語を母語としない人を対象に、英語によるコミュニケーション能力を検定する目的で、米国のETS(Educational Testing Service)が作成しました。

グローバルスタンダードな語学試験として、多くの企業でも採用されています。このテストは1年に何度も、世界中で実施されており、同一の被験者が連続して再受験することが可能です。また、毎回のテストで項目の内容も変わっています。それにもかかわらず、異なるテストで同じ特性を測定していることを保証し、受験結果を比較することが可能なのです。このようなテストの作成は、古典的テストモデルでは不可能です。

IRTで運用するための数理モデルのことを項目反応モデルと呼びますが、このモデルは多くの長所を持っています。例えば、以下の5つが挙げられます(「項目反応理論【入門編】」第2版-豊田秀樹編著(2012)・朝倉書店)。

(1)複数のテスト間の結果の比較が容易であること
(2)測定精度をきめ細かく確認できること
(3)平均点をテスト実施前に制御できること
(4)テスト得点の対応表が作成できること
(5)受験者ごとに最適な問題を瞬時に選び、その場で出題できること

このうち(5)は適応型テスト(computerized adaptive testing; CAT)とかテイラードテスト(tailored testing)と呼ばれ、コンピュータの進化とともに、近年著しく発展してきました。

適応型テストやテイラードテストとは、ある受験者が1問目に正解した場合と誤答した場合で、次に主題する項目を変えるというテストの形式です。
1問目に正解した場合の2問目は、1問目よりも難しい問題(項目困難度が高い)が出題されます。誤答した場合は、易しい(項目困難度が低い)問題が出題されます。(項目困難度については次の項で説明します。)
これを繰り返すことによって、受験者の特性値を推定するのに最も適した問題が出題されることになり、受験者一人ひとりに合わせたテストを実施することができます(図1参照)。

図1 テイラードテストのイメージ

図1 テイラードテストのイメージ

3.項目反応モデル

最も単純な項目反応モデルでは、項目困難度(item difficulty)のみをテストそのものの性質としてモデル化しています。項目困難度とは、その名の通り、「項目の難しさ」を表現するためものです。

この値が高ければ高いほど難しい項目になりますが、現実的には-2.0~2.0の間で推定されます。このようなモデルのことを「1母数モデル」と呼びます。
項目反応モデルでは、基本的に、正答を1、誤答を0とする2値反応データのみを取り扱います。テストを実施し、その結果の正誤データから項目困難度を推定し、項目の性質を考察することが目的の1つになります。

では、項目困難度を推定した結果、どのような考察が可能になるのでしょうか?

図2は、ある3つの項目の項目困難度が-1、0、1と推定された場合の出力図です。
このような図のことを項目特性曲線(item characteristic curve; ICC)といいます。項目反応モデルでは、項目ごとにこのようなICCが描かれます(図2では3つのICCを同時にプロットしています)。

図2 項目特性曲線

図2 項目特性曲線

ICCでは横軸に特性値を、縦軸にその項目に対する正答確率を配します。

ここで特性値とは、そのテストを受けた各被験者がどの程度その特性を保有しているかの推定値です。その特性が高い者ほど、値は高く推定されます。
項目困難度は第3回目のコラムで紹介した通過率に相当します。ただし通過率は、特定の被験者集団における正答者の割合でその項目の難しさを表現していました。したがって、集団が異なれば通過率がどうなるかは不明です。これは古典的テストモデルの限界として解説しました。

しかし、項目反応モデルにおける項目困難度は、被験者集団には依存せず、特性値(能力レベル)に対する正答確率という形で表現されます。

例えば、図2の赤の曲線は項目困難度が-1の場合のICCです。この曲線は(横軸である)特性値(能力レベル)が-1のときに(縦軸である)正答確率が0.5(五分五分)で正答するような問題項目と考えることができます。対して、青の曲線は項目困難度が1の場合のICCです。この曲線は特性値(能力レベル)が1のときに確率0.5(五分五分)で正答するような問題項目です。したがって、項目困難度が1の項目は項目困難度が-1の項目より難しい項目と解釈することができます。

このように項目反応モデルは、特定の被験者集団に依存することなく、特性(能力レベル)に特徴づける形で項目の性質を表現できる、卓抜したアイデアを実現しているのです。

4.項目反応モデルの発展

項目反応モデルは、1952年に米国のLordの学位論文から始まりました。
Lordは最初、この理論を潜在特性理論(latent trait theory)と呼びましたが、1976年に米国心理学会第5部会会長演説で、項目反応理論と呼び直しました。

今回紹介したモデルは、項目反応モデルの中でも最も単純な1母数モデルと呼ばれるものです。このモデルは、項目の性質として項目困難度と呼ばれる「項目に反応するときの難しさ」を表現しています。

これ以外にも2母数モデルや3母数モデルが提案されています。
2母数モデルでは項目困難度に加えて、「被験者の特性値の違いが正答確率にどの程度敏感に反映されるか」まで表現できます。この性質のことを項目識別力(item discrimination)と言います。
3母数モデルでは項目困難度と項目識別力に加え、当て推量母数(guessing parameter)まで表現できます。当て推量母数は「被験者が実力では全く正解できず、偶然に正答してしまう確率」を意味しています。

モデルが複雑になればなるほど、設計したテストの結果をより柔軟に分析することが可能になりますが、モデルを安定して推定するには、より多くの被験者が必要になり、実用化が難しくなるという側面があります。

また、項目反応モデルは基本的に2値反応データで使用すると述べましたが、3件法や5件法のような順序カテゴリカルデータでもモデル化可能な段階反応モデル(graded response model)や、その極限である連続反応モデル(continuous response model)も提案されています(Samejima、 1969; Samejima 1973)。
さらに今回は暗黙の了解で1つの特性のみ(1次元性)を前提にしていましたが、複数の特性を同時にモデル化可能な多次元IRTなどもあります。

しかし、これらの発展モデルも含めて項目反応理論は数理的に非常に高度なモデルです。ゆえに、非専門家が項目反応モデルを用いて、テストを設計・運用するのは難しいと言わざるを得ません。
項目反応モデルを実際に活用してテストを設計・運用したい場合は、適宜専門家に相談しながら、慎重に運用していく必要があるでしょう。

おわりに

本連載コラムでは、5回にわたってテスト作成の仕方と運用に関して解説をしました。
第1回目ではテスト作成の基本的な流れを説明し、第2回目~第4回目まででテストに関する背景理論や分析の仕方について述べました。また第5回目である今回は、最新のテスト理論である項目反応理論の基礎について解説しました。

今回の連載コラムを最後まで読まれた方は、一口にテストと言っても、その背景には様々な理論があり、とても慎重に設計・運用されていることがご理解いただけたかと思います。しかしながら、日本にはたくさんのテストがあふれていますが、テスト理論を正しく活用し、設計されたテストは他国に比べて驚くほど少ないというのが現状です。

テスト作成者・運用者にとっては当然ですが、利用者にとってもテスト理論の理解は必要不可欠です。なぜなら、テスト理論を知らなければ、その結果を正しく読み取ることができないからです。

今回の連載コラムでは、テスト理論の基本である導入部分のみしか説明できませんでしたが、これをきっかけにテスト理論に興味を持っていただけたなら、著者にとってこれほど嬉しいことはありません。
最後までお読みいただき、誠にありがとうございました。

参考文献

本連載コラムの執筆にあたり、以下の文献を参考にしました。

  • Cronbach、 L. J. (1990). Essentials of psychological testing、 5th ed. New York/harper Collins.
  • McDonald、 R. P. (1978). Generalizability in factorable domains: “domain validity and generalizability”. Educational and Psychological measurement、 38、 75-79.
  • Messick、 S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist、 50、 741-749.
  • Lord、 F. M. (1952). A theory of test scores. Psychometric Monograph、 No.7.
  • Samejima、 F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika Monograph Supplement、 34、 100-114.
  • Samejima、 F. (1973). Homogeneous case of the continuous response model. Pshchometrika、 38(2)、 203-219.
  • 豊田秀樹 編著 (2012). 「因子分析入門 --Rで学ぶ最新データ解析--」 東京図書
  • 豊田秀樹 (2012). 「項目反応理論【入門編】」第2版 朝倉書店
  • 平井洋子 (2006). 「測定の妥当性からみた尺度構成 --得点の解釈を保証できますか」 『心理学研究法の新しいかたち』 誠心書房

(担当 : 経営管理研究所 福中 公輔)

【連載】人材開発活動に必要なテストの作成方法と考え方・すすめ方

構成 内容
第1回 テスト実施のステップ テストの作成に関する手続きや運用方法などの大まかな流れ
第2回 古典的テスト理論 テストそのものに関する理論である古典的テスト理論
第3回 項目分析 作成したテスト項目の分析の仕方
第4回 テストの信頼性と妥当性 テストの信頼性と妥当性の理論
第5回 現代テスト理論 最新のテスト理論である、現代テスト理論について

ページ先頭へ

関連情報

調査・診断
人材アセスメントツールと組織・職場サーベイツールをご案内します。
調査・診断関連用語解説
  • 導入のご相談、提案のご依頼、各種ご質問はこちらからどうぞ
  • 資料をご希望の方はこちらからどうぞ(無料)
  • デジタルカタログはこちらから
  • 官公庁・自治体職員向け研修案内
  • 総合研究所 経営管理研究所
  • グローバルマネジメント研究所
  • サンノーWebサポート
  • SuperGrace Web成績管理システム
  • マナビバサンノー
  • sannoメール登録

他のコンテンツを見る

SANNOが大切にしている活動スタンス
理想のイメージをお客様と共に創り上げるために、大切にしている活動スタンスをご紹介します。
人材育成・研修 用語集
人材育成・研修に関する用語集です。実務にお役立てください。