総合研究所の概要

お問い合わせ

資料請求リスト

人材開発活動に必要なテストの作成方法と考え方・すすめ方【連載】~第3回

第3回 項目分析

テストの点数は、解答(もしくは回答)された複数の項目を、事前に設計された重みを加えて合算することで算出されます。

ところで、解答の選択肢が与えられている客観式の試験問題や性格検査のような質問項目の場合は、仮に問題がよく分からなくても解答できてしまうという欠点があります。試験問題であればたまたま選んだ選択肢が正解の場合がありうるわけです。このような項目が多いとしたら、そもそもそのテストの結果を信用してよいかどうかわからなくなってしまいます。

そこで、今回はより良いテストを作成していくために必要な、「項目分析」について解説します。

1.分析方法と準備

テストを実施する目的の1つは、各被験者が、測ろうとしている当該特性をどの程度保有しているのかを調べることです。したがって、その特性の保有量の大小を調べるのに大きく貢献している項目は「良い項目」と言えますし、逆にあまり貢献していない項目は「悪い項目」と言えます。
特性への各項目の貢献力を調べることを項目分析(item analysis)と呼びます。

現在、項目分析を行うための方法はたくさん提案されていますが、ここでは大きく3つの方法を紹介しようと思います。

特に(1)項目特性図による分析方法は非常に強力で、専門家の間では項目分析の決定版だと言われています。項目特性図を描くためには、特に高度な統計解析ソフトも必要ではなく、多くの企業で採用されているビジネス用の表計算ソフトさえあれば可能ですので、ぜひ実際に作成してみて下さい。

さて、それではまず、項目分析を始めるための準備をしていきましょう。
テスト実施後、手元には多くの答案、またはアンケート用紙が集まることになります。このとき、最初にすることはテスト結果のデータ化です。テスト結果を表計算ソフトなどに入力することはテストの分析を行う第一歩になります。

例えば、能力テストを実施した場合、明確な正答と誤答がありますので、正答を1、誤答を0として入力します。ただし、1~4までの複数選択肢から正解を選 ぶような多肢選択問題の場合は、以下のようにそのまま入力しておきます。また、4件法などで実施されるようなアンケート調査の場合も同様です。
このようなデータを生データ(raw data)と呼びます。

生データ(raw data)

2.項目特性図の作成方法

項目特性図は、横軸に測ろうとしている特性を、縦軸に確率を配して、項目反応の選択確率を選択肢ごとに結んだ折れ線グラフで表現されます。
言葉にすると難しいので、具体例として図1に示しておきます。質問項目一つにつきグラフを一つ作ります。

図1 項目特性図の具体例

この図は、あるテストで使用された1番目の項目の項目特性図です。
このテストは各項目に対して、「あてはまらない」から「あてはまる」までを1~4の数値でコーディングされた4件法の性格検査です。
図の作成方法には様々な流儀がありますが、本コラムでは以下のような手順で作成する方法を紹介します。

(1)各被験者のテスト得点(項目得点の総和)を求めます。
(2)テスト得点をキーにして、点数の高い人から順にデータ全体をソートします。
(3)各グループの人数がほぼ等しくなるように被験者全体を5等分します。
このとき低得点のグループから高得点のグループまでを、それぞれ「Lグループ」「LMグループ」「Mグループ」「MHグループ」「Hグループ」と呼びます。
(4)グループごとに選択肢の選択確率を計算します。
選択確率は、グループ内での各項目反応の人数をグループ内総数で除することによって求めます。
例えばLグループの総数が150人で、そのうち24人が項目反応1を選択していた場合は24/150 = 0.16とします。図1の場合は以下のようになっています。

表:グループごとに選択肢の選択確率を計算した

(5)横軸にグループを、縦軸に選択確率を配したグラフを用意し、各グループにおける各項目反応の選択確率をプロットし、直線で結びます。

一般的な手続きは上記の通りですが、5グループに分割することは必須条件ではありません。
被験者総数が大きければグループの数を増やしても折れ線グラフは安定しますし、より詳細な項目特性を考察することができます。逆に、被験者総数が小さければ、グループ数を増やすと各グループに配される被験者が少なくなってしまい、折れ線グラフが安定しなくなります。
この点を考慮し、慎重にグループ数を決定するようにしましょう。とはいえ、最低でもL、M、Hの3グループは必要となります。

3.項目特性図による分析

それでは実際に、項目特性図を使って各項目の善し悪しを判断してみましょう。
ここでは図1と同様に4件法で構成されたあるテストの結果を利用します。まずは図2を見て下さい。

図2 良い項目の例1(高特性者識別項目)

まず項目反応1「あてはまらない」に関してはすべてのグループで選択確率が低くほとんど機能していない、言い換えるとグループを識別することができないことが見て取れます。
しかし項目反応2「ややあてはまらない」になると低特性者(テストの総得点が低い人)集団のグループであるLグループやLMグループで若干選択確率が上がっており、また高特性になるにしたがって選択確率の低下が見られます。
つまり、このテストの得点が低い人は、この項目で「2」を選ぶ傾向が見て取れるという良い傾向を示しています。
この傾向は項目反応3「ややあてはまる」についても同様です。項目反応3のLグループで若干選択確率が低いのは、項目反応3の代わりに項目反応2を選ぶからだと考えられ、それほど問題ではありません。
一方、項目反応4「あてはまる」に関しては、被験者が高特性(テストの総得点が高い)になるにしたがって選択確率が増大しており、良い傾向を示しています。
以上のことから、この項目は「良い項目」であると判断できるでしょう。

次に注目するべきところは、識別に大きく関わっている項目反応3と項目反応4が交差している場所です。
図2の場合はMHグループのところで交差しています。
これは、ある程度特性が高くならないと(Hグループにならないと)「4」を選択しないということを意味しており、高特性者の識別に効力を発揮する項目だと考えられます。
このような項目のことを高特性者識別項目と呼びます。

高特性者識別項目を多く含んだテストを構成した場合、非常に難易度の高いテストになるでしょう。
項目特性図の基本的な読み方は上記の通りです。

注意すべきところは識別に関わる場所についてだけです。
例えば、図3のような項目特性図の場合、項目反応2と3がMグループ付近で交差しています。この場合、当該特性が中程度の人たちを識別するのに効力を発揮します。
このような項目を中特性者識別項目と呼びます。

図3 良い項目の例2(中特性者識別項目)

図4 良い項目の例3(低特性者識別項目)

一方、図4の場合、項目反応2と3がLMグループのところで交差していますので、この項目は低特性者の識別に貢献しています。このような項目は低特性者識別項目と呼びます。

図2~図4までのような、3種類の項目をバランス良く含めたテストを作成することで、特性の低い人から高い人までを広範囲に識別できるテストを作成することが可能です。
また、高特性者識別項目を多めに含めた場合は高得点を取るのが難しめなテストに、低特性者識別項目を多めに含めた場合は高得点を取りやすい易しめなテストに操作することが可能です。テストの目的によって使い分けるとよいでしょう。

一方、図5のような項目特性図を描く項目は「悪い項目」です。
なぜなら、すべてのグループにわたってそれぞれの項目反応が平行になっているからです。項目反応4に関しては、特性の上昇に伴い、多少は増大していますが、その変化はそれほど大きくはありません。
つまりこの項目は特性の高さによらず、ランダムに1~4が選択されるということです。これではどの項目反応からも特性の高さを識別することはできません。
このような項目はテストから削除し、次回以降は使用しないようにするのが良いでしょう。

図5 悪い項目の例

4.通過率

ここでは、先ほどの4件法のデータに関して、さらに情報の圧縮を行います。項目反応1と2を「0」に、項目反応3と4を「1」に再入力します。
すると以下のようなデータが構成されることになります。

2値反応データ

このような形式のデータのことを2値反応データ(binary response data)といいます。
(ただし、明確な正答と誤答が存在する多肢選択問題の場合は正答を1、誤答を0に再入力します。)

この2値反応データから「通過率」と呼ばれる指標を計算してみましょう。
通過率は別名、正答率とも呼ばれます。
この指標は、テストを構成する個々の項目の性質を調べるためのものです。
計算方法は至って簡単で、項目ごとに「1」と反応した人の数を被験者総数で除することによって求めます。

通過率 = 正答数 / 被験者総数

つまり通過率は、各項目に正答した被験者の割合として解釈することが可能です。
(テスト理論では性格検査などでも、「1」と反応することを「正答する」と表現することがあります)

通過率は、0と1の間の数字をとり、値が大きな項目ほど(正解した人が多いので)易しい項目であると解釈します。これらの値は、先ほど紹介した項目特性図と合わせて考察することで、その項目が良い項目なのか、そうではないのかを判断する材料になります。

5.識別力

通常のデータ解析では平均(通過率)の次に計算される統計量は、標準偏差(散布度)です。
しかし、2値反応データの場合、標準偏差を計算して項目分析に使用することはほとんどありません。その代わりに「識別力」と呼ばれる指標を計算します。

識別力とは、各項目得点とテスト得点の相関係数のことです。
したがって、識別力の高い項目は、項目得点がテスト全体で測定している特性を適切に反映し、被験者を区別している項目であると解釈します。逆に、識別力の低い項目は、項目得点が特性を適切に反映していない項目であると考えられます。

識別力は、最大値が1であり、1に近いほど識別力が高く、0に近いほど識別力が低いと判断します。識別力は相関係数のことですので、原理的には負の値になることも考えられます。

例えば、逆転項目(※1)などは負の値になります。しかし、このような項目はあらかじめ反転させておくので、負の値が登場することはほとんどありません。正解と不正解がある学力テストのような場合も、テスト得点が高くなるほど不正解になるような項目は珍しいので、実質的に識別力が負になることは滅多にないでしょう。

識別力を考える場合に注意すべき点が1つあります。
それは、テスト得点は各項目得点の和で計算されており、テスト得点の中に当該項目得点が含まれてしまっていることです。そのため項目数が少ない場合は、相関係数である識別力は大きくなる傾向にあります。
対処法としては、当該項目を除いた場合の残りの項目合計得点をテスト得点とし、それと当該項目との相関係数をその項目の識別力として利用することです。この指標も項目特性図と合わせて解釈することで、項目分析に効果を発揮するでしょう。

※1逆転項目:「当てはまる」と回答するとネガティブな意味になるような項目こと。
例えば、チャレンジする意欲があるかどうかを尋ねる場合で、「私は新しいことに挑戦したくない」のような項目のこと。

6.項目分析の活用

今回は、テストを構成する項目の善し悪しを判断するための項目分析の方法として、項目特性図・通過率・識別力を紹介しました。特に項目特性図は強力で、方法も至って簡単なので、ぜひ活用してみて下さい。

さて、項目分析は実際にどのように活用することになるでしょうか。
社内の昇格試験など、不合格者などがいて2年連続して受験する人がいる場合、今年度の問題項目と来年度の問題項目を変えることがよくあります。これは毎年繰り返されることになるでしょう。しかし、ある程度の年数が立つと、項目数も豊富になるので、過去のいくつかの項目を組み合わせて新たなテストが作成できるようになります。このようなとき、「悪い項目」はできる限り使わないようにするのが望ましいです。
 
そこで、毎年の試験後に項目分析を実施しておき、「良い項目」は残し、「悪い項目」は削除するようにします。そうすることによって「良い項目」のみが確保でき(このような項目群のことを項目プールと呼びます)、将来にわたって良質なテストが作成できるようになるのです。

次回は、作成したテストの「信頼性」と「妥当性」を調べる方法について解説します。

(担当 : 経営管理研究所 福中 公輔)

【連載】人材開発活動に必要なテストの作成方法と考え方・すすめ方

構成 内容
第1回 テスト実施のステップ テストの作成に関する手続きや運用方法などの大まかな流れ
第2回 古典的テスト理論 テストそのものに関する理論である古典的テスト理論
第3回 項目分析 作成したテスト項目の分析の仕方
第4回 テストの信頼性と妥当性 テストの信頼性と妥当性の理論
第5回 現代テスト理論 最新のテスト理論である、現代テスト理論について

ページ先頭へ

関連情報

調査・診断
人材アセスメントツールと組織・職場サーベイツールをご案内します。
調査・診断関連用語解説
  • 導入のご相談、提案のご依頼、各種ご質問はこちらからどうぞ
  • 資料をご希望の方はこちらからどうぞ(無料)
  • デジタルカタログはこちらから
  • 官公庁・自治体職員向け研修案内
  • 総合研究所 経営管理研究所
  • グローバルマネジメント研究所
  • サンノーWebサポート
  • SuperGrace Web成績管理システム
  • マナビバサンノー
  • sannoメール登録

他のコンテンツを見る

SANNOが大切にしている活動スタンス
理想のイメージをお客様と共に創り上げるために、大切にしている活動スタンスをご紹介します。
人材育成・研修 用語集
人材育成・研修に関する用語集です。実務にお役立てください。