総合研究所の概要

お問い合わせ

資料請求リスト

人材開発活動に必要なテストの作成方法と考え方・すすめ方【連載】~第1回

第1回 テスト実施のステップ

一般的にテストの作成と運用は、次のようなステップで実施されます。

1.テストの設計

テストは通常、単一の課題で構成されることは珍しく、普通は常に複数の課題から構成されています。
この課題のことを項目(item)と言います。

テスト項目を作成する上で注意すべき事は大きく分けて4つあります。
各項目をクリックすると内容へジャンプします。

具体的なテスト構成の仕方については第2回で詳しく説明します。

1.1 複数項目すべてで単一の特性を測定できるようにすること

テストは何らかの「特性」を測定するために実施されます。

ここで特性とは、「数学力」のような「能力」のことであったり、「社交性」のような「性格特性」のことであったりします。このときテストを構成する項目の中に、もしその測定すべき特性とは関係のない内容のものが含まれていたとしたらどうでしょうか?

たとえば「数学力」という特性を測定したいときに、項目の中に英語の発音に関する問題が含まれているような状況です。このような項目を含んだテストは良いテストとは言えないということは容易に想像できると思います。

このようにテストを作成する上では、まず始めに「自分が何を測定したいか?」という特性を明確に定義しておかなければなりません。
これは能力テストだけではなく、性格検査などでも同様です。
「社交性」という特性を測定したければ、社交性を忠実に反映した項目のみで構成する必要があります。

1.2 対象となる領域すべてをカバーできるように構成すること

これは測定したい特性の一部の領域に特化した項目のみで構成してはいけないということです。

例えば、高校1年生における数学力の測定を考えてみましょう。
高等学校の教科内容は文部科学省が学習指導要領として明確に定めています。したがって高校1年生の数学力を測定したい場合は、この学習指導要領に示されている内容をもれなく盛り込んだ項目で構成する必要があります。決して、図形の問題だけで構成されたテストでもって「高校1年生の数学力を測定した」と言ってはいけないのです。

しかし、学習指導要領のように、内容が明確に定義されていれば領域すべてをカバーするテストを作成することはそれほど難しくないのですが、入社試験や性格検査では公的に認められた定義は存在しないので「領域すべてをカバー」するテストの作成は難しくなります。
したがって、特性を明確に定義し、その上でその特性がどのような領域で構成するかを研究・議論し、慎重に決定して項目を作成する必要があります。

1.3 難易度を適切に設定し、易しすぎる、あるいは難しすぎる項目は入れないこと

易しすぎる項目の場合はほとんどの対象者が正答してしまい、難しすぎる項目の場合はほとんどの対象者が誤答してしまいます。このため対象者がばらつかず、対象者を識別するという、テスト本来の目的には合致しないものになります。ゆえにこのような項目はなるべく入れないようにするのが適切です。

ただしテストを実施する目的によっては入れた方が良い場合もあります。
例えば、日々の学習進度を調べるための確認テストのようなものを想定する場合は、易しい項目のみで構成した方が良いでしょう。また、宇宙飛行士の選抜のような、一部の優秀な人を抽出したい場合は難しい項目のみで構成した方が効果的な場合もあります。

このように目的によっては適切な場合もありますので、何のためにそのテストを実施するのか、その目的を考えた上でこのような項目を入れるべきかどうか判断しましょう。

1.4 非本質的な問いを避け、本質的な内容の項目で構成すること

これも無駄な項目を混入させないために重要なことです。
非本質的な項目は、特性を測定する上で邪魔になるだけでなく、項目の数が増えてしまうので対象者の負荷となり、疲労とストレスを与えてしまいます。
その結果、誤差が蓄積し、当該特性を適切に測定できなくなる可能性があり、有害です。

何が本質的なのかを判断するのはとても難しいですが、よく研究し、なるべく本質的な項目のみで構成するように心がけましょう。

2.事前調査

測定したい特性を定義し、その特性を測定できる項目を作成したら、本番の前にそのテストの性能の事前調査を行います。事前調査の目的は、作成した項目が上手く機能するかどうかを確認することです。

テストを実施する環境は本番とほぼ同じようにして行いますが、人数は本番よりも遥かに少ない数でよいでしょう。事前調査では、そのテストを回答するにあたって、回答できないような矛盾がないかを確認します。そのため、テスト終了後、対象者にインタビューを実施することもあります。

3.項目分析

テストを構成する項目には、良い項目と悪い項目があります。
事前調査の結果から、悪い項目を削除、あるいは修正するための情報を得ることを項目分析(item analysis)と言います。

例えば能力テストの場合、事前調査の段階で全員正答、あるいは全員誤答するような項目があったときは、その項目は削除します。
性格検査の場合も同様で、例えば1~5で回答する5件法の調査項目で、全員が同じカテゴリにチェックした項目(全員が1あるいは5と回答するなど)があったときにはそれらの項目を削除します。
これは上記で説明した1.3の理由のためです。

これ以外にも、項目特性図を描く方法・正答分析や誤答分析・通過率や識別力を調べる方法などがあります。
これらに関しては、第3回目で詳しく述べることにします。

4.実査

項目分析が終わり、テストが完成すると、次はいよいよ実査になります。
実査では対象者が過度にストレスを感じることがないように、環境等に配慮しておきましょう。
また、回答の時間配分や当日のスケジュールの確認は、直前になって慌てることがないように、スタッフを含め参加者全員に周知徹底しておきます。

5.標準化

数学力という特性を測定するために、50問の項目で構成されたテストを実施したとします。
このテストの配点は1問1点とすると、このテストを受けた対象者は最低点「0点」、最高点「50点」の範囲のどこかの値を取得することになります。
このときの値(項目の合計点)のことをテスト得点(test score)、または素点と言います。

このテスト得点は絶対評価をする場合にはそのままの値を読み取れば良いのですが、入社試験や昇進・昇格試験などの場合には、これ単体ではあまり意味がありません。

なぜならこれらのテストは「他者と比較して当該対象者がどうか?」という観点が必要になるからです。
つまり、そのテストを受験した集団の中での当該対象者の位置を知ることが重要であるということです。そのための方法を標準化(norming)と言います。

標準化は、テスト得点から標準得点を計算することで実行します。計算式は以下の通りです。

ここで平均点を引いているのは受験者集団の中心を「0点」に移動するためで、標準偏差で割っているのは集団のバラツキを1に調整するためです。また、この標準得点を10倍し50を加えることによって、なじみのある偏差値に変換することも可能です。具体的に計算してみましょう。

以下のような5人に50点満点のあるテストを実施し、表1のようなテスト得点が得られたとします。

ここで、対象者間の相対的位置を知りたいだけなら、単純に「テスト得点の高い順にソートすればよいだけではないか?」と思った方がいるかもしれません。

しかし、標準得点であれば平均0、標準偏差1の正規分布に、偏差値であれば平均50、標準偏差10の正規分布に従うことが知られており、標準得点や偏差値に変換することで、この分布の統計的特徴を利用できるようになります。このため単純なソートよりも有用な情報が得られるようになります。

例えば、偏差値に関する正規分布の性質として、「偏差値が40~60の値になる人は集団において約68%存在する」というものがあります。この情報を利用すると、今回のテストでは5人しか受験していませんが、もし仮に100人が受験したとしたら、そのうち約68人が偏差値40~60の間に収まるだろうという予測が立ちます。

テスト得点をソートしただけの場合は今回受験した人しか考察の対象にはなりませんが、標準得点や偏差値に変換することで、集団の一般的性質として考察を拡張できるのは大きなメリットです。

合わせて「診断・テスト 関連用語解説」ページの「標準得点」の項を参照して下さい。

テストの見直しと項目の再分析

最後に、今回の実査で良かった点と悪かった点を振り返り、次のテストをより良いものにしていくための分析が必要です。そのため、再度項目分析を行ったり、テストの信頼性や妥当性を検討したりします(テストの信頼性や妥当性の検討の仕方については第4回目で詳しく説明することにします)。

そして、それらの分析の結果、各項目のどこが悪かったのかを反省し、それを活かしてより良い項目を作成し続けるという不断の努力を重ねることで「良いテスト」が作成できるのです。

次回は、テストを設計するための背景理論である「古典的テスト理論」について説明します。

(担当:経営管理研究所 福中 公輔)

【連載】人材開発活動に必要なテストの作成方法と考え方・すすめ方

構成 内容
第1回 テスト実施のステップ テストの作成に関する手続きや運用方法などの大まかな流れ
第2回 古典的テスト理論 テストそのものに関する理論である古典的テスト理論
第3回 項目分析 作成したテスト項目の分析の仕方
第4回 テストの信頼性と妥当性 テストの信頼性と妥当性の理論
第5回 現代テスト理論 最新のテスト理論である、現代テスト理論について

ページ先頭へ

関連情報

調査・診断
人材アセスメントツールと組織・職場サーベイツールをご案内します。
調査・診断関連用語解説