【第1回】⼈材開発活動に必要なテストの作成⽅法と考え⽅・すすめ⽅

第1回 テスト実施のステップ

⼀般的にテストの作成と運⽤は、次のようなステップで実施されます。

1.テストの設計

テストは通常、単⼀の課題で構成されることは珍しく、普通は常に複数の課題から構成されています。 この課題のことを項目(item)と⾔います。 テスト項目を作成する上で注意すべき事は⼤きく分けて4つあります。 各項目をクリックすると内容へジャンプします。

1.1 複数項目すべてで単⼀の特性を測定できるようにすること

1.2 対象となる領域すべてをカバーできるように構成すること

1.3 難易度を適切に設定し、易しすぎる、あるいは難しすぎる項目は⼊れないこと

1.4 非本質的な問いを避け、本質的な内容の項目で構成すること

具体的なテスト構成の仕⽅については第2回で詳しく説明します。

1.1 複数項目すべてで単⼀の特性を測定できるようにすること

テストは何らかの「特性」を測定するために実施されます。

ここで特性とは、「数学⼒」のような「能⼒」のことであったり、「社交性」のような「性格特性」のことであったりします。このときテストを構成する項目の中に、もしその測定すべき特性とは関係のない内容のものが含まれていたとしたらどうでしょうか?

たとえば「数学⼒」という特性を測定したいときに、項目の中に英語の発⾳に関する問題が含まれているような状況です。このような項目を含んだテストは良いテストとは⾔えないということは容易に想像できると思います。

このようにテストを作成する上では、まず始めに「⾃分が何を測定したいか?」という特性を明確に定義しておかなければなりません。
これは能⼒テストだけではなく、性格検査などでも同様です。
「社交性」という特性を測定したければ、社交性を忠実に反映した項目のみで構成する必要があります。

1.2 対象となる領域すべてをカバーできるように構成すること

これは測定したい特性の⼀部の領域に特化した項目のみで構成してはいけないということです。

例えば、⾼校1年⽣における数学⼒の測定を考えてみましょう。
⾼等学校の教科内容は⽂部科学省が学習指導要領として明確に定めています。したがって⾼校1年⽣の数学⼒を測定したい場合は、この学習指導要領に⽰されている内容をもれなく盛り込んだ項目で構成する必要があります。決して、図形の問題だけで構成されたテストでもって「⾼校1年⽣の数学⼒を測定した」と⾔ってはいけないのです。

しかし、学習指導要領のように、内容が明確に定義されていれば領域すべてをカバーするテストを作成することはそれほど難しくないのですが、⼊社試験や性格検査では公的に認められた定義は存在しないので「領域すべてをカバー」するテストの作成は難しくなります。
したがって、特性を明確に定義し、その上でその特性がどのような領域で構成するかを研究・議論し、慎重に決定して項目を作成する必要があります。

1.3 難易度を適切に設定し、易しすぎる、あるいは難しすぎる項目は⼊れないこと

易しすぎる項目の場合はほとんどの対象者が正答してしまい、難しすぎる項目の場合はほとんどの対象者が誤答してしまいます。このため対象者がばらつかず、対象者を識別するという、テスト本来の目的には合致しないものになります。ゆえにこのような項目はなるべく⼊れないようにするのが適切です。

ただしテストを実施する目的によっては⼊れた⽅が良い場合もあります。
例えば、⽇々の学習進度を調べるための確認テストのようなものを想定する場合は、易しい項目のみで構成した⽅が良いでしょう。また、宇宙⾶⾏⼠の選抜のような、⼀部の優秀な⼈を抽出したい場合は難しい項目のみで構成した⽅が効果的な場合もあります。

このように目的によっては適切な場合もありますので、何のためにそのテストを実施するのか、その目的を考えた上でこのような項目を⼊れるべきかどうか判断しましょう。

1.4 非本質的な問いを避け、本質的な内容の項目で構成すること

これも無駄な項目を混⼊させないために重要なことです。
非本質的な項目は、特性を測定する上で邪魔になるだけでなく、項目の数が増えてしまうので対象者の負荷となり、疲労とストレスを与えてしまいます。
その結果、誤差が蓄積し、当該特性を適切に測定できなくなる可能性があり、有害です。

何が本質的なのかを判断するのはとても難しいですが、よく研究し、なるべく本質的な項目のみで構成するように⼼がけましょう。

2.事前調査

測定したい特性を定義し、その特性を測定できる項目を作成したら、本番の前にそのテストの性能の事前調査を⾏います。事前調査の目的は、作成した項目が上⼿く機能するかどうかを確認することです。

テストを実施する環境は本番とほぼ同じようにして⾏いますが、⼈数は本番よりも遥かに少ない数でよいでしょう。事前調査では、そのテストを回答するにあたって、回答できないような⽭盾がないかを確認します。そのため、テスト終了後、対象者にインタビューを実施することもあります。

3.項目分析

テストを構成する項目には、良い項目と悪い項目があります。
事前調査の結果から、悪い項目を削除、あるいは修正するための情報を得ることを項目分析(itemanalysis)と⾔います。

例えば能⼒テストの場合、事前調査の段階で全員正答、あるいは全員誤答するような項目があったときは、その項目は削除します。
性格検査の場合も同様で、例えば1〜5で回答する5件法の調査項目で、全員が同じカテゴリにチェックした項目(全員が1あるいは5と回答するなど)があったときにはそれらの項目を削除します。
これは上記で説明した1.3の理由のためです。

これ以外にも、項目特性図を描く⽅法・正答分析や誤答分析・通過率や識別⼒を調べる⽅法などがあります。
これらに関しては、第3回目で詳しく述べることにします。

4.実査

項目分析が終わり、テストが完成すると、次はいよいよ実査になります。
実査では対象者が過度にストレスを感じることがないように、環境等に配慮しておきましょう。
また、回答の時間配分や当⽇のスケジュールの確認は、直前になって慌てることがないように、スタッフを含め参加者全員に周知徹底しておきます。

5.標準化

数学⼒という特性を測定するために、50問の項目で構成されたテストを実施したとします。
このテストの配点は1問1点とすると、このテストを受けた対象者は最低点「0点」、最⾼点「50点」の範囲のどこかの値を取得することになります。
このときの値(項目の合計点)のことをテスト得点(test score)、または素点と⾔います。

このテスト得点は絶対評価をする場合にはそのままの値を読み取れば良いのですが、⼊社試験や昇進・昇格試験などの場合には、これ単体ではあまり意味がありません。

なぜならこれらのテストは「他者と⽐較して当該対象者がどうか?」という観点が必要になるからです。
つまり、そのテストを受験した集団の中での当該対象者の位置を知ることが重要であるということです。そのための⽅法を標準化(norming)と⾔います。

標準化は、テスト得点から標準得点を計算することで実⾏します。計算式は以下の通りです。

ここで平均点を引いているのは受験者集団の中⼼を「0点」に移動するためで、標準偏差で割っているのは集団のバラツキを1に調整するためです。また、この標準得点を10倍し50を加えることによって、なじみのある偏差値に変換することも可能です。具体的に計算してみましょう。

以下のような5⼈に50点満点のあるテストを実施し、表1のようなテスト得点が得られたとします。

ここで、対象者間の相対的位置を知りたいだけなら、単純に「テスト得点の⾼い順にソートすればよいだけではないか?」と思った⽅がいるかもしれません。

しかし、標準得点であれば平均0、標準偏差1の正規分布に、偏差値であれば平均50、標準偏差10の正規分布に従うことが知られており、標準得点や偏差値に変換することで、この分布の統計的特徴を利⽤できるようになります。このため単純なソートよりも有⽤な情報が得られるようになります。

例えば、偏差値に関する正規分布の性質として、「偏差値が40~60の値になる⼈は集団において約68%存在する」というものがあります。この情報を利⽤すると、今回のテストでは5⼈しか受験していませんが、もし仮に100⼈が受験したとしたら、そのうち約68⼈が偏差値40~60の間に収まるだろうという予測が⽴ちます。

テスト得点をソートしただけの場合は今回受験した⼈しか考察の対象にはなりませんが、標準得点や偏差値に変換することで、集団の⼀般的性質として考察を拡張できるのは⼤きなメリットです。

テストの⾒直しと項目の再分析

最後に、今回の実査で良かった点と悪かった点を振り返り、次のテストをより良いものにしていくための分析が必要です。そのため、再度項目分析を⾏ったり、テストの信頼性や妥当性を検討したりします(テストの信頼性や妥当性の検討の仕⽅については第4回目で詳しく説明することにします)。

そして、それらの分析の結果、各項目のどこが悪かったのかを反省し、それを活かしてより良い項目を作成し続けるという不断の努⼒を重ねることで「良いテスト」が作成できるのです。

次回は、テストを設計するための背景理論である「古典的テスト理論」について説明します。

(担当:経営管理研究所 福中 公輔)

関連ソリューション