総合研究所の概要

お問い合わせ

資料請求リスト

人材開発活動に必要なアンケート調査の考え方・すすめ方[連載]~第3回

テーマ:集計に関する基本的な知識

今回は量的調査を行った場合の集計方法に関する基本的な事柄について解説します。

(誌上セミナー担当:堀内 勝夫 総合研究所)

1.度数分布表の作成

データの入力が終了したら、まず各変数(質問項目)について単純集計を行います。
具体的には、度数分布表を作成し、回答の分布を検討します。

度数分布表とは、測定値ごとの度数もしくは相対度数(割合)を記入した集計表です。
度数(frequency)とは、各測定値の出現個数のことを意味します。

度数分布の検討は、全ての変数について最初に行います。

度数分布表の例

上の例で示しているように、 各値(カテゴリー)の回答者数(度数)を集計し、比率を算出します。そして端に度数の合計と、割合の合計を載せましょう。比率を提示する場合は、一般的に小数点第1位までの値を記述します。

2.単純集計のグラフ化

データの集計や分析とは、膨大なデータを人間が理解できる範囲のものに変換する作業であると言えます。

グラフ作成もその一連の流れとして考えられます。報告書として調査結果を提示する場合には、多くはグラフが用いられます。グラフの利点は、情報を視覚的に捉えやすいということです。つまりグラフの役割は、データを視覚的に把握しやすいように整理することと言えます。

度数分布表をグラフ化したものをヒストグラム(histogram)といいます。度数分布表よりも、データの分布の形が直感的に分かるという利点があります。
ヒストグラム作成の際には、横軸に測定値、縦軸に度数をとります。

ヒストグラムの例

度数分布表、あるいはヒストグラムを作成することによって、以下の点を読みとることができます。

(1)入力ミスの有無

LANやWEBで実査した場合には問題になりませんが、印刷した調査票やマークシートを使った場合は、データの分析を行う前に、データ入力が正確に行われているかどうかをチェックします。度数分布表から、ある程度これを探ることができます。

例えば、性別という変数に対して、男性を「0」、女性を「1」とコード化して入力したにも関わらず、度数分布表にそれ以外の数字が入っていれば、それは入力ミスによるものであると考えられます。

(2)極端値の有無

極端値とは、データ全体の分布から大きく外れて、孤立しているような値のことです。

例えば、下の表において、「11」は極端値です。なぜなら、データ全体は1~4に集中しているが、「11」は他と大きく離れて、単独で分布しています。

本来なら極端値がある場合、データに対してそれ以上の統計的処理を行うことは望ましくありません。しかし、その極端値が出た原因を個別に追求し、不良値であるとわかったらそれを除外して分析を進めることができます。

極端値の例

(3)標本の構成

フェイスシートに含まれる、回答者の属性(性別・年齢等)に関する度数分布表から、回答者の構成を把握することができます。母集団からのサンプリングを適切な方法で行ったとしても、調査の回収状況によっては回答者の属性に偏りが見られ、母集団を代表した標本であるとは見なせない場合があります。よって、標本が母集団を代表しているかどうか、すなわち調査における標本の妥当性を、度数分布表を用いてある程度確認することが必要です。

(4)回答の分布

度数分布を確認することによって、どのくらいの人数がどのような回答をしているのかを把握することができます。これが度数分布表の本来の役割です。

回答の分布については以下の点を検討しましょう。

a)各選択肢がどの位の割合で選ばれているのか。均等に選ばれているのか、どこかに偏っていないか。
b)ほとんど選ばれていないような選択肢がないか。
c)評定形式の選択回答形式であり、さらに「普通」や「どちらともいえない」等の中間の選択肢がある場合は、それら中間選択肢に回答が集中してしまっていないか。中間の選択肢に回答が集中してしまっていると、後の分析を行いにくくなる。
d)評定形式の選択回答形式の場合は、「良い」や「賛成」等の肯定的評価に回答した傾向と、反対に否定的な方向に回答した傾向の割合を調べる。
e)順位づけの回答方法の場合に、1位と多くの人に判断された選択肢はどれか。
f)順位づけの回答方法の場合に、順位づけに何らかの特徴は見られないか。

3.記述統計量の算出

単純集計によって回答の傾向は把握できました。報告書で各変数のヒストグラムを掲載することも1つの方法ではありますが、何らかの指標を用い、同じ情報を数値で表すことができればより簡便です。

一般には「代表値」「散布度」がその指標となり、このような統計指標を「記述統計量」と呼びます。言い換えれば、記述統計量を用いることによってデータの分布情報を要約することになります。

代表値と散布度にはいくつかの種類があり、尺度の水準や変数の種類によって適用できるものに制限があります。その点についても随時確認しながら解説していきます。

4.代表値

代表値とは、データの分布の中での中心的な位置を表す数値です。

ここでいう"代表"とは、それを知ればデータの全体的傾向についておおよそ知ることができるというような、"典型的、一般的なもの"という意味です。

代表値には最頻値、中央値、平均値の3つがあり、測定に用いられた尺度の水準(第2回を参照してください。)や実際に観測されたデータの分布などを考慮して最も適切なものを選ぶことになります。

(1)最頻値(Mode:Mo)

度数が最も多い測定値(ないしカテゴリー)を指し、モードとか並み数と呼ばれることもあります。最頻値は名義尺度・順序尺度・間隔尺度・比例尺度のどの水準のデータに対しても適用することができます。

例えば、100人の人に対して下のような質問を行い、その結果が得られたとする。この場合、最頻値は最も度数の多い「1」、すなわち「A型」です。ここで、最頻値は「35」ではないことに注意しましょう。

名義尺度に対する最頻値の例

(2)中央値(Median:Me)

データの水準が順序尺度・間隔尺度・比例尺度である場合に適用できる代表値です。データを大きさの順に並べたときにちょうど中央に位置する値であり、ヒストグラムの面積を2等分する値ともいえます。

データ数(n)が奇数のときには、「(n+1)/2」番目の測定値を中央値とします。

例えば、下の例のような5人のテストの得点があった場合、(5+1)/2=3であるから、3番目に高い得点である58が中央値となります。

中央値(データ数が奇数の場合)

データ数が偶数のときには、「n/2」番目の測定値と、「(n/2)+1」番目の測定値の間に中央値が存在することになりますが、それら2つの測定値を足して2で割った値を中央値とすることが多いようです。

例えば、下の例のような6人のテストの得点があった場合、(6/2)=3番目に高い得点(58)と、(6/2+1)=4番目に高い得点(50)の平均をとって、54が中央値となります。

中央値(データ数が偶数の場合)

(3)平均値(mean)

データの水準が間隔尺度または比例尺度である場合に適用される代表値です。ここでは最も一般的で使われる頻度の高い、算術平均について解説します。

算術平均は「相加平均」とも呼ばれ、一般に、―X(エックスバー)、またはMと表記されます。データの総和(∑Xi)をデータ数(n)で割ることにより算出されます。

平均値

例えば、10人のテストの得点が、下の例のようであったとすると、

10人のテストの得点

(4)3つの代表値の比較

それぞれの代表値を用いることができる尺度の水準を示したものです。
データの水準が間隔尺度あるいは比例尺度である場合には、3つの代表値のいずれも適用可能です。

データの水準と3つの代表値

※尺度については、第2回「2-4.回答形式の決定」を参照ください。

5.散布度

下図の2つのヒストグラムは、両方とも平均値が50となるように作られたグラフですが、明らかに分布は異なっています。つまり、代表値だけでデータの特徴がすべて表されるわけではありません。

代表値が等しくても、データのばらつきの程度が異なれば、それらのデータは異なるものとみなされます。このばらつきの程度を「散布度」といいます。

例えば、散布度が小さいほど、「50」という平均値がデータ全体の傾向を表している程度が大きいことがわかります。すなわち、散布度は代表値の信頼性を示すと言えます。

データの散布度の例

散布度には、レンジ、分散、標準偏差などがありますが、これらはどの代表値を選択したかによって適用できるものが限定されます。

(1)レンジ(range:R)

レンジは、代表値が中央値である場合に用いる散布度の測度であり、データの最大値と最小値の差として定義されます。レンジが大きいほど、散布度は大きいとみなされます。

例えば、下の表のような5人のテストの得点があった場合、中央値は58、レンジは(80-25)で55となります。

レンジの例

しかし、レンジはデータ数が多いほど大きくなる確率が高いという欠点があります。データ数が多いほど、それらのデータの中に極端に大きい、または小さい値が含まれている確率が高くなるからです。

(2)分散(variance:S2)

分散は、代表値が平均値である場合に用いる散布度の測度であり、以下の式によって定義されます。

分散

この式からもわかるように、分散とは「個々の測定値の平均値からのズレ(偏差と言います)を2乗したものの和を、データ1個分に換算した」値です。

2乗しているのは、ズレの+・-を消すための処置です(偏差を合計すると0になってしまうため)。分散が大きいほど、散布度は大きいと解釈できます。

また、分散が小さいということは、平均値のすぐ近くにデータが集中していることを意味します。

(3)標準偏差(standard deviation:SまたはSD)

標準偏差は、代表値が平均値である場合に用いる散布度の測度であり、分散の平方根をとったものです。

分散を算出したときに、偏差を2乗したため、元のデータの単位と異なってしまっています。

例えば、長さを表す1mを2乗すると面積を表す1㎡(平方メートル)になります。1mと1㎡は比べられません。それを元の単位に戻すために平方根をとることで、代表値の単位と揃えることができます。

標準偏差

単純集計と記述統計量の算出は、得られたデータを解釈、分析するために欠かせない作業となります。これらの結果をよく読み込んでいくことがデータ分析の最初の一歩です。

アンケート調査の結果報告に代表値しか表示していないものをよく見かけます。代表値だけではそのデータの一部分しか見えてきません。どのような場合でもデータがどのように分布しているかを意識することが非常に大切です。

おわりに

このコラムは、人材育成マネジャー様向けの1日セミナー「企業内調査の考え方・進め方」をもとに、組織内で調査を行う場合について、基本的なポイントのみを解説してまいりました。実はこのセミナーの開催は2011年3月11日でした。

当日、混乱はあったものの、幸いなことに、ご参加いただいた方々には怪我もなく、とにかく定刻まで実施させていただきました。しかし、内容的には半分ほどしか説明することができませんでしたので、ポイントだけになりますが、改めてここに掲載させていただいた次第であります。

3回にわたる長文のコラムをお読みいただき、ありがとうございました。このコラムが皆様にとって何らかのお役に立つようでしたら、筆者にとって望外の喜びです。

2011年8月
堀内 勝夫

参考文献

より学習を進めていきたい方に、以下に参考文献をご案内いたします。

・ウソを見破る統計学神永 正博著  講談社 ブルーバックス 2011
・社会調査法入門盛山 和夫著  有斐閣 2004
・新・涙なしの統計学D. ロウントリー著  新世社 新版 2001
・組織調査ガイドブック―調査党宣言田尾 雅夫 (編集), 若林 直樹 (編集)  有斐閣 2002

シリーズ:人材開発活動に必要なアンケート調査の考え方・すすめ方【連載】

ページ先頭へ

関連情報

研修効果(教育効果)測定
カークパトリックが提唱した考え方を活用した企業や組織内における研修効果(教育効果)測定の枠組みをご説明します。
人材開発活動に必要なテストの作成方法と考え方・すすめ方【連載】
  • 導入のご相談、提案のご依頼、各種ご質問はこちらからどうぞ
  • 資料をご希望の方はこちらからどうぞ(無料)
  • デジタルカタログはこちらから
  • 官公庁・自治体職員向け研修案内
  • 総合研究所 経営管理研究所
  • グローバルマネジメント研究所
  • サンノーWebサポート
  • SuperGrace Web成績管理システム
  • マナビバサンノー