定量データ分析

2022年9月5日

定量データの分析というと複雑な数学や統計を利用するイメージがありますが、

そこは最も重要な点でなく、それより数値がどのような意味があるかを読み取ることが重要です。

ビジネス用途の場合は多くの場合、統計の基本的な部分のみで十分です。

また数値では単独では意味がなく、別の数値との比較によって意味を持ちます。

そのため適切な比較が出来るように分析を進める必要があります。

定量データを進めるステップは大まかに次の通りです。

  1. 分類
  2. 比較
  3. 傾向の把握
  4. 理解
  5. 視覚化

分類

まずデータを切り分けてカテゴライズします。

データが多いときは、何らかの観点(地域、製品、期間など)で

分類しないと状況を掴むことが困難なためです。

定量データ分類の基本はMECEであり、

他にも足し算や掛け算のように、幾つかの要素に分類する方法があります。

そして切り分けた結果は集約して活用します。

データの切り分け

MECE

MECE(ミーシー)とは「Mutually Exclusive and Collectively Exhaustive」の略語で

「漏れも重複もない」状態のことを意味します。

カテゴリを用意したときに重複があると同じデータを複数のカテゴリに重複して集計してしまいます。

そして漏れがあるとデータを集計から外してしまいます。

次のような分類はMECEではない例です。

  1. 50代以上
  2. 30代~60代の男性
  3. 40代の女性
  4. 30代より下

1と2で50代の男性が重複していて、30代の女性が漏れています。

これを避けるためにMECEな分類を考える必要があります。

性別や生年などのシンプルな要素の分類であればMECEになりやすいですが、

実際には難しいケースが多くなります。

複数の切り口を検討

複数の切り口が存在しないかを検討してみることも重要です。

性別、年齢、地域など実際にカテゴリを変えて集計してみると

同じデータからであっても異なる状況が見いだせる場合があります。

一人の視点では切り口が偏る可能性があるため、

複数の人間で考えてみるのも有効です。

データの要素分解

基本的な切り分け方は足し算的な分け方です。

例えば社員を「男性」と「女性」に分ける場合、味方を変えると

「男性」と「女性」の合計が「全社員」になります。

他にも「年収層」、「年齢層」、「出身地域」など多くの要素が考えられます。

複数の要素を足し算的に湧けた後、更に掛け算でカテゴリを作成すると

また違った状況が見えてくる場合があります。

例えば、「性別(男性と女性)」と「雇用形態(正規と非正規)」を掛けると

2×2で4つのカテゴリになります。

  1. 男性×正規
  2. 男性×非正規
  3. 女性×正規
  4. 女性×非正規

カテゴリが膨らみ過ぎると、これはこれで何も見えなくなるため

掛け算は2~3要素までが無難でしょう。

出身地なども件で分けると細かくなるため、

場合によって地域や首都圏のような

ざっくりしたまとまりにするのも有効です。

データの集計

MECEなカテゴリ分けを用意した後はその数値データを集計します。

この集計はExcelのピボットテーブルは様々な観点で集計できて有用です。

集計結果は主に表にしますが、ヒストグラムにした方が理解しやすいケースもあります。

比較

人間は何かを判断するとき、何かと比較する必要があります。

例えば試験問題の正解・不正解は、回答と正答とを比較することで判断します。

(実務では正答が存在しませんが)

定量データを分析する場合にも何らかの比較が必要になります。

例えば、とある店舗の1日の注文件数が10件と1つだけデータが存在しても

それだけではその10件が良い数値なのか、悪い数値なのかも判断できません。

何かを判断するには次のような比較対象が必要です。

  • 時系列の比較(その店舗の過去の注文件数など)
  • 独自に設定した基準との比較(目標として設定した注文件数など)
  • 外部との比較(競合や別の支店の注文件数など)

比較の方法

時系列

同じ項目の異なる時点でのデータを比較対象とします。

この比較は分析の基本で、長時間で推移を見れば大きな傾向が見えてきます。

基本的には月毎、年毎など特定の期間での推移を見ますが、

季節によって傾向があるデータでは前年同月や前年同期といった比較を行うこともあります。

日別では土日と平日で傾向が違う場合があるため、週別にする方が良いケースもあります。

時系列の比較は、どれだけの期間の推移を見るかが重要です。

この期間設定に正解はありませんが、

例えば、最近の変化を見る場合は10年のデータを年毎に見ても意味はなく

3年程度のデータを月毎に見る方が適切です。(長期の変化では10年が適切)

10年で見るか、3年で見るかで全然、結果が異なる場合や

特殊なことが起こったかも考える必要があります。

例えバブル崩壊(1991~3年)、震災(1995、2011年)、

リーマンショック(2008年)、コロナショック(2020)のような

全国、または全世界的に影響のある大事件は

売上や就職活動等に幅広く影響を及ぼしており、

影響がプラスであってもマイナスであっても大きい不可抗力であり、

単純に成長や鈍化のように捉えてしまうのは危険です。

そういったケースは特記するか、比較から外すことを検討します。

他には会社買収などがあると、多くの場合で会社の売上は大きく変わりますが、

変わって当然なため単純に比較してよいか微妙なケースがあります。

そういった場合は注記するか、事業や商品など何らかの要素に分解して比較を検討します。

独自に設定した基準

売上目標、計画値といった具合に、会社や個人などが設定した基準との比較です。

例えば「営業目標として設定値に対して120%の達成度であったため良い結果であった」などです。

多くの課題意識に対して柔軟の目標設定が可能で、良い・悪いと判断が明確だというメリットがありますが、

半面、良い・悪いで終わるため深い分析にすることは難しく、

そもそも適切な目標設定であったかの注意も必要です。

外部

同業他社との比較、個人別、店舗別といった比較を行います。

ベンチマークという言葉が頻繁に利用されますが、外部との比較の代表例です。

これも比較対象の選別が重要で、例えば同業他社の場合、

トップシェアの企業と新興の企業では差がありすぎて比較しても意味がなく、

近いレベルの数社と比較して、その中で差を探すような方法が適切です。

自分の能力を他人と比較する場合でも、

職歴、年齢などが近い人と比較しなければ意味がありません。

店舗別の売上成績を比較する場合でも経済規模の違う地域で比較しても意味がないため

出来るだけ近い条件で比較することが重要になります。

注意点

目的に合致したデータで比較

選んだデータが目的に合致しているかに注意が必要です。

例えば能力を調べる時にスキルの定量化は難しいものですが、

自己申告の5段階評価では同じ3でも認識が異なる恐れがあるため、

ヒアリングなどを通した定性的な情報も交えて考えた方が良いかもしれません。

資格試験の得点であっても問題が違うと点が異なるため

可能な限り同じ内容の出題で比較する方が精度の高い情報になります。

(そもそも図りたいスキルに関連のある試験も重要)

同じような対象と比較

幾つか前述していますが、条件の合っているデータかという点も重要です。

例えば自分自身の1か月の営業数値の比較であっても、

対象と10歳差があり、より広い範囲を担当していれば差があるのが当然で

分析としては意味がないことが多いです。(向上心は良いですが)

1歳上の先輩といったより近い対象と比較して改善点や目標を考えた方が

より現実的な分析となり効果があることが多くなります。

このようにより近い、または同一の条件の対象と比較することを意識しましょう。

傾向の把握

データの傾向を把握するためには代表値を活用します。

  • 平均値
  • 中央値(順位を付けた場合、最も中央の値)
  • 最頻値(最も多く登場する値)

同時に分散や標準偏差という指標で、

データのバラつき具合(平均に集まっているのか、離れたものが多いのか)にも注目します。

場合によっては相関係数という指標で二つの数値に関連性があるのかも把握します。

代表値

例えば次の2つのグループがあり、どちらが優れているかを比較したいとします。

単純に合計するのも方法の一つではありますが、

そもそも店舗数が異なるため公平な比較になりません。

こういうケースではデータ全体の特徴を1つの指標として集約した代表値で比較します。

平均値

各チームの平均を取ると1グループが154万円で、2グループが152.5万円です。

平均値自体は1グループが優れていますが、

ここの実績を見ると1グループには一つ突出した店舗が存在し、

他はそれほど高い売り上げではありません。

逆に2グループは各店舗で成果が安定しています。

このように平均値は突出した数値があると引き上げられてしまい、

数値の傾向を間違えて捉えてしまう危険があります。

例えば身長や寿命のように突出した値がないものであれば有効ですが、

年収や貯金額のようなものであれば、算出される平均値と一般的な平均の感覚は異なります。

中央値

中央値は真ん中の順位の値を取ります。

(データ数が偶数の場合は中央の2データの平均値)

この中央値を見ると1グループが140万円で、2グループが155万円です。

このように平均値と中央値と同時に見ると

1グループは1つだけ突出した店舗が全体としては低く、

2グループは逆に突出した店舗はないが、全体的には高いという見方が出来ます。

最頻値

データの分布を見たとき、件数の多い値や範囲が多いところが最頻値です。

最頻値は特にデータの範囲やデータ数が大きく、

多くのデータが同じ値や範囲に固まりがちな場合に利用します。

次のヒストグラムは「2019年 国民生活基礎調査の概況」で日本の世帯所得状況です。

「2019年 国民生活基礎調査の概況」より

これを見ると平均が552万円で、中央値が437万円です。

そして最も多い200~300万円が最頻値(ボリュームゾーン)になります。

複数の代表値を見ることで状況を把握できますが、

平均的という意味では200~300万円の最頻値が、それにあたると言えます。

理解

データ全体の傾向や比較対象との相違点から、データの持つ意味を理解し、

文章にまとめていきます。

視覚化

数値データはそのままでは他人への説明が難しいことが多いため、

グラフという形で視覚化します。

  • 折れ線グラフ
  • 円グラフ
  • 棒グラフ
  • ヒストグラム
  • 散布図

グラフは見栄えがよく、多用したくなりますが、

以下の要点を外すと資料を分かりづらくするだけ注意が必要です。

  • グラフの目的を明確化
  • 不要なグラフを作らない
  • グラフは主役ではない
  • 必要な数値のみグラフ化する

グラフ化にあたっては目盛の取り方や強調の仕方など

非常にミスリードを行いやすいため、

間違った解釈を招かないように配慮する必要があります。