現在、職場でなんちゃってデータサイエンティストとして働いている筆者。
仕事で、最近習った偏相関とやらを使ってみたので紹介します。
なんちゃってデータサイエンティストの仕事
社内で少しでもデータを扱うものはすべて請け負っています。
自分のやりたい仕事だけでやれないのがサラリーマンのつらいところ。
しかし最近はそれなりにデータサイエンティストっぽい仕事をしており、例えば
機能/性能と売り上げの分析
今回の案件のミソは、目的変数が販売数であるということです。
分析対象のとある製品ですが、様々なスペックの製品が存在します。
さほど機能的に優れていないがお手ごろな価格で販売されているもの(ローエンド製品)から、優れた機能を持ち高価格で販売されているもの(ハイエンド製品)まであります。
今回の目的変数である販売数ですが、当然ローエンド製品の方が販売数が多い傾向にあります。
何も考えずに機能/性能と販売数の相関をとってみると、機能が低い方が販売数が多いという結果になります。
これは、機能が低いから売れているのではなく、価格が安いから売れているのです。
目的変数が販売数ではなく売上高や製品1個当たりの利益ならこのまま分析できるのですが、今回のお題はあくまで販売数なので、価格の影響を除外する必要があります。
※ちなみに、なぜ売上高や利益でなく販売数が重要なのかというと、メーカーはその製品のマーケットシェアを気にするからです。
高いシェアが取れればそこからさらにデータが集まり、より良い製品の開発やより良い販売方法が実現できます。
また、その製品に付随する別の製品のビジネスにもつながります。
偏相関とは
ここで登場するのが偏相関です。
偏相関とは、
2つの変数の相関が第3の変数によって高められる、または低められる場合に、2変数から第3の変数の影響を取り除いて求めた相関係数
だそうです。下記参照。
参照:https://bellcurve.jp/statistics/glossary/821.html
説明としては、野球の三振数と安打数、打席数を用いた説明が分かりやすかったです。
私はこのブログを参考にしました。
野球選手のデータを引っ張ってきて、安打数と三振数の相関を取ると、高い正の相関が出ます。
これは、三振数が多い方と安打数が多いのではなく、第三の要因である打席数が多いと、三振数と安打数ともに多い傾向にあるため起きる現象です。
打席数の影響を取り除いた偏相関を算出すると、三振数と安打数は負の相関が出ます。つまり、三振数が少ない方が安打数が多くなるということです。
まとめ
この偏相関を、私が取り組んでいる案件に適応してみました。
今までは機能が低い方が販売数が多いという結果が出ていたのが、
価格を取り除いた偏相関を算出することで
ある特定の機能が高い方が販売数が多いという結果を得ることができました。
注意点として、価格が安い方が売れるというのは当然の事実としてあるので
機能を優先するのか、価格を優先するのかはまた別の方法で検証する必要があると思っています。
コメント