アソシエーション分析とは?概要とビジネス活用例を徹底解説!

目次

アソシエーション分析とは

アソシエーション分析とは、「Aが発生した場合、Bも同時に発生する可能性が高い」といったルール(アソシエーションルール)を発見するための手法で、ECサイトの購買履歴データや医療データにおける罹患履歴など幅広く用いられます。

その中でも「商品Cと商品Dは一緒に購入されやすい傾向にある」といったPOSデータなどを対象とした、商品の併売パターンに注目したものをバスケット分析と呼びます。

得られた結果からクロスセルやレコメンデーション、商品配置の工夫など様々なマーケティング戦略へ展開することができます。

アソシエーション分析によってわかること

アソシエーション分析はある事象の併発のしやすさなどを定量的に割り出すことが可能です。

具体的にアソシエーション分析で用いられる指標を紹介します。
以降は分かりやすさのため商品の併売を例にとって説明します。

  1. 支持度:商品AとBの両方が同時に購入された割合

    $$P(A \cap B) = \frac{n(A \cap B)}{n(\Omega)}$$
  2. 期待信頼度:購入数全体のうち商品Bが購入された割合

    $$P(B) = \frac{n(B)}{n(\Omega)}$$
  3. 信頼度:商品Aが購入されたもとで商品Bも購入された割合(統計学における「AのもとでBが発生する条件付き確率」と数式的に同義)

    $$P(B \mid A) = \frac{n(A \cap B)}{n(A)}$$
  4. リフト値:信頼度と期待信頼度の比率で、無条件下の何倍購入されやすいかの指標
    無条件下での商品Bの購入率と比較して、商品Aの購入という条件がどれだけ商品Bの購入率を”引き上げているか”を示す指標。このリフト値が1を超える場合にアソシエーションルールとして重要性があると考えることが多い。

    $$\frac{P(B\mid A)}{P(B)}$$
数式・文字式の解説

\begin{eqnarray}
n(A)&:&Aが発生した回数\\
P(A)&:&Aが起こる確率\\
Ω&:&全体集合、考えている全取引データ\\
P(A \cap B)&:&AとBが同時に起こる確率\\
P(B \mid A)&:&Aが発生した前提でBが発生する確率\\
\end{eqnarray}

簡単な数値例を解説します。

あるコンビニでは1日に100件の購買データ(のべ100人分の購入記録)があり、そのうちおにぎりの購入があったのは40件、緑茶の購入があったのが30件、どちらも購入した場合が20件あったとします。

このケースは以下のように各指標を求めることができます。

\begin{eqnarray}
支持度 &=& \frac{20}{100} = 0.2 \\
期待信頼度 &=& \frac{30}{100} = 0.3 \\
信頼度 &=& \frac{20}{40} = 0.5 \\
リフト値 &=& \frac{0.5}{0.3} \approx 1.67
\end{eqnarray}

上記の結果から、無条件で緑茶を購入する場合に比べて、おにぎりを購入するという条件のもとでは1.67倍緑茶が購入されやすいと考えられます。

このように主要な4指標を算出することで、無条件の場合と比較して、どの商品の組み合わせがどの程度併売されやすいかを明らかにすることができます。

お気軽にご相談ください!

当サイトの運営会社であるデータアナリティクスラボ株式会社は、データサイエンティストのプロフェッショナルサービスを提供しています。アソシエーション分析による分析実績も多数ございますのでお気軽にご相談ください。

ご相談・お問い合わせはこちらから

必要なデータ

アソシエーション分析に必要なデータは、定性データと定量データに分類されます。

定性データは、商品名や顧客属性といったカテゴリ情報を指し、どの商品やサービスがどのように組み合わされるかといった関連性を特定するために活用されます。例えば、特定の商品名や商品カテゴリを分析することで、併売傾向のあるアイテム同士の関係性を把握できます。

一方、定量データは、購入数や購入金額、訪問回数などの数値データで、支持度や信頼度、リフト値といった指標を算出するためのデータとなります。アソシエーション分析の目的をレコメンド施策の策定とする場合、1回の購入データだけでなく、一定期間あたりの購入数や取引回数に視野を広げることで、一時的な購入傾向ではなく、継続的な関連性を捉えることができます。

具体的には、ECサイトでは商品ID、顧客の生年代、地域などが定性データに含まれます。これらの情報は顧客行動や購入パターンの違いを探るのに役立ちます。
定量データとしては分析の目的上、購入数量や購入回数がメインとなりますが、場合によってはクリック回数など目的に応じたKPIが考えられます。

これらの数値データは、顧客がどの程度その商品に関心を持っているかや、どの商品の組み合わせが頻繁に発生しているかをより詳細に分析するために必要となります。

アソシエーション分析のビジネス活用例

アソシエーションルールを用いた資料請求のレコメンデーション

顧客との接点を増やし、より興味を引き出すために、適切な情報をタイミングよく提案することは重要です。特に、資料請求の場面では「次にどの資料を案内すべきか」を考えることで、顧客の関心を深め、より効果的なコミュニケーションが可能になります。

具体的には、過去の請求実績に基づきセットで請求されることが多い組み合わせをレコメンドする等の手段はイメージがしやすいかもしれません。しかし、この方法では支持度基準の判断となるため、単独で請求頻度が高い資料(人気資料)が含まれていた場合、その資料を含むセットでの支持度が高くなり、適切な組み合わせではない提案となる可能性があります。

こうした背景を踏まえた、web広告経由の資料請求レコメンデーションに対してアソシエーションルールを用いた例をご紹介します。

イメージを掴みやすくするための具体例として、人気の資料Aと資料Bを考えてみます。資料Aは単独での請求数が全体の50%(50/100件)と非常に多く、資料Bも単独で30%(30/100件)の頻度で請求されているとします。この状況で資料Aと資料Bがセットで請求される割合(支持度)が20%(20/100件)だった場合を考えます。
一見すると、資料Aと資料Bの組み合わせは請求数の20%を占めており、それなりに関連性が強いように見えます。しかし、リフト値を計算すると

$$\text{リフト値} = \frac{\text{信頼度(資料A→資料B)}}{\text{期待信頼度(資料Bの支持度)}} = \frac{\frac{20}{50}}{\frac{30}{100}} = \frac{0.4}{0.3} \approx 1.33$$

となり、関連性としてはそれほど強くないことが分かります。つまり、この組み合わせは資料Aが単独で非常に人気が高いために支持度が上がっているだけで、実際には他の資料との関連性を高めているわけではありません。

一方で、別の資料Cと資料Dを考えてみましょう。資料Cは単独で10%(10/100件)、資料Dは15%(15/100件)の頻度で請求されているにも関わらず、この2つがセットで請求される割合(支持度)は8%(8/100件)だったとします。この場合、リフト値は

$$\text{リフト値} = \frac{\text{信頼度(資料C→資料D)}}{\text{期待信頼度(資料Dの支持度)}} = \frac{\frac{8}{10}}{\frac{15}{100}} = \frac{0.8}{0.15} = 5.33$$

となり、資料Cと資料Dの関連性が非常に強いことが分かります。

このように本件では、各資料のページに設置されたレコメンド欄(サイト下部にある「これを請求した人は、こんな資料も請求しています」など)において、単に請求数の多い人気資料ばかりが並ぶのではなく、実際に関連性の高い適切な資料を表示できるようになります。

一方で実装に際しては注意点もあります。

通常アソシエーションルールを考える場合、計算コストの配慮やリフト値が極端になることを避けるため、全組み合わせで算出するわけではなく「支持度がいくつ以下は対象としない」といった足切りラインを設ける場合があります。
しかし、事前に全種類、もしくはいくつ以上はレコメンドしたいといったビジネスサイドでの制約条件がある場合、上記を配慮した閾値設定が難しくなる場合があります。
このように状況に応じて複数の制約条件が発生しうるため、目的や要求に応じて優先順位を明確にし、検証を進める必要があります。

お気軽にご相談ください!

当サイトの運営会社であるデータアナリティクスラボ株式会社は、データサイエンティストのプロフェッショナルサービスを提供しています。アソシエーション分析による分析実績も多数ございますのでお気軽にご相談ください。

ご相談・お問い合わせはこちらから

そのほかの活用事例

医療分野での活用

アソシエーション分析を活用することで、Aという疾患を持つ患者はBという疾患を併発する傾向が高いなどのパターンをデータから発見することが可能になります。これは従来の経験ベースでの知見を客観的なデータに基づいて裏付けるだけでなく、今まで見つかっていなかった未知の併発パターンの発見にもつながる可能性があります。

金融業界での活用

アソシエーション分析を活用することで、特定の取引パターンが不正行為と関連している可能性をデータから発見することが可能になります。例えば、短時間で地理的に離れた場所からの連続取引や、通常の購買パターンと異なる高額決済などが、不正の兆候として検出されるケースです。
また、上記のようなアソシエーション分析の結果を活用することで、不正検知で利用している既存の機械学習モデル精度向上に寄与する新たな特徴量の発見につながることもあります。

注意点

アソシエーション分析の注意点は大きく分けると下記の2つです。

  • データのサンプリング
  • 結果の解釈

データのサンプリング

アソシエーション分析では、偏りがなく、かつ、十分なデータ数(サンプルサイズ)が求められます。

取引件数(≒レシートの枚数)1,000件のお店で、非常にニッチな商品Aは1件だけ購入され、コアなファンが一定数いる商品Bは10件売れたとします(商品AとBの併売数は1)。この場合、期待信頼度は0.01、信頼度は1であるため、リフト値は100となります。

上記の例では、どちらの商品に対してもデータ数が不十分なため、商品Aの購入が商品Bの購入率を100倍引き上げていると考えるのは危険です。なぜなら、仮に商品Aの購入がもう1件増え、その取引では商品Bが併売されなかった場合、リフト値は50まで低下します。わずか1件の変化で指標が大きく変動してしまうため、このようなケースではリフト値の信頼性が十分とは言えません。

特に商品の種類が非常に多いネット通販などの場合、1商品当たりの購入件数は少なくなることもあるため、ある程度の商品カテゴリでまとめたり、足切りラインを設けるなどの工夫が必要と考えられま

結果の解釈について

「アソシエーション分析によってわかること」で紹介した例を用いて説明します。

上記の例では、無条件下と比較して、おにぎりの購入が緑茶の購入率を1.67倍引き上げているという結果が得られましたが、この数値を実際に使用して施策を立ち上げるかは別途検討が必要です。

リフト値の説明で閾値1という値は記載しましたが、これはあくまでも一例であり、多くの場合置かれている状況によって分析者が適切な閾値を設定する必要があります。
分析者の主観のみで判断し、解釈が大きく変化しないよう、業界水準やドメイン知識の豊富な専門家の意見なども参考にして慎重に閾値を設定することが重要です。

また、信用に足る結果が得られたとしても、その原因や購買行動のメカニズム自体が明らかになるわけではありません。アソシエーション分析はあくまでも仮説の探索に効果を発揮する分析手法です。そのためアソシエーション分析の結果を活用して、より高度な分析を用いて因果関係などを明らかにする必要があります。

まとめ

本記事では、アソシエーション分析の基本概念、必要なデータ、活用事例、そして注意点について紹介しました。アソシエーション分析は、商品の併売パターンの発見やレコメンデーションシステムの構築、医療分野における疾患の関連性分析など、幅広い分野で活用される手法です。

一方で、データ数が少ない場合や、人気商品の影響を適切に考慮しない場合、実態とは異なる関連性が強調される可能性があるため、分析対象の設定や閾値の調整を適切に行うことが重要です。こうしたポイントを押さえ進めることで、より実務に即した価値ある示唆を得ることができます。

本記事が、アソシエーション分析の活用を検討する際の一助となれば幸いです。

お気軽にご相談ください!

当サイトの運営会社であるデータアナリティクスラボ株式会社は、データサイエンティストのプロフェッショナルサービスを提供しています。アソシエーション分析による分析実績も多数ございますのでお気軽にご相談ください。

ご相談・お問い合わせはこちらから

こちらもご覧ください

よかったらシェアしてね!

この記事を書いた人

Data Analytics Magazine 編集部です!
ビジネスとデータサイエンスをつなぐメディアとして、日々情報発信いたします!

目次