Column

コラム

GTM × GA4 × BigQuery|BigQueryMLを活用したクラスタ分析

● はじめに


本記事は、マーケティング業務に従事している方であれば一度は聞いた事や触れた事のある、Google Analytics(GA)とGoogle BigQueryを活用したデータ分析事例についてご紹介しております。

DataCurrentでは、クッキーレス対策のひとつとして、Googleソリューションを活用したマーケティング基盤の構築支援を提供しています。クッキーレスに対応したデータ取得方法のみならず、そのデータを活用した機械学習、ダッシュボード開発、分析支援などをサポートします。

帰る

本記事では、分析支援についてご紹介致します。

● こんな方におすすめ

  • 自社のデータだけでも深掘りできる環境を持ちたい
  • 管理画面だけでは施策に活かしづらい
  • 他データと突合させた分析を行いたい

● 従来とGA4の違い

① BigQueryの連携が可能
BigQueryとはGoogle Cloud Platform 内で提供されるサービスで、大規模なクエリによるデータ解析をすることが出来る、データウェアハウスのことを指します。
BigQueryの連携はこれまでのUAの場合、有料版のGA360の契約をする必要がありました。
しかしGA4では無料アカウントでもBigQueryと連携することができ、これまで以上に大規模かつ柔軟な分析が可能になりました。

②GTMのサーバーサイドcookieの活用も可能に!
GTM側でBigQueryエクスポート設定を行うことで、サーバーサイドcookieをGA4ログと一緒にBigQueryに格納し、活用することが可能になりました。

●BigQueryMLについて


  • BigQueryで専門知識がなくても機械学習(モデルの作成、モデルの評価、予測)を
    実施することが可能
  • SQLの知識があればできる(Python不要)
  • 線形回帰、ロジスティック回帰、クラスタリング等さまざまな種類の学習ができる

●BigQueryMLでクラスタ分析!


今回は、GA4ログの来訪ページタイトルを用いて、クラスタ分析を行いたい!
※クラスタ分析:特徴が似たものを集めて集落を作り、対象を分類することが出来る

  1. BigQueryに入力データを用意
  2. BigQueryMLを活用した、クラスタ分析を実施
  3. 適切なクラスタ数の選定
  4. クラスタ特徴を解釈

1.BigQueryに入力データを用意

まずは、BigQueryMLを用いて、機械学習を回せる状態にデータを用意する必要がございます。

  • 分析対象者:サイト来訪者ALL
  • ユーザー識別子:ユーザーID(user_id)
  • 説明変数:サイト来訪ページの各カテゴリで分類

↓下記のようなイメージのテーブルを使用します。

データセット

2.BigQueryMLを活用した、クラスタ分析を実施

「model_type= kmeans」「num_clusters = クラスタ数指定」で、クラスタを実施することが可能
まずは、num_clusters = 2(クラスタ数2)を入れて回してみる。

CREATE OR REPLACE MODEL `cluster2`

OPTIONS
(model_type='kmeans',
num_clusters=2) AS 

WITH A AS 
(SELECT user_id,
*** --サイトの各カテゴリ
FROM `GA4ログで用意した入力データ`)
SELECT * 
EXCEPT(user_id) --ユーザー識別子のため、変数から排除
FROM A

3.適切なクラスタ数の選定

BigQueryMLを用いて、クラスタ分けをする方法は分かったけれど
クラスタ数は、どのように決定したらよいのだろうか?

クラスタ数を決定する指標の一つとして、「平均二乗距離」で判断する方法がございます。
今回は、BigQueryMLで、各クラスタ毎にML.EVALUATE関数を用いて、「平均二乗距離」を算出します。

SELECT `cluster2'
model_name,mean_squared_distance
FROM ML.EVALUATE(MODEL `cluster2`)
UNION ALL
・
・
・
SELECT 'cluster7'
model_name,mean_squared_distance
FROM ML.EVALUATE(MODEL `cluster7`)

出力結果

平均二乗距離

平均二乗距離(mean_squared_distance)の値が急に降下する点があり、
この時のクラスター数が、最適なものと判断できるので、折れ線グラフを作成します。

平均二乗距離決定

まずは、様々なクラスタ数で、モデルを作成し
どのクラスタが、最適かを判断することが大事!
今回は、クラスタ数”6”が最適なクラスタですね!

4.クラスタ特徴を解釈

クラスタ作成時に表示される、「評価」タブから、各クラスタの特徴を確認することが可能です!

評価

BIツールを用いてよりクラスタ特徴を把握しやすくしてみました。

解釈の仕方例
・9,100人がクラスタ1に分類されました。
・クラスタ1の特徴は、行で確認可能。
・クラスタ1は、テックコラムが1.52と最も高いため、テックコラム関心が高いとされる。

クラスタ結果_BI

BigQueryMLによるクラスタ結果

  • クラスタ数は6で分類するのが良さそう!

    cluster1:テックコラムへの関心が高い
    cluster2:CDP関心が高い
    cluster3:全般的に興味があるが、特に、CDPと機械学習への関心が高い
    cluster4:API関心が高い
    cluster5:データtipsへの関心が高い
    cluster6:アドテック/CDP/CMP/GA/機械学習などに関心が高い

今回、GTM×GA4×BigQueryによって、機械学習をBigQueryMLで柔軟かつ、素早く行えました!
また、BIツールで可視化することで、GA4の管理画面を見たり自社ダッシュボードを見たりなどの
手間がなく、データを一元管理することも可能です。

● ご紹介まとめ


活用フェーズ

■本日ご紹介した事例の関連サポート
・GA4導入サポート
・GTMタグ設置サポート
・BigQueryエクスポート設定サポート
・BigQueryのデータを活用したSQL分析サポート
・BigQuery機械学習サポート
 ※BQ以外にも、弊社自社開発機械学習ツールなども活用可能
・BIツールを用いた可視化サポート
・GCP認定パートナー、リセール可能
⇒ニーズに合わせた分析と可視化、施策提案までサポート可能です

その他にも、下記コラム記事でGA4についてご紹介しているので是非ご覧ください!

▼GA関連コラム記事
Googleアナリティクス4(GA4)とは?導入とそのポイントについて<前編>
Googleアナリティクス4(GA4)とは?移行とそのポイントについて<後編>

▼GTM×GA4×BigQuery関連コラム記事
GTM×GA4×BigQuery|サーバーサイドcookie単位でUB集計してみた
GTM×GA4×BigQuery|バスケット分析による鉄板コンテンツ
GTM×GA4×BigQuery |データ統合の基本!マッピングテーブル構築
GTM×GA4×BigQuery |サーバーサイドcookieを活用したn1解析

▼GA関連サービス
》「GA4×Google Cloud×GTMを活用したクッキーレス対策」の詳細はこちら

※DC社では、他にもGA4の導入、導入後の活用施策、データを活用した機械学習をご提案させていただいております。ご興味がある方は下記問い合わせ先にご連絡ください。

本件に関するお問い合わせは下記にて承ります。
株式会社DataCurrent
info@datacurrent.co.jp

人気のコラムランキング

PICK UP

【データプライバシーコラム】電気通信事業法改正の解説(2022年7月時点)

CMPPICK UP コラムデータプライバシーデータプライバシーコラム個人情報保護

CMP導入時の注意点

CMPPICK UP コラムデータプライバシーデータプライバシーコラム個人情報保護

Treasure Data CDPを活用したOneID(統合ID)構築4 日付の落とし穴

CDPCDP活用ID統合PICK UP コラム

今、CMPは導入するべきか?

CMPPICK UP コラムデータプライバシーデータプライバシーコラム個人情報保護

TOPへ
戻る