Column

コラム

GTM × GA4 × BigQuery|BigQueryを使って形態素解析してみた

● はじめに


本記事は、マーケティング業務に従事している方であれば一度は聞いた事や触れた事のある、Google Analytics(GA)とGoogle BigQueryを活用したデータ分析事例についてご紹介しております。

DataCurrentでは、クッキーレス対策のひとつとして、Googleソリューションを活用したマーケティング基盤の構築支援を提供しています。クッキーレスに対応したデータ取得方法のみならず、そのデータを活用した機械学習、ダッシュボード開発、分析支援などをサポートします。

本記事では、分析支援についてご紹介致します。

●BigQueryで形態素解析!


今回は、GA4ログのDC社サイト来訪データを活用して、サイト初来訪時の記事タイトルをBigQuery上で形態素解析し、ワードクラウドとして可視化することで頻出単語を確認してみます。

なお、本コラムでの形態素解析では、オープンソース形態素解析エンジンである「Mecab」をBiqQuery上で利用できるよう、あらかじめGoogle Cloud上に環境構築したうえで分析を実行しております。

貢献度分析手順

  1. GA4ログのサイト来訪データから、BigQuery上に入力データ作成
  2. 入力データをもとに形態素解析を実行
  3. 可視化用にkwごとのid数集計
  4. ワードクラウドとしてBIツールで可視化

1.GA4ログのサイト来訪データから、BigQuery上に入力データ作成

まずは、GA4ログのDC社サイト来訪データから、今回の分析に利用するデータを抽出しBiqQuery上にデータセットとして保持します。

  • 分析対象者:DC社サイト初回訪問者
  • 利用カラム:user_pseudo_id(ユーザ-ID)/ event_params_page_title(ページタイトル)

BQで格納されている下記のようなGAログから、下記のようなクエリをデータを抽出します。

SELECT
user_pseudo_id as id,
event_params_page_title as text
FROM 
dc-marketing-295905.CRM.analytics_events_*

where _table_suffix LIKE '2023%'
and event_name = 'first_visit'
and event_params_page_title is not null
group by 1,2

下記のような形式のデータが作成されます。

出力データサンプル1

2.入力データをもとに形態素解析を実行

用意したデータを使って、形態素解析を実行します。
事前に環境構築し定義した関数(mopheme_poc)を用いて形態素解析を実行しています。

今回、BigQueryコンソール上では以下のようなSQLクエリを実行しました。

with mecab as (
  SELECT poc_table.id, poc_table.text, 
  bq_mecab.mopheme_poc(poc_table.text) as result_json 
  FROM test.dc_site_2023 as poc_table
),
format as (
  select id, 
  JSON_VALUE_ARRAY(result_json.hyosokei) as hyosokei, 
  JSON_VALUE_ARRAY(result_json.cost) as cost, 
  JSON_VALUE_ARRAY(result_json.hinshi) as hinshi, 
  JSON_VALUE_ARRAY(result_json.hinshi_sai_bunrui1) as hinshi_sai_bunrui1, 
  JSON_VALUE_ARRAY(result_json.hinshi_sai_bunrui2) as hinshi_sai_bunrui2,
  JSON_VALUE_ARRAY(result_json.hinshi_sai_bunrui3) as hinshi_sai_bunrui3, 
  JSON_VALUE_ARRAY(result_json.katsuyokata) as katsuyokata, 
  JSON_VALUE_ARRAY(result_json.katsuyokei) as katsuyokei, 
  JSON_VALUE_ARRAY(result_json.genkei) as genkei, 
  JSON_VALUE_ARRAY(result_json.yomi) as yomi, 
  JSON_VALUE_ARRAY(result_json.hatsuon) as hatsuon from mecab
)
SELECT * FROM format

このクエリの実行によって下記のような結果が出力されます。

出力データサンプル2

3.可視化用にkwごとのid数集計

形態素解析の実行結果を単語ごとに分解し、ID数をカウントすることで可視化するためのデータを作成します。

実行したクエリサンプルは下記のとおりです。

with A as
(SELECT
id, 
words,
offset
 FROM `project.dataset.result` 
,unnest (hyosokei) as words WITH OFFSET AS offset),
B as
(SELECT
id, 
hinshi,
offset
 FROM `project.dataset.result` 
,unnest (hinshi) as hinshi WITH OFFSET AS offset)
select
words,
hinshi,
count(A.id) as id_count
from A
left join B on
A.id = B.id
and A.offset = B.offset
where hinshi = '名詞'
group by 1,2
order by 3 desc

出力結果は下記のようなデータになります。

出力データサンプル3

4.ワードクラウドとしてBIツールで可視化

3.で作成した単語ごとのID数データをBIツールに接続してワードクラウドを作成します。今回はTableauを用いて可視化をします。

ワードクラウドとして可視化した結果が下記のイメージです。

ワードクラウドイメージ

このように、GA4ログからサイトの頻出単語の傾向を可視化することができました。

まとめ

今回、GTM×GA4×BigQueryによって、形態素解析をBigQuery上で行う事例をご紹介いたしました。
また、BIツールで可視化することで、GA4の管理画面を見たり自社ダッシュボードを見たりなどの
手間がなく、データを一元管理することも可能です。


● ご紹介まとめ


GTM×GA×BigQuery活用イメージ

■本日ご紹介した事例の関連サポート
・GA4導入サポート
・GTMタグ設置サポート
・BigQueryエクスポート設定サポート
・BigQueryのデータを活用したSQL分析サポート
・BigQuery機械学習サポート
 ※BQ以外にも、弊社自社開発機械学習ツールなども活用可能
・BIツールを用いた可視化サポート
・GCP認定パートナー、リセール可能
⇒ニーズに合わせた分析と可視化、施策提案までサポート可能です

その他にも、下記コラム記事でGA4についてご紹介しているので是非ご覧ください!

▼GA関連コラム記事
Googleアナリティクス4(GA4)とは?導入とそのポイントについて<前編>
Googleアナリティクス4(GA4)とは?移行とそのポイントについて<後編>

▼GTM×GA4×BigQuery関連コラム記事
GTM×GA4×BigQuery|サーバーサイドcookie単位でUB集計してみた
GTM×GA4×BigQuery|バスケット分析による鉄板コンテンツ
GTM×GA4×BigQuery |データ統合の基本!マッピングテーブル構築
GTM×GA4×BigQuery |サーバーサイドcookieを活用したn1解析
GTM×GA4×BigQuery |BigQueryMLを活用した、クラスタ分析

▼GA関連サービス
》「GA4×Google Cloud×GTMを活用したクッキーレス対策」の詳細はこちら

※DC社では、他にもGA4の導入、導入後の活用施策、データを活用した機械学習をご提案させていただいております。ご興味がある方は下記問い合わせ先にご連絡ください。

本件に関するお問い合わせは下記にて承ります。
株式会社DataCurrent
info@datacurrent.co.jp

人気のコラムランキング

PICK UP

【データプライバシーコラム】電気通信事業法改正の解説(2022年7月時点)

CMPPICK UP コラムデータプライバシーデータプライバシーコラム個人情報保護

CMP導入時の注意点

CMPPICK UP コラムデータプライバシーデータプライバシーコラム個人情報保護

Treasure Data CDPを活用したOneID(統合ID)構築4 日付の落とし穴

CDPCDP活用ID統合PICK UP コラム

今、CMPは導入するべきか?

CMPPICK UP コラムデータプライバシーデータプライバシーコラム個人情報保護

TOPへ
戻る