2023.03.08 コラム
GTM × GA4 × BigQuery|BigQueryを使って形態素解析してみた
● はじめに
本記事は、マーケティング業務に従事している方であれば一度は聞いた事や触れた事のある、Google Analytics(GA)とGoogle BigQueryを活用したデータ分析事例についてご紹介しております。
DataCurrentでは、クッキーレス対策のひとつとして、Googleソリューションを活用したマーケティング基盤の構築支援を提供しています。クッキーレスに対応したデータ取得方法のみならず、そのデータを活用した機械学習、ダッシュボード開発、分析支援などをサポートします。
本記事では、分析支援についてご紹介致します。
●BigQueryで形態素解析!
今回は、GA4ログのDC社サイト来訪データを活用して、サイト初来訪時の記事タイトルをBigQuery上で形態素解析し、ワードクラウドとして可視化することで頻出単語を確認してみます。
なお、本コラムでの形態素解析では、オープンソース形態素解析エンジンである「Mecab」をBiqQuery上で利用できるよう、あらかじめGoogle Cloud上に環境構築したうえで分析を実行しております。
貢献度分析手順
- GA4ログのサイト来訪データから、BigQuery上に入力データ作成
- 入力データをもとに形態素解析を実行
- 可視化用にkwごとのid数集計
- ワードクラウドとしてBIツールで可視化
1.GA4ログのサイト来訪データから、BigQuery上に入力データ作成
まずは、GA4ログのDC社サイト来訪データから、今回の分析に利用するデータを抽出しBiqQuery上にデータセットとして保持します。
- 分析対象者:DC社サイト初回訪問者
- 利用カラム:user_pseudo_id(ユーザ-ID)/ event_params_page_title(ページタイトル)
BQで格納されている下記のようなGAログから、下記のようなクエリをデータを抽出します。
SELECT user_pseudo_id as id, event_params_page_title as text FROM dc-marketing-295905.CRM.analytics_events_* where _table_suffix LIKE '2023%' and event_name = 'first_visit' and event_params_page_title is not null group by 1,2
下記のような形式のデータが作成されます。
2.入力データをもとに形態素解析を実行
用意したデータを使って、形態素解析を実行します。
事前に環境構築し定義した関数(mopheme_poc)を用いて形態素解析を実行しています。
今回、BigQueryコンソール上では以下のようなSQLクエリを実行しました。
with mecab as ( SELECT poc_table.id, poc_table.text, bq_mecab.mopheme_poc(poc_table.text) as result_json FROM test.dc_site_2023 as poc_table ), format as ( select id, JSON_VALUE_ARRAY(result_json.hyosokei) as hyosokei, JSON_VALUE_ARRAY(result_json.cost) as cost, JSON_VALUE_ARRAY(result_json.hinshi) as hinshi, JSON_VALUE_ARRAY(result_json.hinshi_sai_bunrui1) as hinshi_sai_bunrui1, JSON_VALUE_ARRAY(result_json.hinshi_sai_bunrui2) as hinshi_sai_bunrui2, JSON_VALUE_ARRAY(result_json.hinshi_sai_bunrui3) as hinshi_sai_bunrui3, JSON_VALUE_ARRAY(result_json.katsuyokata) as katsuyokata, JSON_VALUE_ARRAY(result_json.katsuyokei) as katsuyokei, JSON_VALUE_ARRAY(result_json.genkei) as genkei, JSON_VALUE_ARRAY(result_json.yomi) as yomi, JSON_VALUE_ARRAY(result_json.hatsuon) as hatsuon from mecab ) SELECT * FROM format
このクエリの実行によって下記のような結果が出力されます。
3.可視化用にkwごとのid数集計
形態素解析の実行結果を単語ごとに分解し、ID数をカウントすることで可視化するためのデータを作成します。
実行したクエリサンプルは下記のとおりです。
with A as (SELECT id, words, offset FROM `project.dataset.result` ,unnest (hyosokei) as words WITH OFFSET AS offset), B as (SELECT id, hinshi, offset FROM `project.dataset.result` ,unnest (hinshi) as hinshi WITH OFFSET AS offset) select words, hinshi, count(A.id) as id_count from A left join B on A.id = B.id and A.offset = B.offset where hinshi = '名詞' group by 1,2 order by 3 desc
出力結果は下記のようなデータになります。
4.ワードクラウドとしてBIツールで可視化
3.で作成した単語ごとのID数データをBIツールに接続してワードクラウドを作成します。今回はTableauを用いて可視化をします。
ワードクラウドとして可視化した結果が下記のイメージです。
このように、GA4ログからサイトの頻出単語の傾向を可視化することができました。
まとめ
今回、GTM×GA4×BigQueryによって、形態素解析をBigQuery上で行う事例をご紹介いたしました。
また、BIツールで可視化することで、GA4の管理画面を見たり自社ダッシュボードを見たりなどの
手間がなく、データを一元管理することも可能です。
● ご紹介まとめ
■本日ご紹介した事例の関連サポート
・GA4導入サポート
・GTMタグ設置サポート
・BigQueryエクスポート設定サポート
・BigQueryのデータを活用したSQL分析サポート
・BigQuery機械学習サポート
※BQ以外にも、弊社自社開発機械学習ツールなども活用可能
・BIツールを用いた可視化サポート
・GCP認定パートナー、リセール可能
⇒ニーズに合わせた分析と可視化、施策提案までサポート可能です
その他にも、下記コラム記事でGA4についてご紹介しているので是非ご覧ください!
▼GA関連コラム記事
⇒Googleアナリティクス4(GA4)とは?導入とそのポイントについて<前編>
⇒Googleアナリティクス4(GA4)とは?移行とそのポイントについて<後編>
▼GTM×GA4×BigQuery関連コラム記事
⇒GTM×GA4×BigQuery|サーバーサイドcookie単位でUB集計してみた
⇒GTM×GA4×BigQuery|バスケット分析による鉄板コンテンツ
⇒GTM×GA4×BigQuery |データ統合の基本!マッピングテーブル構築
⇒GTM×GA4×BigQuery |サーバーサイドcookieを活用したn1解析
⇒GTM×GA4×BigQuery |BigQueryMLを活用した、クラスタ分析
▼GA関連サービス
》「GA4×Google Cloud×GTMを活用したクッキーレス対策」の詳細はこちら
※DC社では、他にもGA4の導入、導入後の活用施策、データを活用した機械学習をご提案させていただいております。ご興味がある方は下記問い合わせ先にご連絡ください。
本件に関するお問い合わせは下記にて承ります。
株式会社DataCurrent
info@datacurrent.co.jp